WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


На правах рукописи

Барахнин Владимир Борисович ПРОГРАММНЫЕ СИСТЕМЫ ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ НАУЧНОЙ ДЕЯТЕЛЬНОСТИ:

МОДЕЛИ, СТРУКТУРЫ И АЛГОРИТМЫ 05.13.17 теоретические основы информатики А В Т О Р Е Ф Е Р А Т диссертации на соискание ученой степени доктора технических наук

Новосибирск - 2010

Работа выполнена в Институте вычислительных технологий Сибирского отделения Российской академии наук

Научный консультант:

член-корреспондент РАН, доктор физико-математических наук, профессор А. М. Федотов

Официальные оппоненты:

член-корреспондент РАН, доктор физико-математических наук, профессор В. В. Шайдуров доктор технических наук, профессор В. Ф. Хорошевский доктор технических наук, профессор С. В. Мальцева

Ведущая организация:

Институт математики Сибирского отделения Российской академии наук

Защита состоится “18” февраля 2011 г. в 1230 на заседании диссертационного совета Д 212.147.03 при Московском государственном университете печати по адресу: 127550, Москва, ул. Прянишникова, 2а.

С диссертацией можно ознакомиться в читальном зале библиотеки МГУП.

Автореферат разослан “15” декабря 2010 г.

Ученый секретарь диссертационного совета д.т.н., профессор В. Н. Агеев

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы. Происшедшее за последние 10–15 лет бурное развитие высоких технологий в области передачи и обработки информации, в частности создание современных телекоммуникационных систем (прежде всего сети Интернет), привело к появлению принципиально новых возможностей организации практически всех этапов научно-информационного процесса, что в свою очередь обусловило качественный рост информационных потребностей научных работников.

К наиболее перспективным направлениям развития информационного обеспечения научной деятельности относятся информационные технологии. В данном исследовании речь пойдет только о тех способах удовлетворения информационных потребностей научного сообщества, которые базируются на электронных технологиях. В рамках указанного подхода основным инструментом информационного обеспечения научной деятельности являются информационные системы.

В настоящее время научные сообщества наиболее развитых стран и регионов мира обладают достаточно мощными информационными системами. В Европе функционирует интегрированная система ERGO, являющаяся частью проекта CORDIS. Среди американских разработок своими масштабами выделяется информационная система Библиотеки конгресса США. К числу наиболее крупных и востребованных научным сообществом отечественных информационных систем относятся Единое научное информационное пространство (ЕНИП) РАН, “Информика”, Университетская информационная система РОССИЯ, Научная электронная библиотека eLIBRARY, Соционет. Методология разработки программных систем информационного обеспечения различных аспектов научной деятельности на базе новых интернет-технологий предложена в работах Ю.И.Шокина и А.М.Федотова; А.Б.Жижченко, В.А.Серебрякова, А.Н.Бездушного и соавторов; А.Н.Тихонова, А.Д.Иванникова, В.П.Кулагина и соавторов; С.В.Мальцевой и др.

Названные системы в той или иной степени удовлетворяют потребностям исследователей в информации, однако каждая из них страдает определенными недостатками.

Во-первых, существенной проблемой большинства программных систем информационного обеспечения научной деятельности является недостаточно своевременная актуализация информации, особенно проявляющаяся при включении в научноинформационный процесс слабоструктурированных документов (т.е. документов, у которых значения атрибутов метаданных, как содержательных, так и структурных, не являются элементами заданных словарей). Наибольшие проблемы вызывает организация поиска по предметным классификаторам, поскольку слабоструктурированные документы нередко лишены соответствующих классификационных признаков.

Во-вторых, построение масштабных информационных систем для поддержки научной деятельности требует распределенного хранения информации. Отсюда неизбежно возникает проблема интероперабельности, то есть обеспечения взаимодействия разнородных информационных источников (как с целью их непосредственной интеграции, так и для организации поиска по однотипным подсистемам различных информационных систем). К сожалению, большинство информационных систем не обладает такими современными средствами обеспечения интероперабельности, как возможность работы со службой директорий, а также возможность интеграции с другими системами по схемам данных.

В-третьих, при создании информационных систем зачастую недостаточное внимание уделяется вопросам организации взаимодействия разрабатываемой системы с потребителями информации. Для возможности эффективного восприятия человеком данных нужно, чтобы они были превращены в “информацию” и “знания”. Сказанное, в частности, означает, что предполагаемая возможность извлечения из содержащихся в информационной системе данных новой информации и знаний1 влечет за собой необходимость наличия связей между документами, содержащими упоминание тех или иных сущностей, с документами, описывающими эти сущности.

Преодоление указанных проблем возможно путем создания интеллектуальных информационных систем, в качестве составных компонентов которых выступают, наряду с традиционной информационной системой, еще и рассуждающая информационная система (формализующая правила логического вывода), а также интеллектуальный интерфейс (диалог, графика и т.д.), благодаря которому компьютер в диалоговом режиме усиливает комбинаторное мышление и логические возможности человека.

Развитие сети Интернет предоставило создателям интеллектуальных информационных систем новые возможности, связанные с одновременным доступом ко множеству разнородных источников данных, что открывает широкие перспективы в развитии более совершенных технологий получения знаний. Однако многие современные исследования в области интеллектуального поиска опираются на неявное предположение о возможности широкого распространения более или менее подробной стандартизации представления информации. Разумеется, реализация подобных проектов, прежде всего концепции Semantic Web консорциума W3, позволила бы вывести работу с информацией на качественно новый уровень. Однако важная особенность сети Интернет как феномена цивилизации заключается в том, что развитие информационных ресурсов сети изначально носит децентрализованный характер, поэтому многие ресурсы, содержащие важную информацию из той или иной предметной области, не соответствуют рекомендациям консорциума W3. Отметим, что на большинстве сайтов документы являются слабоструктурированными, т.е. значения атрибутов их метаданных носят достаточно произвольный характер, а не являются элементами заданных словарей (это относится как к содержательным, так и к структурным метаданным).

Алгоритмы обработки слабоструктурированных документов описаны в работах как зарубежных (В.Крещенди, Дж.Мекка, П.Мериальдо, 2001; А.Сауджет, Ф.Азавант, 2001, и др.), так и отечественных (И.Некрестьянов, Е.Павлова, 2002, И.В.Некрасов, В.O.Толчеев, 2005, и др.) авторов. Основная идея таких алгоритмов базируется, как правило, на анализе их html-разметки. Однако имеются важные нерешенные проблемы:

1. Из документов извлекаются лишь те данные, которые присутствуют непосредственно в них самих, хотя в удаленных библиографических базах данных зачастую содержатся более подробные описания документов, которые сделаны экспертами, включающие коды классификатора (обычно отсутствующие в самих документах), ключевые слова и др.

2. Координатное индексирование русскоязычных документов, как правило, ограничивается однословными терминами (что объясняется отсутствием соответствующих алгоритмов ввиду сложности морфологического анализа русских словосочетаний).

Таким образом, весьма актуальна решаемая в диссертационной работе проблема теоретического обоснования и разработки технологических основ создания программВ диссертационном исследовании речь идет, прежде всего, об извлечении знаний о документах и об описываемых этими документами сущностях.

ных систем, обеспечивающих автоматизированное включение в научно-информационный процесс слабоструктурированных документов с целью получения на основании содержащихся в них данных новой информации и знаний.

Цель работы: теоретическое обоснование, разработка и реализация принципов создания программных систем информационного обеспечения научной деятельности, способных в автоматизированном режиме извлекать данные (описательные характеристики) из слабоструктурированных электронных документов с целью получения на основании этих данных новой информации и знаний.

Задачи, решаемые в работе:

1. Анализ информационных потребностей научного сообщества в свете изменений, вызванных распространением интернет-технологий, а также новыми принципами функционирования и финансирования российской науки, основанный на сравнении характеристик информационных потребностей, изучении интеграционных проектов СО РАН и исследовании интернет-сайтов.

2. Разработка методологии комплексного изучения интернет-сайтов, учитывающей их информационное наполнение, организацию хранения и обработки данных, а также роль в информационном обеспечении соответствующего вида деятельности.

3. Создание модели информационного обеспечения деятельности научного сообщества, включая научно-организационную и научно-инновационную деятельность.

4. Разработка отвечающей основным системным принципам модели информационной системы.

5. Разработка информационной модели отношений и тематических связей между документами системы.

6. Разработка структуры логических компонентов системы, отвечающих за поиск информации, вывод новых знаний и диалог с пользователем.

7. Описание многомерных классификационных признаков, отвечающих такой совокупности заранее сформулированных информационных запросов, которая была бы в состоянии удовлетворить основные информационные потребности пользователей системы, а также выделение соответствующих классификационных признаков для систем информационного обеспечения научной, научно-организационной и научно-инновационной деятельности.

8. Разработка методики создания тезаурусов и онтологий, обеспечивающей высококвалифицированное описание предметной области с использованием надежно выверенных терминов и позволяющей провести начальный этап работы с минимальным привлечением специалистов экспертов в данной предметной области.

9. Исследование принципов и разработка алгоритмов автоматизации научноинформационного процесса с участием слабоструктурированных документов, который включает извлечение метаданных из документов, координатное индексирование терминами-словосочетаниями и классификацию (кластеризацию) документов.

Методы исследования. В диссертации использованы методы информатики как науки о структуре и свойствах семантической информации, системного анализа, теории кибернетических систем, семиотики, теории моделирования баз данных, теории сходства, математического моделирования, а также информационные технологии.

Объект исследования. Данные, содержащиеся в слабоструктурированных текстовых электронных документах научной и научно-организационной тематики.

Предмет исследования. Модели, структуры и алгоритмы, описывающие программные системы информационного обеспечения научной деятельности, предназначенные для работы со слабоструктурированными документами с целью получения на основании содержащихся в них данных новой информации и знаний.

Научная новизна. Полученный в работе комплекс теоретических результатов, обобщений и исследований позволил решить научно-техническую проблему теоретического обоснования и разработки технологических основ создания программных систем, обеспечивающих автоматизированное включение в научно-информационный процесс слабоструктурированных документов с целью получения на основании содержащихся в них данных новой информации и знаний.

Наиболее существенные научные результаты заключаются в следующем:

– Обоснована методология комплексного изучения интернет-сайтов.

– Предложена модель информационного обеспечения деятельности научного сообщества, отличительными особенностями которой являются четкое выделение субъектов (включая организации и группы) и объектов деятельности, а также неиерархичность структуры субъектов деятельности.

– Разработана отвечающая основным системным принципам модель информационной системы, отличительной особенностью которой является использование в качестве основных структурных элементов документов (целостных информационных объектов, снабженных метаданными), связи между которыми задаются посредством направленных связей.

– Разработана структура логических компонентов интеллектуальной системы, базовыми объектами которой являются каталог, объединяющий поисковые образы исходных документов, и онтология предметной области.

– Предложена базовая структура представления информации на основании многомерной классификации, описываемая посредством задания подмножества метаданных, определяющего набор классификационных признаков, и сочетаний значений этих метаданных.

– Разработана методика создания тезаурусов и онтологий на основе предметного указателя специализированных энциклопедий, отличительной особенностью которой является возможность автоматизированного установления связей между терминами.

– Исследованы принципы и предложены алгоритмы автоматизации основных этапов научно-информационного процесса с участием слабоструктурированных документов (включая извлечение метаданных, определение ключевых слов, классификацию и кластеризации), причем программные средства, реализующие эти алгоритмы, функционируют как сетевые приложения.

Достоверность и обоснованность научных положений, результатов, выводов и рекомендаций, приведенных в диссертационной работе, обеспечиваются применением надежных методов исследования, корректностью использования адекватного математического аппарата и подтверждены результатами использования предложенных информационных моделей и структур при создании целого ряда разделов Информационно-справочной системы Сибирского отделения РАН, применением разработанных алгоритмов обработки слабоструктурированной информации для развития разрабатываемых в институтах СО РАН информационных систем по конкретным направлениям наук, а также апробацией и обсуждением результатов работы на международных и всероссийских научных конференциях, рецензированием и предварительной экспертизой научных статей, опубликованных в ведущих научных изданиях.

Практическая значимость и внедрение. На основе полученных в работе теоретических результатов и методических рекомендаций создан комплекс методов, обеспечивающий решение важной научно-технической задачи: включения в научноинформационный процесс слабоструктурированных интернет-документов с целью получения на основании содержащихся в них данных новой информации и знаний.

Результаты работы использованы при выполнении проекта конкурса молодых ученых ННЦ СО РАН “Интегрированная информационная система научного сообщества (пилотный проект система Математика )” (автор выступал в роли руководителя проекта); молодежного научного проекта СО РАН № 2003–6 “Разработка информационной системы Web-ресурсы математического содержания ” (автор выступал в роли руководителя проекта); проектов программы поддержки ведущих научных школ РФ № НШ–2314.2003.1 “Информационно-вычислительные технологии в задачах принятия решений”, № НШ–9886.2006.9 и № НШ–931.2008.9 “Разработка информационновычислительных технологий в задачах принятия решений”, НШ–6068.2010.9 “Разработка информационно-вычислительных технологий поддержки принятия решений”; Федеральной целевой программы “Научные и научно-педагогические кадры инновационной России” на 2009-2013 гг. (госконтракт ГК № П484 от 04.08.2009 г. по проблеме “Создание научно-технического задела, направленного на разработку новых, эффективных с позиций функциональности и безопасности, основанных на онтологиях, мультиагентных технологий управления распределенными разнородными информационными хранилищами и библиотеками информационных ресурсов”); госконтрактов “Технология разработки распределенных программных систем для мониторинга больших корпоративных научно-образовательных сетей передачи данных на базе современных методов интеллектуального анализа данных и машинного обучения” (шифр 2007–4–1.4–00–04– 103) и “Технология разработки распределенных программных систем для мониторинга и обеспечения информационной безопасности информационных систем, потенциально уязвимых в отношении деструктивных информационных воздействий” (шифр 2007–4– 1.4–15–04–004); проектов РФФИ № 03–07–90423–в “Виртуальный музей науки и техники СО РАН”, № 06–07–89060–а “Разработка модели виртуальной среды для обмена результатами научных исследований”, № 06–07–99003–с “Ресурсы сети Интернет как объект научного исследования” (конкурс научно-популярных статей, в соавторстве с А. М. Федотовым), № 07–07–00271–а “Разработка и анализ модели управления доступом к распределенным информационным ресурсам” № 09-07-00277–а “Разработка технологий построения распределенных интегрируемых систем обработки, хранения и передачи информационных ресурсов на основе открытых спецификаций моделей данных”, № 10-07-00302–а “Разработка и анализ модели построения электронных библиотек на основе международных стандартов”; интеграционных проектов СО РАН № 2003–1“Виртуальный музей науки и техники СО РАН”, № 2006–34 “Создание распределенной информационно-аналитической среды для исследований экологических систем”, № 2006–35 “Древовидный каталог математических интернет-ресурсов”, № 2006–115 “Разработка интеллектуальных информационных технологий генерации и анализа знаний для поддержки фундаментальных научных исследований в области естественных наук”, № 2009–50 “Модели изменения биосферы на основе баланса углерода (по натурным и спутниковым данным и с учетом вклада бореальных экосистем)”.

Результаты исследований были отмечены премией конкурса Администрации Новосибирской области за научные разработки молодых ученых и премией Благотворительного фонда В. Потанина за победу в конкурсе “Лучшие молодые преподаватели вузов Сибирского федерального округа”.

Результаты исследований внедрены в Информационно-справочной системе СО РАН, занимающей, по данным на июль 2010 г. рейтинга Webometrics, в который входят сайты ведущих научно-исследовательских центров всего мира, 1-е место среди российских сайтов (19-е в Европе, 54-е в мире), а также использованы в процессе создания ряда систем информационного обеспечения научной деятельности: Электронного атласа биоразнообразия животного и растительного мира Сибири, Электронной библиотеки MathTree, Распределенной информационно-аналитической среды для экологических исследований, сайта журнала “Вычислительные технологии”.

Результаты диссертационной работы использованы в учебном процессе кафедры математического моделирования Новосибирского государственного университета, кафедры вычислительных технологий Новосибирского государственного технического университета и кафедры прикладной математики и кибернетики Сибирского государственного университета телекоммуникаций и информатики.

Основные положения, выносимые на защиту. Технологические основы создания программных систем, обеспечивающих автоматизированное включение в научно-информационный процесс слабоструктурированных документов с целью получения на основании содержащихся в них данных новой информации и знаний, включающие в себя:

– модель информационного обеспечения деятельности научного сообщества, отличающуюся от известных четким выделением субъектов и объектов деятельности;

– отвечающую основным системным принципам модель информационной системы, представляемой как множество документов (целостных информационных объектов, снабженных метаданными), связи между которыми задаются посредством направленных связей;

– оригинальный алгоритм создания тезаурусов и онтологий на основе предметных указателей специализированных энциклопедий;

– принципы и алгоритмы автоматизации основных этапов научно-информационного процесса с участием слабоструктурированных документов (включая извлечение метаданных, определение ключевых слов, классификацию и кластеризцию), причем программные средства, реализующие эти алгоритмы, функционируют как сетевые приложения.

Апробация результатов исследования. Основные положения диссертации обсуждались на многих международных, всероссийских и региональных конференциях, в том числе на Всероссийских научных конференциях “Электронные библиотеки:

перспективные методы и технологии, электронные коллекции” – RCDL (Дубна, 2002;

Санкт-Петербург, 2003; Ярославль, 2005; Суздаль, 2006; Переславль–Залесский, 2007;

Дубна, 2008; Петрозаводск, 2009; Казань, 2010); Второй Международной конференции IASTED по автоматизации управлению и информационным технологиям (Новосибирск, 2005); Международных конференциях и совещаниях по электронным публикациям – El-Pub (Новосибирск, 2002, 2003, 2004); Всероссийских конференциях с участием иностранных ученых “Распределенные информационно-вычислительные ресурсы” – DICR (Новосибирск, 2005, 2008); Международной конференции “Распределенные информационно-вычислительные ресурсы” (Казахстан, Павлодар, 2006); Международной конференции “Вычислительные и информационные технологии в науке, технике и образовании” (Казахстан, Алма–Ата, 2004); Международных конференциях “Системный анализ и информационные технологии” – САИТ (Переславль–Залесский, 2005;

Звенигород, 2009); Международной конференции “Мальцевские чтения” (Новосибирск, 2008), Всероссийских конференциях с международным участием “Знания – Онтологии – Теории” – ЗОНТ (Новосибирск, 2007, 2009); Всероссийских научно-практических конференциях “Инновационные недра Кузбасса. IT-технологии” (Кемерово, 2005, 2007, 2008); Всероссийской научно-практической конференции “Системы автоматизации в образовании, науке и производстве” (Новокузнецк, 2007); Всероссийских конференциях молодых ученых по математическому моделированию и информационным технологиям (Красноярск, 2003; Монголия, Ханх, 2009 лекционный доклад; Красноярск, 2010 лекционный доклад); Конференциях молодых ученых СО РАН, посвященных М. А. Лаврентьеву (Новосибирск, 2003, 2004); а также на семинарах и совещаниях в Институте вычислительных технологий СО РАН, Институте системного анализа РАН, Институте математики СО РАН, Институте систем информатики СО РАН, Институте динамики систем и теории управления СО РАН, Московском государственном университете печати, Новосибирском государственном университете и др.

Публикации. Результаты диссертации опубликованы в 57 работах (список приведен в конце автореферата), включая 21 статью в ведущих журналах, рекомендованных ВАК РФ [1–21], 1 статью в журнале “Электронные библиотеки” [22], 13 статей в сборниках трудов международных конференций [23–35], 22 статьи в сборниках трудов всероссийских конференций [36–57].

В работах, выполненных в соавторстве, В.Б.Барахнину принадлежат результаты, относящиеся к исследованию информационных потребностей научного сообщества, разработке информационной модели описания деятельности научного сообщества, моделей и структур основных компонентов интеллектуальной системы, модели направленных связей между документами, базовых структур представления информации, разработке методики комплексного изучения интернет-сайтов, разработке методики создания тезаурусов и онтологий на основе предметного указателя энциклопедий, исследованию принципов и созданию алгоритмов автоматизации научно-информационного процесса с участием слабоструктурированных интернет-документов, а также результаты по практическому использованию этих алгоритмов.

Структура и объем диссертации. Диссертация состоит из введения, 7 глав, заключения, списка использованных источников из 285 наименований, приложений (в т.ч. актов и справок о внедрении результатов в научных учреждениях и в учебный процесс вузов). Общий объем работы 315 страниц, включая 24 рисунка и 8 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ Во введении обосновывается актуальность диссертации, сформулированы цели, задачи, объект, предмет и методы исследования, приведены научная новизна и практическая ценность работы, дана общая характеристика работы.

В первой главе излагаются теоретические основы создания программных систем информационного обеспечения научной деятельности.

В § 1.1 на основе семиотического подхода проведено уточнение терминологии, используемой в исследовании. Речь идет о терминах “информация”, “знание”, “тезаурус”, “онтология”, “информационная система”, “интеллектуальная информационная система”.

На основании анализа работ К.Шеннона, Л.Бриллюэна, С.Голдмана, А.А.Колмогорова, А.Н.Ляпунова, А.И.Михайлова, Р.С.Гиляревского, А.И.Черного, П.Чена, Ю.А.Шрейдера, У.Шрамма, Р.Акоффа, Ф.Эмери, В.Гитта, Ю.М.Арского, И.М.Зацмана изучена эволюция понятия “информация”. Показано, что наиболее полно различные аспекты термина “информация” отражены в модели В.Гитта (1982), согласно которой сообщение может нести до 5 уровней информации: статистический, синтаксический, семантический, прагматический и т.н. апобетический. При этом наличие в некотором сообщении информации высокого уровня влечет за собой наличие информации всех низших высоких уровней, но, разумеется, не наоборот. Идеи, весьма близкие к тем, которые воплощены в модели В.Гитта, однако в несколько менее стройной форме, были высказаны в монографии Ю.А.Шрейдера и А.А.Шарова (1982).

Показано, что нижний уровень модели соответствует шенноновскому значению термина “информация”, три последующих семиотической триаде (синтактика семантика прагматика), а верхний уровень носит, скорее, философский характер.

Важно подчеркнуть, что семиотический подход фактически использован при определении базисных понятий в фундаментальной монографии ВИНИТИ “Инфосфера” (1996). Данные понимаются в ней (в соответствии с традиционным подходом) как факты и идеи, представленные в символьной форме, позволяющей проводить их передачу, обработку и интерпретацию, а информация как смысл, приписываемый данным на основании известных правил представления фактов и идей. Структурированная (связанная причинно-следственными и иными отношениями) информация, образующая систему, составляет знания. Исходя из этого понимания терминов “данные”, “информация”, “знания”, можно сказать, что данные соответствуют синтаксическому уровню сообщения, информация (в узком смысле!) семантическому, а знания прагматическому.

Термин “тезаурус” прочно вошел в профессиональную лексику специалистов в области информатики в середине 1950-х годов (Кембриджская группа по исследованию языка, Ч.Берньер), причем определения тезауруса непринципиально варьировались в зависимости от класса задач, для решения которых предназначался тезаурус. Применительно к задачам информационного поиска под тезаурусом понимался так называемый нормативный тезаурус словарь-справочник, содержащий все лексические единицы информационно-поискового языка дескрипторы, причем дескрипторы в словаре должны быть систематизированы по смыслу, а смысловые связи между ними эксплицитно выражены.

Однако в 1990-х годах в информатике, наряду с термином “тезаурус”, стал употребляться близкий по смыслу термин “онтология”. В настоящее время под онтологией нередко стали понимать широкий спектр структур, представляющих знания о той или иной предметной области с разной степенью формализации, при этом в работах многих авторов термин “онтология” начал употребляться вместо термина “тезаурус”. Возникла ситуация, когда разными терминами стали называть один и тот же объект. Попытка разрешения коллизии сделана в работах А.С.Нариньяни, причем в основе проделанного им анализа лежит семиотическая методология. Из его работ вытекает следующий практический вывод: тезаурус становится онтологией тогда, когда связи между дескрипторами не просто эксплицированы (как это предусмотрено в классическом определении), но и классифицированы.

Наконец, когда в исследовании идет речь об программных системах информационного обеспечения научной деятельности, подразумеваются интеллектуальные информационные системы, включающие в себя (“Инфосфера”), наряду с информационной системой (понимаемой, в узком значении термина, как множество связанных между собой ресурсов), логическую систему, интеллектуальный интерфейс, а также средства автоматического пополнения базы данных и извлечения данных из текстов. Такие системы обладают новыми возможностями по сравнению с классическими информационнопоисковыми системами, позволяя удовлетворить квалифицированного пользователя в соответствии со схемой “документ факт рассуждение”, то есть, в соответствии с приведенными выше определениями, интеллектуальные информационные системы позволяют не только извлекать из данных информацию, но и получать новые знания.

На основании изложенного сделан вывод, что функционирование интеллектуальной информационной системы основано на двух противоположных процессах: при ее пополнении новыми сведениями происходит преобразование семантической информации в данные, однако непосредственно потребности пользователя удовлетворяет обратный процесс извлечение из данных нужной пользователю информации и знаний.

В § 1.2 проанализированы основные особенности научно-информационного процесса с участием интернет-документов.

Показано, что важнейшей отличительной особенностью процесса каталогизации интернет-документов является использование метаданных, которые (см. Ю.Е.Хохлов, С.А.Арнаутов), нельзя рассматривать как обычную разновидность каталожного описания документов ввиду специфики области их применения, используемых подходов и т.п. Иными словами, сбор интернет-документов сводится к сбору их метаданных, поскольку, информационная система работает исключительно с метаданными; к тому же непосредственное копирование документов может вызвать серьезные вопросы относительно соблюдения авторских прав.

Согласно стандартам построения открытых систем, структура и содержание документа должны описываться в соответствии с международными схемами данных. Для описания соответствующих схем данных используются метаданные, которые определяют структуру и смысловое содержание документа, а также правила работы с ним.

Показано, что структура метаданных иерархична: наиболее общий характер имеют метаданные, задающие структуру документа, то есть описывающие метаданные более низкого уровня (атрибуты документа), которые определяют содержание документа, наконец, значения этих атрибутов является фактически метаданными по отношению к исходному документу.

Стандарты на метаданные для описания научной информации должны обеспечивать полноту описания основных типов научной информации, открытость для доступа, расширяемость описаний, возможность интеграции информации, уникальную идентификацию информации, распределенность хранения информации, интероперабельность с внешней средой. В наибольшей степени перечисленным требованиям удовлетворяет набор элементов метаданных так называемого Дублинского ядра (Dublin Core), который может быть расширен схемами конкретной предметной области.

Показано, что существующие подходы к сбору метаданных документов в информационных системах недостаточно хорошо подходят для работы со слабоструктурированными документами. Так, электронные библиографические базы (Current Contents, Zentralblatt MATH, Реферативные журналы) содержат составленные экспертами краткие аннотации “бумажных” документов без ссылок на электронные (обычно более подробные, чем аннотация) версии документов и уж тем более без метаданных, задающих ссылки на документы, описывающие персоны авторов. Информационно-поисковые системы научной тематики (каталоги ресурсов) работают с документами после непосредственного согласования форматов метаданных, при этом активно развиваемые в последнее время системы, использующие концепцию Semantic Web, могут работать только с документами, у которых значения метаданных суть элементы заданных словарей. Наконец, поисковые системы общего назначения работают с любыми документами, но слабо используют анализ метаданных, что приводит к к низкой пертинентности найденных документов.

В процессе анализа особенностей процесса обработки интернет-документов отмечено следующее. В тех случаях, когда документ сети Интернет представляет конкретную сущность (книгу, статью и т.п.) или же отображает ее (то есть является точной копией или электронным образом другого документа), подходы к изучению его информационного содержания аналогичны тем, которые применяются в библиотечном деле при изучении информационного содержания полиграфического издания. Если же интернетдокумент описывает реальную сущность, например персону, организацию, артефакт, природный объект и т.д., его стандартного библиографического описания может оказаться явно недостаточно для создания адекватного поискового образа документа. Во избежание этого библиографическое описание дополняется необходимой информацией, относящейся к описываемой сущности, для чего используются стандарты или принятые правила соответствующей предметной области.

Отличительной особенностью интернет-документа является наличие у него сетевого имени, без занесения которого в каталожную карточку документа каталогизация становится бессмысленной. Заметим, что речь идет не только о статических именах:

имя, образуемое при запросе динамически формируемого интернет-документа, также может быть использовано для каталогизации.

Другой особенностью интернет-документа, резко отличающей его от полиграфического издания, является возможность внесения в него изменений. Необходимость оперативного отслеживания изменений важная составляющая процесса каталогизации интернет-документов.

Показано, что задача более или менее полной каталогизации интернет-документов научной и научно-организационной тематики в соответствии с библиографическими стандартами крайне сложна ввиду следующих причин:

1. Огромное количество документов, причем в качестве новых интернет-документов могут выступать давно опубликованные полиграфические документы (так, многие научные журналы постепенно выкладывают на свои сайты статьи, вышедшие в старых номерах).

2. Отсутствие специальных структур, отслеживающих появление новых документов в сети, например, каталогизацией научных интернет-документов обычно занимаются заинтересованные специалисты, работающие в соответствующей предметной области.

3. Необязательность авторской классификации интернет-документов (в отличие от печатных изданий) посредством их аннотирования, приписывания кодов классификатора и т.п., что значительно осложняет процесс каталогизации.

4. Проблема отслеживания изменений документов.

На основании сказанного сделан вывод о том, что важнейшей особенностью интернет-документов является необходимость и возможность частичной автоматизации процесса каталогизации.

Для создания модели информационного обеспечения деятельности научного сообщества необходима разработка методологии комплексного изучения интернет-сайтов, учитывающей, прежде всего, их качественные характеристики (в отличие от традиционных вебометрических методик, делающих упор на статистические характеристики).

В § 1.3 предложена методология комплексного изучения интернет-сайтов.

Выделяются три основных аспекта научного анализа тех или иных артефактов (в т.ч. сайтов):

1) технология производства;

2) сравнительный анализ артефактов на основе их функциональных свойств (систематизация, классификация и т.п.);

3) влияние (в широком смысле) на человека и общество.

Обычно научный интерес представляют лишь некоторые из перечисленных аспектов, притом рассматриваемые по отдельности. Комплексно все три указанных аспекта изучаются лишь в архитектуре (А.В.Иконников), объекты которой имеют принципиальное сходство с сайтами по целому ряду признаков:

1. Если архитектура представляет собой организацию среды физического пребывания человека, то сеть Интернет впервые создает единое информационное пространство человеческой цивилизации.

2. Разнообразие информационных потребностей вызывает необходимость массового производства интернет-сайтов самого разнообразного назначения, сопоставимого с массовым строительством, причем среди технологий, применяемых в мелкосерийном или штучном производстве, технологии строительства и создания интернет-сайтов относятся к числу наиболее сложных, что приводит к необходимости их системного изучения.

3. Архитектурные сооружения и интернет-сайты имеют определенное структурное сходство, так как представляют совокупность более или менее однородных объектов (соответственно помещений и документов), связанных между собой определенным образом.

4. Терминология описания интернет-сайтов во многом заимствована из архитектуры (термины “архитектура сайтов”, “строительство сайтов”, “портал” и проч.).

Особенно ярко данное обстоятельство проявилось в истории развития идеи шаблонов проектирования. Первоначально (К.Александер, 1977) они возникли для решения задач архитектуры, однако наиболее широкое развитие получили в задачах программирования, причем первый шаг в этом направлении (К.Бек, В.Каннингем, 1987) был сделан применительно к технологии создания пользовательских интерфейсов.

Таким образом, для изучения интернет-сайтов с целью создания создания модели информационного обеспечения той или иной сферы деятельности в диссертации обосновано использование комплексного подхода к изучению характеристик интернет-сайтов, при котором сайт исследуется в нескольких взаимосвязанных аспектах:

1) как источник данных, 2) как техническое средство обработки и распространения информации, 3) как социокультурный феномен (традиционно эти аспекты рассматривались по отдельности).

Во второй главе на основании проведенного анализа информационных потребностей научного сообщества построена модель описания его деятельности.

В § 2.1 исследованы основные характеристики информационных потребностей в сфере науки на современном этапе. Основные результаты в этой области получены в монографиях ВИНИТИ “Научные коммуникации и информатика” (1976) и “Инфосфера” (1996), однако происшедшее за последние 10–15 лет развитие высоких технологий в области передачи и обработки информации, в частности, создание современных телекоммуникационных систем (прежде всего сети Интернет как источника множества разнородных документов научной направленности), привело к появлению принципиально новых возможностей организации практически всех этапов научно-информационного процесса, что, в свою очередь, обусловило качественный рост информационных потребностей научного сообщества, выразившийся в желании незамедлительно получать нужную информацию (еще в середине 1990-х годов отмечалось, что для ученых срочность удовлетворения информационных потребностей не важна).

К тому же за указанный период времени в России произошло изменение принципов функционирования и финансирования науки, что также не могло не сказаться на характере информационных потребностей ученых. Так, в монографии “Инфосфера” проведено резкое разграничение информационных потребностей ученых-исследователей, специалистов-инженеров, и управленцев. В настоящее же время благодаря господству высоких технологий размывается грань между наукой и производством, вследствие чего ученые, используя результаты своих фундаментальных исследований, стали более активно заниматься опытно-конструкторскими работами и даже непосредственным производством уникальных наукоемких изделий. Ввиду этого, как показано в диссертации, у ученых возникает потребность не только в научно-исследовательской, но и научно-инновационной информации. Кроме того, выполнение проектов Федерального агентства по науке и инновациям, грантов РФФИ и т.п. требует управленческих навыков, включая использование управленческой (научно-организационной) информации, не только от руководства научных учреждений, но и непосредственно от ученыхисследователей.

В § 2.2 проведено исследование оценки научным сообществом сравнительной важности тех или иных форм удовлетворения информационных потребностей коллективных пользователей. С этой целью проведен анализ тематики интеграционных проектов СО РАН за 2000–2009 гг. в области информатики и ее приложений к задачам других наук (см. табл. 1), который показал, что коллективные пользователи научные учреждения СО РАН особенно нуждаются в разработке специализированных информационных систем на основе интернет-технологий с использованием современных алгоритмов обработки данных и в технологиях получения новых знаний из данных, причем первая из названных задач тесно увязана со второй.

Таблица 1. Распределение интеграционных проектов по тематике (некоторые проекты соответствуют сразу нескольким направлениям).

Годы Моделир. Анализ моделей Телекомм. Анализ данных, Создание информ. систем интеллекта информ.структур системы извлеч. знаний в т.ч. с анализом данных 2000 0 0 20% 40% 80% 25% 2003 8% 0 17% 50% 67% 50% 2006 9% 9% 27% 55% 45% 80% 2009 20% 0 30% 80% 50% 100% На основе анализа интеграционных проектов установлено, что наблюдается рост потребностей коллективных пользователей научных учреждений СО РАН как в разработке специализированных информационных систем, основанных на интернеттехнологиях, так и в технологиях получения новых знаний из данных, причем первая из названных задач тесно увязана со второй.

В § 2.3 показано, что простейшая модель описания деятельности1, имеет вид MD = S1, S2, O1, O2, r si, sj, r si, oj, r oi, oj, где S1 и S2 множества субъектов деятельности (соответственно групп и персон), O1 и O2 множества объектов деятельности (соответственно предметов и продуктов деятельности), r si, sj, r si, oj, r oi, oj связи вида “субъект субъект”, “субъект В диссертационной работе речь идет исключительно о деятельности, связанной с информационными объектами.

объект”, “объект объект” соответственно (номер индекса отвечает тому или иному типу субъекта или объекта).

Путем сравнительного анализа моделей информационного обеспечения деятельности научного сообщества и других видов человеческой деятельности, сходных с ней в том или ином аспекте (производство, искусство, законодательная и общественная деятельность), установлено, что модель описания научной деятельности обладает следующими особенностями:

1) необходимость включения подробной информации о персонах, связи персон сохраняют актуальность;

2) необходимость включения подробной информации о структуре групп;

3) возможность вхождения персоны сразу в несколько групп;

4) максимально подробное представление информации о предмете деятельности;

5) наличие связей между персонами и предметом деятельности.

Дополнительные характеристики блока научно-инновационной информации заключаются в следующем:

1) субъекты деятельности преимущественно организации;

2) возможность утраты отдельными источниками актуальности;

3) наличие большого количества “внешних” источников (например нормативноправовых актов), которые могут быть непосредственно связаны с объектами деятельности.

Отличительной особенностью предложенной информационной модели описания деятельности научного сообщества (иногда называемой для ясности моделью информационного обеспечения деятельности научного сообщества) является, во-первых, четкое выделение субъекта и объекта деятельности. Предложенная модель эффективна при описании как научной деятельности в той или иной предметной области (когда основные субъекты деятельности персоны), так и деятельности крупных научных корпораций (когда в качестве основных субъектов деятельности, наряду с персонами, выступают организации). Другой отличительной особенностью модели является неиерархичность структуры субъектов деятельности, возникающая из-за возможности вхождения персоны сразу в несколько групп. Ввиду этого требует решения проблема работы с персональными данными, которые могут одновременно принадлежать к разным ветвям иерархического дерева и вместе с тем должны однозначно определять персону, поскольку предполагаемая возможность извлечения из содержащихся в информационной системе данных новую информацию и знания влечет за собой необходимость наличия связи имен собственных (как элементов библиографического описания и т.п.) с информацией о конкретных носителях этих имен, ибо в противном случае имя несет лишь назывную, но не информационную функцию (А.И.Михайлов и др., 1976) В третьей главе описана структура основных компонентов программной системы информационного обеспечения научной деятельности.

В § 3.1 на основании обобщения результатов, полученных в главах 1 и 2, сформулированы основные требования к отвечающей основным системным принципам программной системе информационного обеспечения научной деятельности:

лежащая в основе системы информационная модель описания деятельности научного сообщества (являющаяся концептуальной моделью предметной области) должна отражать различные аспекты деятельности научного сообщества, включая научноорганизационную и научно-инновационную деятельность;

отвечающая основным системным принципам модель информационной системы (выступающей в качестве основного компонента создаваемой программной системы) должна позволять работать с основными элементами системы документами (то есть ресурсами, снабженными метаданными) как с целостными информационными объектами;

структура связей в модели должна обеспечивать возможность принадлежности персоны одновременно к нескольким ветвям иерархического дерева групп субъектов деятельности и вместе с тем однозначно определять персону, позволяя связывать имена собственные (как элементы библиографического описания и т. п.) с информацией о конкретных носителях этих имен;

структуры представления информации и логических компонентов интеллектуальной системы должны обеспечивать удовлетворение потребностей пользователей (независимо от их квалификации в области информатики) в информации и знаниях, получаемых на основе данных системы;

алгоритмы, обеспечивающие включение в научно-информационный процесс слабоструктурированных документов, должны обеспечивать максимальную автоматизацию всех его этапов (включая извлечение метаданных, определение ключевых слов, классификацию, а также предварительный этап создания тезауруса и онтологии предметной области), причем программные средства, реализующие эти алгоритмы, должны создаваться и функционировать как интернет-приложения.

По итогам анализа интеграционных проектов, в рамках которых были созданы программные системы информационного обеспечения какой-либо отрасли науки, например “Электронный атлас биоразнообразия животного и растительного мира Сибири” или “Электронная библиотека MathTree”, было установлено (см. А.М.Федотов и др., Ю.Л.Ершов и др.), что подобные системы могут развиваться лишь в случае актуализации информации самими пользователями этих систем. Более того, даже относительно систем научно-организационной направленности, создаваемых в рамках одной большой научной корпорации СО РАН, сделан вывод, что “эффективная эксплуатация информационных ресурсов возможна только в том случае, когда они постоянно поддерживаются авторами” (О.Л.Жижимов и др.). Исходя из этих положений, в диссертации обосновано, что практическое взаимодействие программных систем с внешним миром в плане занесения в них новых данных целесообразно организовывать преимущественно (или даже почти исключительно) с использованием схемы “клиент-сервер”. Это, в частности, означает экономическую неэффективность использования коммерческих программных продуктов, откуда вытекает необходимость разработки достаточно простых и легко воспроизводимых алгоритмов автоматизации научно-информационного процесса.

В § 3.2 описана предлагаемая модель информационной системы. Сначала проведено сравнение различных подходов к выбору основного структурного элемента интеллектуальных информационных систем, что является важнейшим вопросом, возникающим при определении концепции построения модели информационной системы. Модель RDF консорциума W3 предлагает рассматривать в качестве элементов системы ресурсы, которые могут представлять и сущности, и их характеристики. Неудобство такого подхода очевидно: появляется множество равноправных мелких элементов, между которыми устанавливается чрезвычайно много связей, структура модели далека от естественной.

Модель ИСИР РАН рассматривает в качестве элементов “ресурсы, аналогичные документоподобным объектам”. Эта формулировка недостаточно определенна, к тому же связи в этой модели имеют внешний характер по отношению к ресурсу.

Особо следует подчеркнуть, что эти модели, основанные на концепции Semantic Web, ориентированы на работу с хорошо структурированными документами, значения атрибутов метаданных которых суть элементы заданных словарей, что практически делает труднодоступным для обработки множество слабоструктурированных документов (в т.ч. размещенных в Интернете).

В данном исследовании основной элемент модели есть документ (информационный объект, имеющий, как и всякий ресурс, уникальный идентификатор, и к тому же обладающий метаданными). Принципы построения модели вобрали в себя черты, свойственные как для традиционного объектно-ориентированного подхода, так и для используемого в Semantic Web языка RDFS. В частности, как будет показано ниже, мы описываем классы в терминах их структуры, как это принято в ООП, а не определяем свойства в терминах классов, что характерно для RDFS. Такой выбор связан с тем, что задание базовых структур создаваемой системы, опирающееся на разработанную модель предметной области, носит централизованный характер. С другой стороны, ограничения, накладываемые моделью на свойства классов, носят менее жесткий характер, чем при объектно-ориентированном подходе (например, может быть объявлено произвольное, в том числе нулевое, количество значений некоторого элемента метаданных), что сближает наш подход с RDFS.

Указанные особенности модели позволяют успешно применять ее при создании интеллектуальных информационных систем, предназначенных для работы со слабоструктурированными документами.

Модель информационной системы имеет вид S = M, Ki, Mj Ki, Ki, где M множество используемых метаданных, Ki : N P (M) классы докумен тов, определяемых соответствующими множествами элементов метаданных (P (M) множество подмножеств множества M с учетом возможных повторений элементов, Mj Ki, Ki типы возможных связей между классами, когда документ из класса Ki может входить в качестве значения элемента Mj метаданных документа из класса Ki. Тем самым любой документ di системы представляется как di = mj,k, i где mj,k значения элементов метаданных Mj, k количество значений (с учетом i повторений) j-го элемента метаданных в описании документа. Таким образом, модель данных информационной системы может быть отнесена к моделям инфологического типа (Б.Лангефорс).

Показано, что при построении модели соблюдены основные системные принципы:

целостность, структурность, иерархичность, множественность описания, взаимозависимость системы и среды.

Принцип, рассматриваемый в рамках макроподхода (взаимозависимость информационной системы и среды) непосредственно из свойств модели не вытекает, но эти свойства способствуют успешной реализации данного принципа. Их список приведен ниже:

– включение в сеть Интернет;

– максимальная автоматизация процесса актуализации информации;

– управление процессом актуализации производится самими пользователями системы;

– для обеспечения синтаксической интероперабельности (согласования моделей данных и форматов их представления) используется принцип каталогизации.

Соответствие принципам, рассматриваемым в рамках микроподхода, зависит непосредственно от свойств модели.

– Целостность системы проявляется в зависимости каждого объекта, свойства и отношения от его места и функций внутри целого и реализуется посредством использования единого набора метаданных M = Mi.

– Иерархичность системы проявляется в том, что она состоит из, вообще говоря, разнородных подсистем, отвечающих тем или иным частным задачам. Документы, описываемые при помощи одних и тех же элементов метаданных, образующих множество Mi M, образуют класс Ki. Если M1 M, M2 M и M1 M2, то класс K2 является подклассом класса K1. Множество унифицированных структурированных документов-описаний одного класса, как уже отмечалось, называют каталогом. Фактически, каталог объединяет поисковые образы исходных документов.

– Структурность системы обеспечивается выбором модели связей между документами, позволяющей адекватно описывать различные аспекты соответствующих межсущностных отношений. Достаточно универсальный характер имеет, например, уже модель направленных связей. Суть ее состоит в том, что связь между документами задается как вхождение документа di в качестве значения некоторого элемента метаданных Mj документа di и определяется формулой Mj < di, di, ml,k >, i,i где ml,k атрибуты этой связи, являющиеся значениями соответствующих элеi,i ментов метаданных: l индекс элемента, k количество значений (с учетом повторений) – Множественность описания системы подразумевает наличие множества различных аспектов построения системы (модель данных системы, информационная модель системы, ее содержательное наполнение и проч.) В § 3.3 излагаются особенности модели направленных связей между документами, которая записывается в виде A(R, V ): объект R имеет атрибут A со значением V (R головной документ, а V подчиненный).

Основное отличие предлагаемой модели от модели RDF состоит в том, что выстраиваемые отношения переносятся на уровень элементов, определяющих структуру документов, причем связи между документами устанавливаются путем задания на множестве документов бинарных отношений с дополнительными атрибутами, не укладывающимися в общую схему. С другой стороны, аналогичная модель “многие-ко-многим” (Ш.Атре, Дж. Ульман) использует многоместные отношения с их последующей декомпозицией в процессе нормализации. Таким образом, в предлагаемой модели декомпозиция проводится на более высоком уровне абстрагируемости от структуры данных, что делает ее более универсальной.

Выделены два вида отношений:

– Отношение порядка между документами, выстраивающее иерархию подчинения в коллекции, например отношение подчиненности между документами в коллекции “Организации”. Данный тип отношения предполагает установление только односторонней связи между документами.

– Отношение связи между документами, например отношение типа принадлежности между документами коллекции “Организации” и документами коллекции “Персоны”. Данный тип отношения допускает установление двухсторонней связи между документами, в том смысле, что одновременно может существовать и обратная связь. Таким образом, направленность связи определяется порядком записи аргументов отношения A(R, V ), т.е. любой объект также может играть и роль значения.

Различие отношений первого и второго типа заключается в том, что отношениям первого типа изначально приписано свойство иерархия, а отношениям второго типа никаких свойств изначально не приписано. Свойства отношений второго типа определяются для каждого конкретного отношения.

Исходя из свойств отношений второго типа, в документе выделяются два типа элементов:

1) элементы, содержание которых не зависит от значений атрибутов отношения;

2) элементы, содержание которых может зависеть от значений атрибутов отношения (например, от должности персоны в организации зависит служебная информация).

Персона может занимать различные позиции: быть автором или редактором публикации, занимать некоторую должность в организации, быть председателем или членом совета и т.д. Все эти случаи представляются одним типом отношения, который может принимать различные наименования (директор, аспирант, председатель совета, автор и т.д.) Отличительной особенностью предложенной модели является возможность связи имен с информацией об их носителях в случае, когда соответствующие денотаты (персоны) входят одновременно в разные структурные группы. Модель данных позволяет не вводить дублирующие записи, а разделять информацию о персоне на две части: личную связанную с самой персоной, и ролевую связанную с позициями, занимаемыми персоной, причем каждой позиции соответствует новая ролевая запись.

В § 3.4 представлена структура логических компонентов интеллектуальной системы. Для получения новых знаний пользователь может:

1) формулировать такие запросы, которые для объектов с заданными требованиями на значения признаков указывают значение других признаков;

2) проверять, истинно или нет утверждение Rs(di,..., di ) относительно сущностей, 1 n описываемых документами di,..., di. Высказыванию Rs(di,..., di ) формально 1 n 1 n соответствует n–местный предикат Ps, определенный на множестве документов, причем при его построении могут использоваться определенные документы системы (точнее, значения атрибутов этих документов), информация из онтологии предметной области и т.п.

Возможность получения в результате поискового запроса пертинентных документов появляется лишь в том случае, когда информационно-поисковый язык имеет средства выражения имманентных отношений, то есть обладает онтологией, включающей тезаурус. Показано, что наличие онтологии в качестве составной части информационнопоискового языка, используемого при создании каталога, является обязательным условием возможности реализации сложных внутрисистемных информационных запросов.

Если количество документов в системе, способных выступать в качестве аргументов предиката Ps, велико, то проводится проверка истинности предиката на различных наборах документов, автоматически перебираемых системой. Тем самым реализуется механизм автоматического извлечения данных из документов с целью пополнения базы данных посредством этих фактов, который характеризует интеллектуальные информационные системе высокого уровня.

Отличие предлагаемого подхода от традиционных экспертных систем (см., например, работы Т.А.Гавриловой, В.Ф.Хорошевского и др.) состоит в том, что последние предназначены для решения узкоспециализированных задач, содержат относительно небольшой объем документов, и основной упор при их создании делается на развитие большого количества продукционных правил.

В четвертой главе представлена методика автоматизированного определения метаданных слабоструктурированных документов.

В § 4.1 изложен алгоритм автоматизированного извлечения метаданных из однородных слабоструктурированных документов (например, размещенных на одном сайте), которые имеют однородную структуру. Алгоритм учитывает информацию о гипертекстовой разметке обрабатываемых документов, при этом надо иметь в виду, что документ может не обладать xml-разметкой и не содержать метаданные в мета-теге, поэтому следует ориентироваться только на html-разметку.

Основанный на типичном для интеллектуальных информационных систем человеко-машинном взаимодействии, алгоритм частичной автоматизации процесса извлечения метаданных сводится к выполнению последовательных операций:

1) создание шаблона разметки для обрабатываемого сайта;

2) создание списка адресов, где расположены документы;

3) обработка документов;

4) поддержание актуальности информации.

Для того или иного конкретного сайта шаблон документа имеет вид Sh = T itle, T agb, T age, Reg, Sep, где T itle название поля (выбираемое из стандартного набора элементов метаданных), T agb и T age теги (последовательности символов), определяющие в программном коде каталогизируемого сайта соответственно начало и конец данного поля, Reg регулярное выражение, определяющее символы данного поля (по умолчанию задается выражение, соответствующее произвольному набору символов, Sep разделитель элементов множественного поля (употребляется лишь для полей, могущих содержать несколько значений).

Отличительной особенностью предложенного алгоритма автоматизированного извлечения метаданных от коммерческих пакетов является возможность получения недостающих метаданных из удаленных баз данных.

Важной особенностью данного алгоритма, описанной в § 4.2, является возможность автоматизированного определения таких важных (но далеко не всегда непосредственно наличиствующих) метаданных документа, как классификационные признаки (т.е. коды того или иного классификатора) и ключевые слова, с использованием удаленных библиографических баз и словарей удаленного доступа.

Для обращения к библиографической базе данных с целью получения классификационных признаков документа автоматически формируется строка запроса к серверу библиографической базы, например “Zentralblatt MATH”, использующая в качестве параметров запроса уже извлеченные с веб-страницы журнала библиографические данные. При наличии сведений о запрошенном документе в базе данных сервер выдает страницу с его описанием, на которой присутствуют, среди прочих библиографических данных, классификационные коды по классификатору MSC2000 и ключевые слова на английском языке. Обработка полученной страницы, то есть извлечение недостающих метаданных документа, производится по стандартному шаблону указанного выше типа.

После получения ключевых слов документа из англоязычной библиографической базы данных может возникнуть проблема их перевода на русский язык. Частичная автоматизация этого процесса основана на использовании словарей, доступных через Интернет, например словаря “Лингво” компании “Яндекс” посредством автоматического формирования строки запроса к удаленному словарю с последующей обработкой результатов запроса. При этом, так как количество возможных ключевых слов, относящихся к той или иной предметной области, как правило, не слишком велико, то прежде всего проверяется, не занесено ли уже ранее переводимое ключевое слово в англоязычную часть тезауруса предметной области. Таким образом, происходит процесс обучения системы: чем больше слов и словосочетаний переведено, тем меньше программа обращается к удаленному словарю через Интернет, так как уже переведенные слова и словосочетания заносятся в тезаурус.

Общая схема алгоритма автоматизированного определения метаданных слабоструктурированных документов представлена на рис. 1.

Рис. 1. Алгоритм автоматизированного определения метаданных.

В § 4.3 описаны принципы и алгоритмы автоматизации процесса извлечения из текстов ключевых слов. Обычно при координатном индексировании научных текстов используется подход, основанный на извлечении одиночных ключевых слов (см., например, обзор О.В.Песковой), что упрощает морфологический анализ, но имеет серьезные теоретические недостатки: возможность ложной координации, ложных синтагматических связей и др.

Среди некоммерческих программных продуктов, решающих указанную задачу, можно назвать стимер компании “Яндекс”, который, однако, анализирует текст только на синтаксическом уровне, позволяя извлекть словосочетания заданной структуры, но не проверяя принадлежность словосочетаний к тому или иному лексическому словарю. С другой стороны, алгоритмы проекта “Микрокосмос” (США), В.А.Тузова, В.А.Фомичева, И.С.Циликова и др., предназначенные для проведения семантического анализа текстов на уровне, близком к восприятию естественно-языковых текстов человеком, весьма сложны в практической реализации.

В работе описан разработанный алгоритм автоматического поиска и подсчета ключевых слов из заданного словаря, представляющих собой словосочетания сложной структуры, учитывающий морфологию русского языка. Для рассмотрения в качестве ключевых слов терминов–словосочетаний предложено использовать, наряду с традиционным индексом Ntx - Ptx - Nw, оригинальный индекс Ntr - Ptr - Nw, где Ntx номер текста, Ptx позиция слова в тексте, Nw номер слова из лексического словаря, Ntr номер термина, Ptr позиция слова в термине.

Алгоритм построения индекса терминов включает следующие этапы:

1. Разбиение термина на отдельные слова.

2. Создание предварительного индекса, содержащего триады “номер термина” “позиция слова в термине” “слово в символьном представлении”.

3. Добавление встретившихся неизвестных слов в лексический словарь библиотеки, где им присваиваются ид. номера.

4. Переработка индекса в формат “номер термина” “позиция в тексте” “номер слова из лексического словаря”.

5. Сбор статистики о длинах терминов для реализации поиска и идентификации составных терминов.

6. Сбор статистики о количестве вхождений отдельных слов в термины для оптимизации поиска путем исключения из рассмотрения терминов, заведомо отсутствующих в тексте.

Алгоритм построения индекса текстов аналогичен, но в нем отсутствует этап 3.

Алгоритм подсчета вхождений терминов в текст (или тексты) включает этапы:

1. Подсчет возможных комбинаций “текст” “термин”, основанный на статистике вхождения отдельных слов.

2. Нахождение всех потенциально возможных мест вхождения каждого термина в текст (тексты) на основе наличия хотя бы одного общего слова из лексического словаря. Позиция каждого потенциально возможного вхождения фиксируется.

3. Рассмотрение каждого из возможных мест вхождений с точки зрения соответствия термину в целом. Актуальность вхождения определяется наличием рядом с соответствующей позицией других слов, входящих в термин.

4. Исключение учета вхождений, поглощаемых более длинными вхождениями.

5. Сбор статистики вхождений для каждой пары “текст” “термин”.

В качестве основы базового лексического словаря программной библиотеки координатного индексирования использован свободно распространяемый словарь Ispell. Работа по генерации всех словоформ нового слова для пополнения словаря весьма трудоемка: для существительного 12 словоформ, для прилагательного 24 словоформы (многие словоформы будут повторяться). В распространенных текстовых процессорах и редакторах (Word, Writer, WinEdit) словари пополняются лишь конкретной вводимой словоформой.

Для автоматизации работы было построено веб-приложение, автоматически генерирующее все словоформы заданного слова (существительного или прилагательного) русского языка. В основе работы веб-приложения лежит алгоритм Г.Г.Белоногова, использующий разбиение слов языка на флективные классы, т.е. типы словоизменения, каждому из которых ставилась в соответствие система окончаний всех словоформ слова-представителя (основа, как правило, остается неизменной; в противном случае изменения основы контролируется вручную).

Множество всех флективных классов F можно представить как 6 i F = Fi = {fik}l, k=i=1 i=где флективным классам существительных мужского рода одушевленных соответствует i = 1, существительных мужского рода неодушевленных i = 2, существительных женского рода одушевленных i = 3, существительных женского рода неодушевленных i = 4, существительных среднего рода i = 5, прилагательных i = 6, при = этом числа элементов в указанных надклассах образуют вектор l (19, 16, 8, 12, 11, 12).

Нетрудно видеть, что эти числа зачастую слишком велики для эффективной работы пользователя по выбору нужного класса, поскольку специалистами в области когнитивной психологии показано, что эффективный выбор возможен, если количество вариантов не превышает 7–9.

Для решения данной проблемы нами предложена модификация алгоритма Г.Г.Белоногова, состоящая в автоматическом анализе окончаний нормализованной словоформы внутри каждого надкласса с целью его автоматического разбиения на несколько подмножеств:

mi mi k ij F = Fij = {fij}l, k=j=1 j=что приводит к значительному уменьшению количества элементов, из которых предсто1 2 3 ит сделать выбор, поскольку l = (12, 2, 2, 2, 1), l = (10, 3, 3), l = (4, 3, 1), l = (6, 4, 2), 5 = (5, 5, 1), 6 = (4, 4, 2, 1, 1).

l l При работе с новым словом эксперт устанавливает при необходимости его начальную форму и указывает его тип: независимое существительное, прилагательное или зависимое слово-дополнение в родительном падеже. Зависимое слово сразу добавляется в словарь, так как единственной формой слова (применительно к соответствующему контексту) является оно само. При выборе независимого существительного на следующем шаге необходимо указать его род и одушевленность. Для прилагательного дополнительные характеристики не указываются. Далее программа автоматически проводит предварительный анализ окончания слова, отсеивая те классы, к которым данное слово заведомо принадлежать не может. После этого нужно выбрать флективный класс, которому соответствует слово. Для выбора предоставляется таблица возможных флективных классов, которые определяются словом-представителем и его несколькими характерными словоформами (рис. 2).

Рис. 2. Выбор флективного класса.

Количество объектов-альтернатив в подавляющем большинстве случаев доведено до рекомендуемого когнитивной психологией (около 9 альтернатив). Для существительных мужского рода ситуация неулучшаема (например, слова “волос”, “голос” и “колос” относятся к разным флективным классам).

В алгоритме решения аналогичной задачи Е.А.Каневского классы словоформ определялись без учета теоретических исследований Г.Г.Белоногова путем непосредственного анализа типов окончаний. Это приводит к появлению более 10 тыс. классов для существительных и 2,5 тыс. классов для прилагательных. (к одному классу отнесены слова, у начальных форм которых совпадают 3 последние буквы), что делает данный алгоритм трудновоспроизводимым. Однако даже столь детальное разбиение не способно дать абсолютно точное различение слов по типу склонения, к тому же “эмпирический” характер вызывает определенные вопросы относительно полноты описания классов.

В пятой главе обсуждаются вопросы автоматизации процессов классификации и кластеризации электронных документов.

В § 5.1 изложена методика создания тезаурусов и онтологий на основе предметного указателя специализированных энциклопедий, которая обеспечивает высококвалифицированное описание предметной области с использованием надежно выверенных терминов, позволяя провести начальный, наиболее трудоемкий, этап построения онтологии с минимальным привлечением специалистов экспертов в данной предметной области.

Методика, предложенная автором в 2003 году, имеет оригинальный характер. Создатели РуТез (Б.В.Добров и др., 2005 г.) также предложили использовать для составления тезауруса предметные указатели энциклопедий, но без механизма установления связей.

Блок-схема алгоритма представлена на рис. 3.

В качестве списка ключевых слов и словосочетаний для тезауруса предлагается использовать предметный указатель специализированной энциклопедии (или нескольких энциклопедий). В качестве дескрипторов (т.е. терминов, являющихся именами классов близких по смыслу понятий) полагаются названия статей энциклопедии, а связанными с ними по смыслу считаются слова из предметного указателя, встречающиеся в соответствующих статьях. Основным преимуществом такого метода является то, что для установления связей между терминами не требуется быть экспертом (и даже специалистом) в данной предметной области. Суть метода состоит в следующем. Пусть в некотором томе содержится k статей, тогда номера их начальных страниц образуют неубывающую последовательность (n1, n2,..., nk). Если i-я статья занимает несколько страниц (ni+1 - ni > 1), то термины, бесспорно к ней относящиеся (находящиеся на страницах nj таких, что ni < nj < ni+1), связываются с дескриптором автоматически, что значительно сокращает объем ручной работы. Если же 0 ni+1 - ni 1, то пользователю предлагаются еще не связанные на данный момент термины со страницы ni (и, при необходимости, ni+1) для отсеивания “избыточных” терминов вручную.

Рис. 3. Алгоритм построения онтологии.

Cледующий этап создания тезауруса и онтологии классификация дескрипторов в соответствии с разделами данной предметной области. С целью экономии трудозатрат экспертов на первом этапе работы возможно ограничиться классификацией дескрипторов, при этом для классификации следует использовать, по возможности, разделы классификатора максимально низкого уровня. После того, как дескриптор будет классифицирован, связанным с ним ключевым словам приписывается тот же классификационный индекс, что и дескриптору.

Наконец, проводится определение типа термина в соответствии с рекомендациями Zthes, что позволяет существенно упростить работу с онтологией.

В § 5.2 приведены теоретические основы поиска документов “по аналогии”, т.е. нахождения по данному множеству документов класса схожих по содержанию документов. Указанная задача рассматривается применительно к документам научной тематики, сообщениям на новостных лентах и художественным произведениям. Сравнительный анализ соответствующих алгоритмов позволил сделать вывод о том, что для документов научной тематики процедуру кластеризации целесообразно проводить на основе меры сходства, притом в качестве координат метрики, вводимой на множестве документов, используются основные атрибуты из библиографического описания: авторы; ключевые слова; термины из тезауруса предметной области, входящие в аннотацию.

Количественная характеристика меры сходства определяется на множестве документов D как µ : D D [0, 1], причем функция µ в случае полного сходства принимает значение 1, в случае полного различия 0. Вычисление меры сходства между документами d1 и d2 осуществляется по формуле вида µ(d1, d2) = iµi(d1, d2), где i номер элемента (атрибута) библиографического описания, i весовые коэффициенты, i = 1, µi(d1, d2) мера сходства по i-му элементу. Если шкалы номинальные, то мера сходства по i-й шкале определяется следующим образом: если значения i-х атрибутов документов совпадают, то мера близости равна 1, иначе 0.

Если значения атрибутов составные, то µi = ni1/ni0, где ni0 = max{ni0(d1), ni0(d2)}, ni0(dj) общее количество элементов, составляющих значение i-го атрибута документа dj, ni1 количество совпадающих элементов.

Для непосредственной процедуры нахождения объектов, аналогичных объектам из заданного множества, необходимо задать пороговое значение меры сходства r (0, 1).

Если заданное множество D состоит из одного объекта d, то при µ(d, dj) r делается вывод, что объект dj аналогичен заданному, в противном случае считается, что аналогия отсутствует. Ситуация осложняется, если множество D содержит более одного объекта. Тогда критерием аналогичности объекта dj элементам множества D служит неравенство µ(D, dj) r, в котором µ(D, dj) расстояние от объекта dj до множества D (обычно под этим подразумевается минимум расстояний от объекта dj до элементов множества D, хотя иногда в качестве µ(D, dj) целесообразно рассматривать расстояние от объекта dj до определенного тем или иным способом “центра” множества D).

Независимо от количества элементов в множестве D, возможно задание “градаций аналогичности”, определяемых посредством набора чисел {ri}, i = 1,..., n, где rk < rl при k < l. Если rk < µ(D, d1) rk+1, а rl < µ(D, d2) rl+1 при k < l, то считается, что объект d1 более схож с элементами множества D, чем объект d2. Введение градаций аналогичности используется, например, для установления приоритета просмотра документов, найденных в процессе информационного поиска.

Указанные процедуры поиска аналогичных документов могут быть снабжены дополнительными условиями, связанными, например, с исключением из поисковой выдачи соответствующих документов при реализации ситуации “несимметричного сходства”, когда по тексту аннотации следует выдавать полнотекстовую версию статьи, но, разумеется, не наоборот.

В § 5.3 излагается методика кластеризации научных документов на основании меры сходства их библиографических описаний. Отличительные особенности предлагаемой методики заключаются в следующем:

– использование нескольких шкал: авторы; ключевые слова (авторские); текст аннотации, из которого извлекаются ключевые термины, что особенно важно при работе не с полными текстами документов, а с аннотациями (обычно используется только одна шкала: извлеченные из текста ключевые слова М.Е.Кондратьев, О.В.Пескова и др.);

– в качестве извлеченных ключевых терминов рассматриваются словосочетания;

– используется апостериорный выбор продукционных правил для определения весовых коэффициентов при шкалах.

Для определения меры сходства использован алгоритм, основанный на функции конкурентного сходства или FRiS-функции (Н.Г.Загоруйко, 2007): решение о принадлежности документа d к первому кластеру принимается не в том случае, когда расстояние r1 до этого кластера “мало”, а когда оно меньше расстояния r2 до конкурирующего кластера. Для вычисления меры конкурентного сходства, измеренной в абсолютной шкале, используется нормированная величина F12 = (r2 - r1)/(r2 + r1).

Тестирование алгоритма проводилось на электронной базе данных “Сибирского математического журнала”, содержавшей библиографические описания статей журнала, вышедших в период с 2000 по 2005 годы (порядка 700 записей). В качестве единственной шкалы для вычисления меры на пространстве документов использовались коды классификатора MSC2000 (обычно документу приписано 3 или более кодов). Поскольку совпадение данных кодов для группы документов является объективным критерием совпадения тематики данных документов, такую меру можно считать образцовой. Если коды классификатора центроида кластера содержались в числе кодов классификатора 2-го уровня данного документа, то мы полагали, что документ отнесен к кластеру правильно.

Были проведены сравнительные расчеты по широко известному жадному алгоритму и FRiS-алгоритму. На рис. 4 отображен состав полученных кластеров. По горизонтальной оси отмечены номера кластеров, по вертикальной количество документов в кластере. В качестве критерия принадлежности публикации к кластеру использовался его код классификатора MSC2000. Погрешность классификации в первом случае составила 12 %, во втором 4 %.

Рис. 4. Сравнение жадного и FRiS алгоритмов.

Далее при задании меры был принят во внимание тот факт, что значения весовых коэффициентов в формуле вычисления меры сходства определяются предполагаемой апостериорной достоверностью данных соответствующей шкалы, и в определенных случаях один из коэффициентов может быть увеличен с пропорциональным уменьшением остальных.

Эксперимент на коллекции статей “Сибирского математического журнала”, в котором устанавливалось наибольшее сходство с результатом кластеризации по мере, базирующейся на кодах классификатора MSC2000, позволил получить апостериорно выбираемые правила для определения весовых коэффициентов на основании предполагаемой достоверности данных:

1) если каждый из документов d1 и d2 имеет более двух авторов и, как минимум, 2/3 из них совпадают, то коэффициент при атрибуте “авторы” равен 1;

2) если каждый из документов d1 и d2 содержит более трех ключевых слов и, как минимум, 3/4 этих слов совпадают, то коэффициент при атрибуте “ключевые слова” равен 1;

3) если каждый из документов d1 и d2 содержит более четырех ключевых терминов в аннотации и, как минимум, 3/5 этих терминов совпадают, то коэффициент при атрибуте “аннотация” равен 1;

4) если условия ни одного из правил 1–3 не выполнены, то коэффициент при атрибуте “авторы” равен 0,2, а при атрибутах “ключевые слова” и “аннотация” равен 0,4.

Интересно отметить, что эти правила применимы как для FRiS-алгоритма, так и для жадного алгоритма.

В шестой главе излагается структура внешнего представления научной и научно-организационной информации.

Предложена методика задания структуры представления информации на основании многомерной классификации.

Поскольку на практике большинство рядовых пользователей испытывает затруднения в самостоятельном построении запросов более сложных, нежели простой контекстный или атрибутивный поиск, постольку базовая структура представления информации должна отвечать такой совокупности заранее сформулированных информационных запросов (например, содержать соответствующие гиперссылки), которая в состоянии удовлетворить основные информационные потребности пользователей системы.

Разработана базовая структура представления информации на основании многомерной (т.е. не сводящаяся только к предметной) классификации, классификация документов, позволяющая включать в метаописание документа некий многомерный набор классификационных признаков.

Алгоритм задания структуры состоит в следующем.

Любой документ di каталога системы представляется как di =< mj,k >. Рассмотрим i подмножество метаданных MC, определяющее набор классификационных признаков документов. Для фиксированного элемента метаданных Mj, где Mj MC, множество документов разбивается на классы эквивалентности, соответствующие различным значениям этого элемента метаданных.

Будем считать два экземпляра сущностей толерантными, если у них совпадает значение хотя бы одного из элементов метаданных, входящих в MC Каждое такое значение порождает класс толерантности. Рассмотрим всевозможные сочетания значений элементов метаданных, входящих в MC. Множества документов, обладающие одинаковым набором значений, суть ядра. Ядра служат классами эквивалентности на множестве документов.

k k Выделим подмножество элементов метаданных M = {Mj }l, Mj MC, опреk=деляющее для данной предметной области важнейшие характеристики документов (или, в зависимости от специфики задачи, описываемых документами сущk k k ностей), при этом Mj = {mj }l. Тогда ядра толерантности, задающие базоi i=вую структуру представления информации, суть элементы декартова произведения 1 2 l M = Mj Mj · · · Mj. Тем самым поиск интересующего пользователя класса 1 2 l документов сводится к выбору соответствующего элемента (mj, mj,..., mj ) M, i1 i2 il т. е. к отображению S : M D, а предварительная классификация документов к обратному отображению C : D M.

Разумеется, обычный атрибутивный поиск описывается аналогичным образом, одk нако элементы метаданных Mj важнейшие характеристики документов выбираются так, что количество возможных значений для них (или, по крайней мере, для большинства из них) достаточно невелико, что позволяет предоставить пользователю совокупность заранее сформулированных информационных запросов (например, соответствующие гиперссылки), которая в состоянии удовлетворить основные информационные потребности.

Таким образом, базовая структура представления информации в каталоге описывается посредством задания подмножества метаданных, определяющего набор классификационных признаков, и сочетаний значений этих метаданных.

Показано, что для коллекции “Персоны” целесообразны следующие классификаторы: 1) тематический, 2) хронологический, 3) географический; для коллекции “Публикации”: 1) тематический, 2) жанровый, 3) хронологический; для коллекции “Юридические документы”: 1) уровень издавшего документ органа, 2) источник права (ветвь власти), 3) хронология.

В седьмой главе описана практическая реализация программной системы информационного обеспечения научной деятельности: приведена функциональная схема программной системы (рис. 5), компоненты которой реализованы на базе технологии LAMP (платформа Linux, веб-сервер Apache, сервер баз данных MySQL, язык программирования PHP), а также описано практическое применение данной системы и ее отдельных компонентов.

Рис. 5. Функциональная схема программной системы (1 – хранилище данных;

2 – блок извлечения метаданных из веб-документов; 3 – веб-интерфейс администрирования системы; 4 – веб-интерфейс администрирования данных; 5 – веб-интерфейс пользователя).

В заключении диссертации сформулированы основные результаты и выводы.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ 1. Проведено исследование информационных потребностей научного сообщества в свете изменений, вызванных распространением интернет-технологий, а также новыми принципами функционирования и финансирования российской науки, основанное на сравнении характеристик информационных потребностей, изучении интеграционных проектов СО РАН в области информатики и исследовании интернет-сайтов.

2. Обоснована методология комплексного изучения интернет-сайтов, которая предусматривает их рассмотрение в трех аспектах: как источник данных, как техническое средство обработки и распространения информации и как социокультурный феномен.

3. Предложена модель информационного обеспечения деятельности научного сообщества, включающая научно-организационную и научно-инновационную деятельность.

4. Разработана отвечающая основным системным принципам модель информационной системы, элементами которой являются документы (целостные информационные объекты, снабженные метаданными).

5. Разработана модель направленных связей между документами, задающая на множестве документов бинарные отношения с дополнительными атрибутами, которая дает возможность описывать различные аспекты межсущностных отношений, позволяя представлять сложные документы, когда один документ является частью другого, и избегать дублирования информации.

6. Разработана структура логических компонентов интеллектуальной системы, базовыми объектами которой являются каталог, объединяющий поисковые образы исходных документов, и онтология предметной области.

7. Предложена базовая структура представления информации на основании многомерной классификации, отвечающая совокупности заранее сформулированных информационных запросов, удовлетворяющей основные информационные потребности пользователей системы.

8. Разработана методика создания тезаурусов и онтологий на основе предметного указателя специализированных энциклопедий.

9. Исследованы принципы и предложены алгоритмы автоматизации основных этапов научно-информационного процесса с участием слабоструктурированных документов (включая извлечение метаданных, определение ключевых слов, классификацию и кластеризации), причем программные средства, реализующие эти алгоритмы, функционируют как сетевые приложения.

10. Результаты исследования внедрены в Информационно-справочной системе СО РАН, что позволило повысить качество ее функционирования, а также использованы в процессе создания ряда систем информационного обеспечения научной деятельности: Электронного атласа биоразнообразия животного и растительного мира Сибири, Электронной библиотеки MathTree, тезауруса по гетерогенному катализу, сайта журнала “Вычислительные технологии”, благодаря чему была достигнута существенная экономия трудозатрат, в т.ч. специалистов высшей квалификации.

11. Результаты использованы в учебном процессе кафедры математического моделирования НГУ, кафедры вычислительных технологий НГТУ и кафедры прикладной математики и кибернетики СибГУТИ.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ ПУБЛИКАЦИИ В ЖУРНАЛАХ, РЕКОМЕНДОВАННЫХ ВАК:

1. Барахнин В.Б. Разработка тезауруса предметной области “Математика” // Вычислительные технологии, т. 8, Региональный вестник Востока, № 3 (19), совместный выпуск.

2003. Часть 1. С. 111–115.

2. Барахнин В.Б., Федотов А.М. Принципы структурирования сайтов информационной системы научного сообщества (на примере сайта Совета научной молодежи СО РАН) // Вычислительные технологии, т. 9, Вестник КазНУ им. аль-Фараби, серия: математика, механика, информатика, № 3 (42), совместный выпуск. 2004. Часть I.

С. 254–259.

3. Шокин Ю.И., Федотов А.М., Барахнин В.Б. Особенности организации системы управления веб-контентом сайтов информационной поддержки инновационной деятельности // Вычислительные технологии. 2005. Т. 10. Специальный выпуск.

С. 122–128.

4. Барахнин В.Б., Леонова Ю.В. Информационная модель отношений между документами в информационной системе // Вычислительные технологии. 2005. Т. 10.

Специальный выпуск. С. 129–137.

5. Барахнин В.Б., Леонова Ю.В., Федотов А.М. К вопросу о формулировке требований для построения информационных систем научно-организационной направленности // Вычислительные технологии. 2006. Т. 11. Специальный выпуск.

С. 52–58.

6. Федотов А.М., Барахнин В.Б., Гуськов А.Е., Жижимов О.Л., Клименко О.А., Леонова Ю.В., Рычкова Е.В., Тундукпаев Ж.С., Шабальников И.В.

Информационно-справочная система СО РАН // Вычислительные технологии. 2006.

Т. 11. Специальный выпуск. С. 88–94.

7. Федотов А.М., Барахнин В.Б., Гуськов А.Е., Молородов Ю.И. Распределенная информационно-аналитическая среда для исследований экологических систем // Вычислительные технологии. 2006. Т. 11. Специальный выпуск. С. 113–125.

8. Барахнин В.Б., Федотов А.М. Информационная система: взгляд на понятие // Вестник НГУ. Сер.: Информационные технологии. 2007. Т. 5. Вып. 2. С. 12– 19.

9. Leonova Yu.V., Barakhnin V.B., Fedotov A.M. On the problem of modeling of the horizontal relations between documents // Вычислительные технологии. 2007. Т. 12.

№ 1. С. 3–12.

10. Барахнин В.Б., Нехаева В.А. Технология создания тезауруса предметной области на основе предметного указателя энциклопедии // Вычислительные технологии.

2007. Т. 12. Специальный выпуск 2. С. 3–9.

11. Барахнин В.Б., Федотов А.М. Ресурсы сети Интернет как объект научного исследования // Известия вузов. Проблемы полиграфии и издательского дела. 2008.

№ 1. С. 70–77.

12. Барахнин В.Б., Нехаева В.А., Федотов А.М. О задании меры сходства для кластеризации текстовых документов // Вестник НГУ. Сер.: Информационные технологии. 2008. Т. 6. Вып. 1. С. 3–9.

13. Витяев Е.Е., Ковалерчук Б.К., Федотов А.М., Барахнин В.Б., Белов С.Д., Дурдин Д.С., Демин А.В. Обнаружение закономерностей и распознавание аномальных событий в потоке данных сетевого трафика // Вестник НГУ. Сер.: Информационные технологии. 2008. Т. 6. Вып. 2. С. 57–68.

14. Барахнин В.Б., Федотов А.М. Исследование информационных потребностей научного сообщества для построения информационной модели описания его деятельности // Вестник НГУ. Сер.: Информационные технологии. 2008. Т. 6. Вып. 3.

С. 48–59.

15. Барахнин В.Б., Федотов А.М. Уточнение терминологии, используемой при описании интеллектуальных информационных систем, на основе семиотического подхода // Известия вузов. Проблемы полиграфии и издательского дела. 2008. № 6 С. 73–81.

16. Федотов А.М., Барахнин В.Б. Проблемы поиска информации: история и технологии // Вестник НГУ. Сер.: Информационные технологии. 2009. Т. 7. Вып. 2.

С. 3–17.

17. Рубцов Д.Н., Барахнин В.Б. Выявление дубликатов в разнородных библиографических источниках // Вестник НГУ. Сер.: Информационные технологии. 2009.

Т. 7. Вып. 3. С. 86–93.

18. Федотов А.М., Барахнин В.Б. К вопросу о поиске документов “по аналогии” // Вестник НГУ. Сер.: Информационные технологии. 2009. Т. 7. Вып. 4. С. 3–14.

19. Барахнин В.Б., Ткачев Д.А. Кластеризация текстовых документов на основе составных ключевых термов // Вестник НГУ. Сер.: Информационные технологии. 2010.

Т. 8. Вып. 2. С. 5–14.

20. Барахнин В.Б., Рубцов Д.Н. Сравнительные особенности используемых в Рунете информационных моделей описания деятельности крупных организаций и анализ их практической реализации на сайтах научной тематики // Известия вузов. Проблемы полиграфии и издательского дела. 2010. № 4. С. 97–107.

21. Шокин Ю.И., Федотов А.М., Барахнин В.Б. Технология создания программных систем информационного обеспечения научной деятельности, работающих со слабоструктурированными документами // Вычислительные технологии. 2010. Т. 15.

№ 6. С. 111–125.

ПУБЛИКАЦИИ В ДРУГИХ ИЗДАНИЯХ:

22. Барахнин В.Б., Федотов А.М. Методика построения информационно-справочной системы по истории математической науки // Электронные библиотеки. 2007. Т. 10. Вып. 1.

http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2007/part1/BF.

23. Барахнин В.Б. Разработка концепции пользовательского интерфейса информационной системы “Web-ресурсы математического содержания” // VIII Международная конференция по электронным публикациям “EL-Pub2003” Новосибирск, 2003. Электронная публикация, № гос. регистрации 3521.

http://www.nsc.ru/ws/elpub2003/6197/.

24. Федотов А.М., Барахнин В.Б., Бычков И.В., Жижимов О.Л., Мазов Н.А., Москвичев В.В. Концепция создания виртуального музея СО РАН // VIII Международная конференция по электронным публикациям “EL-Pub2003”. Новосибирск, 2003. Электронная публикация, № гос. регистрации 3521. http://wwwsbras.nsc.ru/ws/elpub2003/6155/rep6155.pdf 25. Barakhnin V., Klimenko O. Systematization and the Search of Mathematical WebResources // Proceedings of the Second IASTED International Multi-Conferences on Automation, Control, and Information Technology. Software Engineering. Novosibirsk:

ACTA Press, 2005. P. 81–84.

26. Барахнин В.Б., Бычков И.В., Гуськов А.Е., Жижимов О.Л., Клименко О.А., Ламин В.А., Леонова Ю.В., Мазов Н.А., Москвичев В.В., Молородов Ю.И., Пищик Б.Н., Потапов В.П., Рычкова Е.В., Фазлиев А.З., Федотов А.М., Холюшкин Ю.П., Шабальников И.В., Шокин Ю.И. Распределенный виртуальный музей Сибирского отделения РАН // Труды Первой международной конференции “Системный анализ и информационные технологии”. Переславль-Залесский, 2005. Т. 1.

С. 41–45.

27. Shokin Yu.I., Leonova Yu.V., Barakhnin V.B., Fedotov A.M. Concerning the problem of work up the model of horizontal relations between the documents in the information systems of scientific community //Proceedings 3rd International Conference on Cybernetics and Information Technologies, Systems and Applications (CITSA 2006).

Orlando, USA, 2006. V. 3. Р. 112–116.

28. Шокин Ю.И., Барахнин В.Б., Гриншяков Б.Ю. Методология создания системы информационной поддержки научно-инновационной деятельности региона // Второй форум возрождения китайской северо-восточной старой промышленной базы: научнотехническое сотрудничество Китая и СНГ. Сборник докладов. Китай, Харбин, 2006.

C. 179–183 на кит. яз., с. 184–190 на рус. яз.

29. Барахнин В.Б., Ведерников В.В. Автоматизированная каталогизация электронных журнальных публикаций // Труды международной конференции “Вычислительные и информационные технологии в науке, технике и образовании”. Казахстан, Павлодар, 2006. Т. I. C. 209–214.

30. Барахнин В.Б., Григорьева Я.И. Биографо-библиографический справочник “Математика в личностях” // Труды международной конференции “Вычислительные и информационные технологии в науке, технике и образовании”. Казахстан, Павлодар, 2006. Т. I. C. 220–227.

31. Барахнин В.Б., Годицкий А.В. Концепция интегрированного каталога интернетресурсов научной тематики // Труды международной конференции “Вычислительные и информационные технологии в науке, технике и образовании”. Казахстан, Павлодар, 2006. Т. I. C. 215–219.

32. Барахнин В.Б., Куперштох А.А. Алгоритм координатного индексирования электронных научных документов // Труды международной конференции “Вычислительные и информационные технологии в науке, технике и образовании”. Казахстан, Павлодар, 2006. Т. I. C..228–232.

33. Барахнин В.Б., Маценко К.С. Информационная модель системы поддержки инновационной деятельности // Труды международной конференции “Вычислительные и информационные технологии в науке, технике и образовании”. Казахстан, Павлодар, 2006. Т. I. C. 233–242.

34. Барахнин В.Б., Клименко О.А., Ковалёв С.П. Сбор и систематизация информации для портала математических ресурсов MathTree // Труды международной конференции “Вычислительные и информационные технологии в науке, технике и образовании”. Казахстан, Павлодар, 2006. Т. II. C. 381–389.

35. Барахнин В.Б., Федотов А.М. Информационные потребности научного сообщества как основа построения информационной модели описания его деятельности // Труды Третьей международной конференции “Системный анализ и информационные технологии”. Звенигород, 2009. С. 677–689.

36. Барахнин В.Б. Pазработка базы данных “Web-ресурсы математического содержания” // Труды Четвертой Всероссийской научной конференции “Электронные библиотеки:

перспективные методы и технологии, электронные коллекции” (RCDL’2002). Дубна:

ОИЯИ. 2002. Том 2. С. 316–318.

37. Барахнин В.Б., Федотов А.М. Построение тезауруса для информационнопоисковой системы “Web-ресурсы математического содержания” // Инфокоммуникационные и вычислительные технологии и системы. Материалы Всероссийской конференции. Улан-Удэ: БурГУ, 2003. С. 21–23.

38. Шокин Ю.И., Ламин В.А., Федотов А.М., Барахнин В.Б., Жижимов О.Л., Мазов Н.А., Пищик Б.Н., Покровский Н.Н. Распределенная информационная система “Виртуальный музей Науки и техники СО РАН” // Труды Пятой всероссийской научной конференции “Электронные библиотеки: перспективные методы и технологии, электронные коллекции” (RCDL’2003). СПб.: НИИ химии СПбГУ, 2003. С. 1126.

39. Шокин Ю.И., Федотов А.М., Клименко О.А., Леонова Ю.В., Гуськов А.Е., Барахнин В.Б. О структуре и содержательном наполнении информационной системы СО РАН // Труды Х Байкальской Всероссийской конференции “Информационные и математические технологии в науке, технике и образовании”. Иркутск, 2005.

С. 7–12.

40. Барахнин В.Б., Леонова Ю.В. Информационная модель горизонтальных связей между документами на основе бинарных отношений с дополнительными атрибутами // Труды Всероссийской научной конференции “Научный сервис в сети Интернет: технологии распределенных вычислений”. Новороссийск, 2005. С. 231–234.

41. Барахнин В.Б., Леонова Ю.В. Применение модели направленных связей между документами для построения информационных систем научного сообщества // Труды Седьмой Всероссийской научной конференции “Электронные библиотеки: перспективные методы и технологии, электронные коллекции” (RCDL’2005). Ярославль, 2005.

С. 200–207.

42. Леонова Ю.В., Барахнин В.Б. Разработка информационной модели отношений и тематических связей между документами информационной системы научного сообщества // Материалы Девятой Всероссийской научно-практической конференции “Проблемы информатизации региона” (ПИР-2005). Красноярск, 2005. Т. 1. С. 109–114.

43. Барахнин В.Б., Леонова Ю.В., Федотов А.М. Системные принципы для построения информационных систем научно-организационной направленности // Труды Всероссийской научной конференции “Научный сервис в сети Интернет: технологии параллельного программирования”. Новороссийск, 2006. С. 145–148.

44. Барахнин В.Б., Ведерников В.В. Алгоритм автоматической каталогизации статей, опубликованных в электронных версиях научных журналов // Труды Всероссийской научной конференции “Научный сервис в сети Интернет: технологии параллельного программирования”. Новороссийск, 2006. С. 277–279.

45. Барахнин В.Б., Федотов А.М. О понятии “информационная система” в свете современных информационных технологий // Труды VI Всероссийской научно-практической конференции “Инновационные недра Кузбасса. IT-технологии”. Кемерово, 2007.

С. 139–144.

46. Барахнин В.Б., Федотов А.М., Шокин Ю.И. Проблемы построения информационно-поисковых систем общего назначения // Труды VI Всероссийской научно-практической конференции “Системы автоматизации в образовании, науке и производстве”. Новокузнецк, 2007. С. 35–39.

47. Барахнин В.Б., Нехаева В.А., Федотов А.М. Методика отбора публикаций из библиографических баз данных на основании меры сходства // Материалы Всероссийской конференции с международным участием “Знания – Онтологии – Теории” (ЗОНТ07). Новосибирск, 2007. Т. 2. С. 88–94.

48. Барахнин В.Б., Григорьева Я.И., Федотов А.М. Использование тезауруса предметной области для построения информационно-справочных систем по истории науки // Материалы Всероссийской конференции с международным участием “Знания – Онтологии – Теории” (ЗОНТ-07). Новосибирск, 2007. Т. 2. С. 95–100.

49. Барахнин В.Б., Федотов А.М. Особенности информационно-поисковых систем общего назначения // Труды Всероссийской научной конференции “Научный сервис в сети Интернет: многоядерный компьютерный мир”. Новороссийск, 2007. С. 340– 344.

50. Барахнин В.Б., Федотов А.М. Методологические подходы к построению информационно-справочных систем по истории науки // Труды Девятой Всероссийской научной конференции “Электронные библиотеки: перспективные методы и технологии, электронные коллекции” (RCDL’2007). Переславль–Залесский, 2007. С. 84–88.

51. Федотов А.М., Барахнин В.Б., Гуськов А.Е., Леонова Ю.В. Построение информационной системы научного сообщества на основе интеграции разнородных коллекций ресурсов // Сборник тезисов постерных докладов Девятой Всероссийской научной конференции “Электронные библиотеки: перспективные методы и технологии, электронные коллекции” (RCDL’2007). Переславль–Залесский, 2007. С. 111–117.

52. Барахнин В.Б., Нехаева В.А., Федотов А.М. О задании меры сходства для классификации документов из библиографических баз данных // Труды VII Всероссийской научно-практической конференции “Инновационные недра Кузбасса. IT-технологии”.

Кемерово, 2008. С. 219–225.

53. Барахнин В.Б., Жижимов О.Л., Степанов Ю.Ю., Федотов А.М. LDAPкаталог организации как ядро корпоративной распределенной информационной системы // Труды VII Всероссийской научно-практической конференции “Инновационные недра Кузбасса. IT-технологии”. Кемерово, 2008. С. 226–232.

54. Шокин Ю.И., Барахнин В.Б., Гуськов А.Е., Клименко О.А., Леонова Ю.В., Рычкова Е.В., Шабальников И.В. Единая информационная среда научной организации на примере ИВТ СО РАН // Труды VII Всероссийской научно-практической конференции “Инновационные недра Кузбасса. IT-технологии”. Кемерово, 2008.

С. 271–276.

55. Барахнин В.Б., Федотов А.М. Проблемы технологий создания систем смысловой обработки данных // Труды Десятой Всероссийской научной конференции “Электронные библиотеки: перспективные методы и технологии, электронные коллекции” (RCDL’2008). Дубна, 2008. С. 39–44.

56. Рубцов Д.Н., Барахнин В.Б. О возможности борьбы с дубликатами при запросах к разнородным библиографическим источникам // Труды Одиннадцатой Всероссийской научной конференции “Электронные библиотеки: перспективные методы и технологии, электронные коллекции” (RCDL’2009). Петрозаводск, 2009. С. 293–298.

57. Барахнин В.Б., Ткачев Д.Н. Классификация математических документов с использованием составных ключевых терминов // Материалы Всероссийской конференции с международным участием “Знания – Онтологии – Теории” (ЗОНТ–09). Новосибирск, 2009. Т. 1. С. 16–23.







© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.