WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 30 | 31 || 33 | 34 |   ...   | 82 |

Tolle. Querying the Semantic Web with RQL. // In Computer Networks and ISDN Systems Journal, Vol. 42(5), August 2003, pp. 617-640.

[Miller, 1956] G.A. Miller. The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information. // In The Psychological Review, 1956, vol. 63, pp. 81-[Motik et al., 2002] Boris Motik, Alexander Maedche, Raphael Volz. A Conceptual Modeling Approach for Semantics-Driven Enterprise Applications. // In Proceedings of the First International Conference on Ontologies, Databases and Application of Semantics (ODBASE-2002). Springer, 2002.

[Noy et al., 2001] N.F. Noy, M. Sintek, S. Decker, M. Crubezy, R.W. Fergerson, M.A. Musen. Creating Semantic Web Contents with Protege-2000. // IEEE Intelligent Systems 16(2), pp. 60-71, [Wertheimer, 1944] M. Wertheimer. Gestalt theory. // In Social Research, 11, 78-99.

Authors' Information Vladimir Gorovoy – PHD student, Saint-Petersburg State Polytechnical University, Intelligent Computer Technologies Dpt. 195251, Politechnicheskaya 29/9, St. Petersburg, Russia; e-mail: vgorovoy@mail.ru Tatiana Gavrilova – Professor, Saint-Petersburg State Polytechnical University, Intelligent Computer Technologies Dpt. 195251, Politechnicheskaya 29/9, St. Petersburg, Russia; e-mail: gavr_csa@rambler.ru СИСТЕМА ИНТЕЛЛЕКТУАЛЬНОГО ПОИСКА И АВТОМАТИЧЕСКОЙ КАТАЛОГИЗАЦИИ ДОКУМЕНТОВ НА ОСНОВЕ ОНТОЛОГИЙ Вячеслав Ланин, Людмила Лядова, Светлана Чуприна Аннотация: Статья посвящена описанию подхода к реализации системы интеллектуального поиска и автоматической классификации и каталогизации документов в CASE-системе, управляемой метаданными. Представленная система использует преимущества подхода, основанного на онтологиях, в совокупности с традиционным подходом, основанным на концепции ключевых слов.

Разработанный метод характеризуется универсальностью применения, возможностью интеграции с существующими средствами поиска документов, а также мощными интеллектуальными возможностями.

Keywords: электронный документ, автоматическая каталогизация и классификация, онтологический подход, проектирование и разработка информационных систем.

ACM Classification Keywords: I.2 Artificial Intelligence: I.2.7 Natural Language Processing – Text analysis;

D.2 Software Engineering: D.2.2 Design Tools and Techniques – Computer-aided software engineering (CASE).

Введение При разработке крупных распределенных информационных систем, отдельные подсистемы которых должны устанавливаться в территориально удаленных учреждениях, имеющих различные технические возможности, отличающихся многообразием организационных форм и форм деятельности, инструментальные средства, используемые для их создания, должны удовлетворять требованиям, обеспечивающим возможность их настройки на различные условия эксплуатации и потребности пользователей как при установке, так и динамически, в ходе эксплуатации. Реализация этих требований обеспечивает эффективность затрат на создание системы, высокую степень ее адаптируемости и масштабируемости, живучести.

В CASE-системе METAS (METAdata System), основанной на интерпретации многоуровневых метаданных, описывающих информационную систему, созданную с помощью этой технологии, с различных точек зрения и с различной степенью детализации, уникальные возможности динамической настройки системы Ontologies обеспечиваются средствами реструктуризации базы данных системы, генерации и настройки пользовательского интерфейса, генерации запросов и формирования отчетов (документов) [Лядова, 2003].

Этап анализа предметной области при использовании для разработки информационной системы CASEсредств становится наиболее трудоемким и ответственным этапом. Любые изменения условий деятельности организации, для которой создается информационная система, требуют выполнения повторного анализа и внесения изменений в модель информационной системы. Изменения условий эксплуатации системы, потребностей пользователей чаще всего связаны с какими-либо нормативными документами, правовыми актами, регламентирующими деятельность в данной предметной области или на уровне конкретного учреждения. Анализ предметной области, таким образом, во многом опирается на анализ этих документов, образующих сложную систему. Внесение изменений в модель должно основываться именно на изменениях, закрепляемых в нормативных документах.

Снижение трудоемкости работы аналитика может быть обеспечено максимальной автоматизацией процесса анализа документов. Для решения этой задачи необходимо иметь средства поиска и хранения всего множества документов, получаемых из различных источников, изданных в исследуемой области деятельности на различных уровнях, а также средства их классификации, каталогизации и анализа.

В данной работе рассматриваются проблемы, возникающие при работе с информацией в неоднородной программной и организационной среде, связанные с поиском документов, их электронной каталогизацией.

Примерами таких документов могут служить различные внутренние документы организации (приказы, договоры, акты и пр.), нормативно-правовые акты и т.п. Все эти документы поступают в информационную систему децентрализовано, из разнородных источников, являются обычно слабоструктурированными, что осложняет работу с ними. Крайне важными для реализации задачами в этой области являются автоматизация процессов обмена данными с различными информационно-правовыми системами, обеспечение возможности импорта текстов и документов из файлов и баз данных разнообразных форматов и систем управления документами.

К основным проблемам, препятствующим быстрой и качественной работе с документами в электронных системах управления документами, можно отнести недостаточную структурированность информации, ее избыточность, наличие большего объема малополезной с точки зрения конкретной задачи, решаемой пользователем, информации. На результативность процесса поиска необходимых документов оказывает большое влияние и человеческий фактор: зачастую пользователь не готов к долгому ожиданию результатов поиска и просмотру и анализу большого объема результирующей выборки. Кроме того, большинство пользователей неэффективно используют поисковое программное обеспечение и, как правило, они игнорируют расширенные поисковые возможности и ограничиваются короткими типовыми запросами.

Эффективным решением части перечисленных выше проблем может служить создание специализированного инструментария в информационных средах и системах электронного документооборота, основанного на методах искусственного интеллекта, позволяющего избавиться от ряда нежелательных перечисленных выше свойств.

Задача поиска документов Рассмотрим ситуацию поиска человеком какой-либо информации в книге, «бумажном» документе. Самый очевидный вариант – прочитать всю книгу (документ), но этот процесс может потребовать значительных временных затрат. Однако, если пользователь уже имеет некоторые знания в соответствующей предметной области, то он может воспользоваться оглавлением книги (документа), чтобы отобрать разделы, посвященные интересующим его вопросам, или воспользоваться предметным указателем, чтобы определить номера страниц, на которых упоминаются искомые термины.

В данном случае оглавления и указатели являются инструментами, упрощающими поиск. При работе с информационными системами, включающими средства управления документами (не только их формирования и хранения в самой системе, но и поиска во внешних источниках, импорта, анализа, классификации и каталогизации) роль «искомой информации» играют документы, а в качестве «оглавлений» и «предметных указателей» выступают службы, именуемые тематическими каталогами.

XII-th International Conference "Knowledge - Dialogue - Solution" Допустим, что пользователь работает с электронной системой и ему необходимо собрать сведения о городе «Пермь». Можно выделить несколько этапов поиска информации. У пользователя появляется необходимость найти сведения по какому-либо вопросу, т.е. возникает информационная потребность.

Затем пользователю необходимо некоторым образом формализовать свою информационную потребность. Процесс формализации в традиционных поисковых системах сводится к выявлению набора понятий и терминов (ключевых слов), характеризующих информационную потребность, и определению отношений между ними. Выделенное множество ключевых слов с зафиксированными отношениями между ними называется запросом. На следующем этапе пользователь через интерфейс поисковой системы вводит запрос. Система на множестве документов, являющемся информационно-поисковым пространством, осуществляет выборку документов, которые по внесенным в систему критериям соответствуют запросу пользователя, и формирует результат (отклик). Найденные документы по своему содержанию (рис. 1) делятся на две группы: документы, соответствующие информационной потребности пользователя, и документы, не соответствующие его информационной потребности, но соответствующие запросу пользователя с точки зрения информационно-поисковой системы (информационный шум). В рассмотренном выше примере к шуму могут относиться документы, в которых «Пермь» не будет являться названием города.

Релевантные Найденные документы документы Все пространство документов Найденные релевантные документы Рис. 1. Пространство поиска документов Меру соответствия полученного отклика и информационной потребности пользователя называют смысловой релевантностью, а меру соответствия отклика запросу – формальной релевантностью. Как правило, признаком, по которому информационно-поисковая система определяет формальную релевантность документа, является присутствие ключевых слов запроса в тексте данного документа. При поиске, основанном на ключевых словах, за пределами множества найденных документов обычно остается часть документов, которые соответствуют информационной потребности пользователя.

В примере с ключевым словом «Пермь» не найденными по запросу могут остаться документы, в которых вместо фраз «город Пермь», «Пермь» употребляются выражения «столица Пермского края», «крупнейший город западного Урала» и т.п.

Основная проблема поиска информации заключается в том, что большинство поисковых систем основываются на поиске ключевых слов, а для таких систем «слово» не имеет четкого смысла, или, другими словами, семантического содержания.

Большинство технологий работы с документами ориентированы на организацию удобной работы с информацией для человека. Но зачастую методы работы с электронной информацией просто копировали методы работы с «бумажной» информацией. В текстовом редакторе присутствуют широкие возможности форматирования текста (представления в удобном для человека виде), но практически отсутствуют возможности для передачи смыслового содержания текста. Компьютеру в большинстве случаев отводится роль «пишущей машинки» или вычислительного устройства, нацеленного на механический перебор вариантов ответов. Для эффективного решения задачи поиска необходимо расширить понятие традиционного документа: с документом необходимо связать знания, позволяющие интерпретировать и обрабатывать хранящиеся в этом документе данные.

Методы искусственного интеллекта, как правило, используются для решения трудно формализуемых задач, постановка которых проста и понятна для человека, но при разработке алгоритмов их решения Ontologies возникают трудности. Одна из таких задач – работа с документами в информационных системах: их поиск и каталогизация, анализ и извлечение информации.

В настоящее время существуют различные подходы, модели и языки, ориентированные на интегрированное описание данных и знаний. Наиболее перспективным и универсальным на данный момент представляется онтологический подход.

Понятие онтологии В настоящее время понятие «онтология» является одним из наиболее часто используемых понятий.

Термин «онтология» применяется в различных контекстах, в которых ему приписывается различный смысл. Учитывая специфику решаемых в данной работе задач, будем считать, что онтология – это точная спецификация некоторой области, которая включает в себя словарь терминов (понятий) предметной области и множество связей между ними (типа «элемент-класс», «часть-целое»), которые описывают, как эти термины соотносятся между собой в конкретной предметной области. Фактически в данном случае онтология – это иерархическая понятийная основа рассматриваемой предметной области, для которой разработана информационная система.

Поиск подходящих онтологий сложен, занимает много времени. Данные обстоятельства приводят к тому, что под конкретные задачи подчас невозможно найти подходящую онтологию из числа разработанных ранее, поэтому создание новой отологии, учитывающей специфику конкретной задачи, является оправданным. Кроме того, использование готовых онтологий обладает еще рядом недостатков.

В частности, знания разных людей могут укладываться в разные онтологии, при этом нельзя утверждать, что одна из них лучше другой. Во многих случаях для одной и той же организации, предприятия, в котором установлена информационная система, или для какой-либо трудно формализуемой предметной области можно построить несколько различных онтологий, отражающих различные точки зрения на предметную область и решаемые в ней задачи.

Для описания онтологий и работы с ними существуют различные языки и системы, однако, наиболее перспективным представляется визуальный подход, позволяющий специалистам непосредственно «рисовать» онтологии, что помогает наглядно сформулировать и объяснить природу и структуру явлений.

Визуальные (графовые) модели обладают особенной познавательной силой.

Онтологический поиск документов В соответствии с предлагаемым подходом [Chuprina, 2004] поиск информации осуществляется с помощью онтологии предметной области информационной системы или с помощью специально разработанной пользователем онтологии. В общем случае интерпретация данных, информации, содержащейся в документах, является чрезвычайно сложной задачей, но для решения задачи поиска документов необходим лишь механизм сопоставления документа и онтологии.

Процесс поиска документа на основе онтологий можно описать следующим образом.

Процесс начинаем с поиска в документе основных понятий онтологии. Если все понятия найдены в документе, то считаем, что онтология описывает данный документ.

Допустим, системе не удается найти какое-либо понятие онтологии, тогда начинается просмотр и поиск синонимов данного понятия. Успешный поиск свидетельствует о том, что онтология описывает данный документ.

Pages:     | 1 |   ...   | 30 | 31 || 33 | 34 |   ...   | 82 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.