WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 26 | 27 || 29 | 30 |   ...   | 82 |

3. Очистка тезаурусов. Пользователь должен указать для каждого ai A,i = 1, n, словарь, содержащий стоп-слова (например, предлоги и союзы языка, на котором написан документ, являются для него стоп-словами, но предлоги и союзы другого языка, используемые как примеры, к ним не относятся) sj,sj Voc. Слова, содержащиеся в sj,sj Voc, необходимо удалить из тезаурусов. Затем отбрасывается вся служебная информация (для гипертекста, например, это теги разметки). Таким образом формируются очищенные тезаурусы T`(ai ),p T(ai ) p T`(ai ) p s,T`(ai ) s =. Очищенный тезаурус ИР строится как j j n n объединение очищенных тезаурусов ai :TИР = ) T`ИР = (ai ), а очищенный тезаурус T(ai T`ИР i=1 i=ПрО – как объединение тезаурусов ИР.

4. Связывание тезауруса с онтологией ПрО. Чтобы интегрировать обработку слов, имеющих одинаковую семантику (например, синонимы, переводы термина на различные языки, разнообразные виды написания), тезаурусу ПрО ставится в соответствие некоторая онтология О (пользователь может формировать ее самостоятельно, использовать готовую онтологию либо ее модификацию и т.д.).

Для каждого слова из тезауруса надо установить ссылку на один из терминов онтологии (если связь отсутствует, то слово считается стоп-словом либо элементом разметки и должно быть отброшено):

p T`(ai )t = Term(p,O)TO. В дальнейшем группа терминов тезаурусов ИР, связанная с одни термином онтологии, будет называться семантическим пучком и рассматриваться как единое R, j = 1,n j целое. p T`ИР Rj = {r : r T`ИР,Term(p,O) = Term(r,O)} Ontologies Это позволяет интегрировать обработку семантики документов, информация в которых представлена на различных языках, и, таким образом, обеспечить мультилингвистический анализ информационных ресурсов в сети Интернет.

5. Расширение онтологии. Если в тезаурусе обнаружены слова, для которых невозможно установить ссылку в онтологии, однако пользователь считает эти слова значимыми, то необходимо расширить онтологию, введя в нее соответствующие термины, указать их связи с другими терминами онтологии и вновь вернуться к шагу 4.

6. Построение нормализованного тезауруса ПрО, т.е. объединения всех терминов онтологии ПрО, с которыми установлена связь слов из нормализованного тезауруса ИР (рис.2.):

Нормализованный тезаурус представляет собой проекцию множества слов ИР на множество терминов ПрО. LИР = {t : p T`(ai ),i = 1, n,t = Term(p,O)TO}, а нормализованный тезаурус ПрО – объединение нормализованных тезаурусов ИР (рис.3.).

Полно- Тезаурус ИР Полно- Тезаурус ИР ПолноПолнотекстовый Онтология текстовый текстовый Онтология текстовый документ ПрО документ документ ПрО документ Онтология Онтология ПрО ПрО Термины ПолноПолноТезаурус ИР Тезаурус ИР текстовый текстовый Слова онтологии документ документ Тезаурус ПрО Тезаурус ПрО Нормализованный Нормализованный Тезаурус ИР Тезаурус ИР тезаурус ИР тезаурус ИР ПолноПолнотекстовый Тезаурус ИР текстовый Тезаурус ИР документ документ Рис.2. Построение нормализолванного тезауруса ИР Рис.3. Формирование тезауруса ПрО Построение тезауруса ИР Тезаурус ИР, найденного ИПС в результате выполнения запроса пользователя, является упрощенным.

Это простой словарь, который не содержит отношений между словами (извлечение таких связей из текста достаточно сложно и в данном случае не оправданно).

Алгоритм построения тезауруса ИР состоит из следующих шагов:

i 1. Формирование исходного множества ИР U,.

U ={ИРj, j = 1, m} 2. Формирование тезаурусов ИР из U. Для каждого из ИР строится и очищается тезаурус, 3. Построение нормализованных тезаурусов ИР: при нормализации используются семантически пучки, сформированные пользователем при формировании тезауруса ПрО.

Алгоритм сравнения тезауруса ИР с тезаурусом ПрО Нормализованные тезаурусы ИР и тезаурус ПрО представляют собой подмножества терминов онтологии ПрО О, выбранной пользователем: LИР Term(O), LПрО Term(O). Можно предположить, что тот ИР, описания которого содержат больше слов, для которых удалось установить соответствие с терминами ПрО, которые в данный момент интересуют пользователя (что отражено в нормализованном тезаурусе ПрО), в большей степени может удовлетворить информационные потребности пользователя, чем другие ИР, также релевантные тому же формальному запросу к ИПС. Таким образом, необходимо найти ИР q, такой, что f (q, LПрО)= max f (LИР, LПрО), где функция f определяется как количество XII-th International Conference "Knowledge - Dialogue - Solution" элементов в пересечении множеств LИР и LПрО : f (A, B) = A B. Если различные термины нормализованных тезаурусов имеют для пользователя различное значение, то можно использовать соответствующие весовые коэффициенты, позволяющие учитывать их значимость. Тогда оценочная z функция имеет следующий вид: f (A, B)= y(t ), где функция y определена для всех терминов j j=0,t A t B j j онтологии ПрО и y(t )= w,t A t B.

j j j j Заключение Предложенный в работе подход к использованию онтологии предметной области для создания и нормализации тезаурусов информационных ресурсов позволяет производить поиск интересующей пользователя информации на семантическом уровне, абстрагируясь от языка описания ресурсов.

При этом использование тезаурусной меры информации позволяет предлагать пользователю только те сведения, которые будут ему понятны, что обеспечивает пертинентность информационного поиска.

Литература 1. Методика оценки эффективности систем информационного поиска / Выборнова О.Е., Завьялова О.С., Осипов Г. С., Смирнов И.В., Тихомиров И.А. // Сб.трудов VI международн.конф. "Интеллектуальный анализ информации ИАИ-2006", К.: Просвіта, 2006. – С.215-226.

2. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. - Спб.: Питер, 2001.

3. IDEF5 Method Report. Knowledge Based Systems, Inc.1408 University Drive East College Station, Texas 77840, 1994. – 175 рр.

4. Нариньяни А.С. Кентавр по имени ТЕОН: Тезаурус + Онтология. – http://www.artint.ru/articles/narin/teon.htm.

5. Рогушина Ю.В., Гладун А.Я. Онтологический поход к мультилингвистическому анализу информационных ресурсов в сети Интернет // Сб.трудов VI международн.конф. "Интеллектуальный анализ информации ИАИ-2006", К.: Просвіта, 2006. – С.237-246.

Информация об авторах Рогушина Юлия Витальевна – Институт программных систем НАНУ, Киев-187 ГСП 03680, просп. акад. Глушкова, 40, e-mail: _jjj_@ukr.net Гладун Анатолий Ясонович – Международный научно-учебный центр информационных технологий и систем НАНУ, Киев-187 ГСП 03680, просп. акад. Глушкова, 40, e-mail: glanat@yahoo.com ЯЗЫК МНОГОУРОВНЕВОГО ОНТОЛОГИЧЕСКОГО МОДЕЛИРОВАНИЯ Сергей Шаврин Резюме: В данной статье предлагается язык многоуровневого онтологического моделирования O ML, ориентированный на использование в системах, управляемых метаданными. В статье рассматриваются существующие языки и подходы к онтологическому моделированию, после чего предлагается рассмотреть новый язык, объединяющий в себе их сильные стороны.

Ключевые слова: Метамоделирование, информационные системы, языки моделирования.

Классификация ACM: H.0 Information Systems - General.

Ontologies Введение При разработке информационных систем коллективом разработчиков создается целый ряд артефактов, который обычно включает модель предметной области, документацию пользователя, программный код, набор тестов и т.д. Эффективность работы компании в краткосрочной перспективе зависит от наличия инструментальных средств, позволяющий облегчить и по возможности автоматизировать процесс создания и использования этих артефактов. Однако средне- и дальнесрочная эффективность во многом зависит от того, насколько универсальны создаваемые компанией артефакты.

Общепринятым способом универсализации, а, следовательно, и продления срока жизни создаваемых артефактов, является повышение уровня абстракции. Однако абстрагирование увеличивает семантический разрыв между артефактом и машиной, что приводит к необходимости выполнения трансляции. Как известно, существует два типа трансляторов: компиляторы и интерпретаторы. По принципу компиляторов работает подавляющее большинство современных CASE-средств.

Преимуществом такого подхода является то, что процесс трансляции выполняется один раз до начала эксплуатации системы, что позволяет сэкономить ресурсы компьютера. Однако, системы, построенные по принципу интерпретатора, обладают большей гибкостью, что в современных условиях представляется более ценным свойством.

Естественным кандидатом на роль «управляющей программы» информационной системы, построенной по принципу интерпретатора, является модель предметной области. В этом случае необходимо, чтобы система понимала и могла исполнять модели, описанные на некотором языке моделирования. Наиболее распространенным на сегодняшний день языком является UML [7]. В данный момент в OMG (Object Management Group) ведутся работы по созданию второй версии этого языка и сопутствующих стандартов.

Опубликованы еще не все необходимые спецификации, однако уже сейчас можно говорить о том, что была проделана огромная работа по формализации семантики UML, что существенно облегчает создание виртуальной UML-машины. На Рис. 1 приведен пример UML-модели.

Документы Документ Номер: Integer Дата: DateTime Счет НакладнаяНаПеремещение отправитель получатель {ordered} {ordered} 1 1 * * СтрокаСчета Клиент Склад СтрокаНакладной Колво: Integer Цена: Currency Имя: String Название: String Колво: Integer Телефон: String Адрес: String ИНН: String Товар 1 Код: String Наименование: String Рис. 1. Пример UML-модели Использование модели предметной области в качестве основного артефакта позволяет, при соответствующей инструментальной поддержке, существенно повысить эффективность работы компании.

Однако, как показывает опыт, модель предметной области так же, как и любой другой артефакт, подвержена изменениям, которые, впрочем, гораздо проще выполнить, нежели внести изменения в программный код. С другой стороны, для смежных предметных областей зачастую используются похожие модели, отличающиеся лишь в деталях. В данной ситуации компания может повысить свою XII-th International Conference "Knowledge - Dialogue - Solution" эффективность в средне- и долгосрочной перспективе используя метамодели, описывающие в меньшей степени подверженные изменениям метааспекты, общие для целого ряда смежных предметных областей.

С точки зрения метамоделирования UML предоставляет весьма ограниченные возможности, основанные на использовании стереотипов и помеченных значений (tagged values). В данном случае необходим язык, позволяющий описывать полноценные метасущности и поддерживающий произвольное число метауровней.

Проект OMEGA OMEGA [4] – Ontological Metamodeling Extension for Generative Architectures – это проект по расширению MOF [6] (Meta Object Facility – метамодель языка UML) с целью поддержки онтологического метамоделирования. OMEGA ориентируется на генерацию кода.

В контексте рассматриваемой проблемы проект OMEGA интересен тем, что определяет ряд понятий, делающих возможным полноценное онтологическое метамоделирование. Основными среди них являются метакласс, метаатрибут и метаассоциация. Следует отметить, что метаатрибут в данном случае понимается не как атрибут метакласса, а как полноценная метасущность, экземплярами которой являются традиционные атрибуты. Кроме того, существует возможность управления допустимым количеством экземпляров метаатрибута. Это позволяет моделировать такие особенности предметной области, как, например, «Документ каждого типа имеет ровно один числовой атрибут, представляющий номер документа; не менее одного атрибута-даты и несколько атрибутов-реквизитов» (см. Рис. 2 и Рис. 3).

Однако OMEGA имеет два недостатка, важных с точки зрения рассматриваемой проблемы. Во-первых, в силу того, что OMEGA базируется на MOF, этот проект наследует все его особенности. В частности, MOF ориентируется на описание языков, таких как UML и CWM [5], и не обладает рядом возможностей (которые, впрочем, имеются в UML), полезных при моделировании предметных областей информационных систем. А именно, MOF и, следовательно, OMEGA не поддерживают множественной классификации и ортогональной специализации, каковые, по мнению автора, являются весьма полезными инструментами моделирования.

Другим существенным недостатком является то, что семантика OMEGA определена в большинстве своем неформально, что существенно осложняет построение OMEGA-машины.

“ModelLayer” Метамодель “MetaClass” 1 1 “MetaAttribute” Type = {String} Документ Номер Название: String 1 1 “MetaAttribute” Type = {DateTime} Дата 1 1 “MetaAttribute” 0..1 * “MetaAttribute” * 0..1 “MetaClass” Имя Реквизит Справочник 1 * Название: String 0..“MetaAssociation” 0..Док_ТабЧасть “MetaClass” Type = {String, Integer, ТабличнаяЧасть Currency, Справочник} Multiplicity = {1} Multiplicity = {*} Aggregation = {composite} isOrdered = true Рис. 2. Пример OMEGA-метамодели Ontologies “ModelLayer” Модель “Class” 1 Счет_Позиция (Док_ТабЧасть) * “Class” Счет (Документ) ПозицияСчета (ТабличнаяЧасть) {ordered} Название = «Счет» Товар (Реквизит): Товар Номер (Номер): String Цена (Реквизит): Currency Дата (Дата): DateTime Количество (Реквизит): Integer Клиент (Реквизит): Клиент “Class” “Class” Клиент (Справочник) Товар (Справочник) Название = «Справочник контрагентов» Название = «Справочник товаров» Имя (Имя): String Наименование (Имя): String Телефон (Реквизит): String Код (Реквизит): String ИНН (Реквизит): String Рис. 3. Пример OMEGA-модели Глубокое порождение Аткинсона и Кюхне Говоря о порождении (создании экземпляров) обычно подразумевают мелкое порождение (shallow instantiation). Т.е. экземпляр создается в соответствие с определением своего класса. Другими словами, при определении класса делаются утверждения относительно его экземпляров. Очевидно, что в рамках двухуровневой модели «класс-экземпляр» другого понимания порождения и быть не может. Однако, распространение мелкого порождения на многоуровневый случай может привести к ряду проблем. В частности возникают проблемы дублирования понятий и неоднозначной классификации [1,2].

Pages:     | 1 |   ...   | 26 | 27 || 29 | 30 |   ...   | 82 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.