WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

РЕШЕНИЕ ЗАДАЧИ ПОИСКА ИНФОРМАЦИИ НА ОСНОВЕ ОНТОЛОГИЙ Д.Е. Пальчунов, д.ф.–м.н., профессор, заведующий кафедрой Общей информатики Новосибирского государ ственного университета, ведущий научный сотрудник

Института математики СО РАН.

Рассмотрены методы информационного поиска и проблема поиска информации в Интернете. Проанализированы преимущества и недостатки известных поисковых систем;

разработана метапоисковая система с интерфейсом в виде виртуального ка талога. Предлагаемый подход основан на применении онтологий предметных областей.

В работе использована теоретико модельная формализация онтологий. Для поиска ин формации в Интернете применены иерархия онтологий предметных областей, онтоло гия Интернет ресурсов и онтология пользователя.

1. ВВЕДЕНИЕ чисел и т.д. Каждой подобласти (на каждом уровне) соответствует её онтология. В результате получаются абота посвящена методам поиска информации иерархии онтологий для предметных областей – для в корпоративных информационных системах математики, катализа и патентоведения.

Ри в Интернете1. Наибольший интерес предста Использование только иерархии онтологий пред вляет поиск информации, представленной различ метных областей считаем недостаточным, поскольку ными Интернет ресурсами. Это огромный объём даже по узкой области знаний в Интернете десятки информации, во многих случаях являющейся исчер тысяч ресурсов. С другой стороны, пользователю, как пывающей. Организация поиска в корпоративных правило, нужны не все ресурсы, а только какой то их информационных системах имеет много общего вид: текст статьи, страница конференции, форум, пер с организацией поиска в Интернете. Принципиаль сональная страница и т.п. Для более точной специфи ная разница только в объёме информации и в нали кации запроса пользователя необходимо использовать чии большого количества уже существующих пои онтологию Интернета, описывающую виды и подви сковых систем для Интернета (Гугл, Яндекс и др.). ды различных Интернет ресурсов. И, наконец, для на Наш подход основан на применении онтологий [8, иболее точного формулирования поискового запроса 9, 28]. Для решения проблемы информационного по полезно определить вид задачи, решаемой пользовате иска в Интернете использованы три вида онтологий: лем, – получить ответ на некоторый вопрос, скачать иерархия онтологий предметных областей;

онтология статью, фильм или фотографию, купить книгу и т.д.

Интернет ресурсов и онтология пользователя. Поэтому необходима онтология пользователя, полез Иерархия онтологий предметных областей содер ная также для кастомизации – подстройки поисковой жит онтологии разделов и подразделов некоторой системы под конкретного пользователя.

предметной области. Мы рассматриваем три таких Для реализации предлагаемого подхода нами предметных области – математику, катализ и патен использована теоретико модельная формализация товедение, представленными иерархиями подобла онтологий [8, 28]. Онтология предметной области стей. Математика состоит из алгебры, логики, ана рассматривается как пара – сигнатура из множества лиза, геометрии, топологии, теории вероятностей и ключевых понятий предметной области и множество т.д.;

алгебра – из теории групп, теории колец, теории аналитических предложений, истинных в данной «Работа выполнена при поддержке гранта РФФИ 05 01 04003 НИИО а (DFG project COMO, GZ: 436 RUS 113/829/0 1), а также гранта Междисциплинарного интеграционного проекта СО РАН № 115 "Разработка интеллектуальных информационных технологий генерации и анализа знаний для поддержки фундаментальных научных исследований в области естественных наук"» БИЗНЕС ИНФОРМАТИКА №1–2008 г. Набор Интернет ресурсов, предметной области. Это множество аналитиче Формализованная упорядоченных по соот ских предложений определяет смысл (значение) потребность ветствию потребности в определённой ключевых понятий предметной области.

информации Для организации поиска научно технической ин формации в Интернете разработана метапоисковая система, интерфейс которой реализован в виде вир туального каталога. Достижение точности и полноты информационного поиска в этой метапоисковой Интернет системе обеспечено методами формулировки пои скового запроса, основанными на использовании онтологии предметной области, онтологии сети Интернет и онтологии пользователя.

После того, как информационная потребность 2. ПОИСК ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ пользователя формализована, происходит поиск.

Организация точного поиска информации в сети Пользователь получает список Интернет ресурсов, Интернет – одна из наиболее бурно развивающихся соответствующих его запросу. Информационно областей в инженерии знаний [1, 2, 6, 9, 10, 13–15, 29]. поисковые системы используют для этого свой ин Наиболее массовые инструменты информационного декс – набор проиндексированных ранее Интер поиска – поисковые системы и Интернет каталоги. нет ресурсов. Интернет каталог выдаёт все храня Информационно поисковые системы позволя щиеся в нём ссылки, относящиеся к выбранной ют вести поиск ресурсов по запросу пользователя, рубрике. Выдаваемый список Интернет ресурсов сформулированному в виде последовательности упорядочен по степени соответствия поисковому слов, а также предоставляют возможность расши запросу. Таким образом, в нашей модели информа ренного поиска: требовать обязательного присут ционного поиска имеем: пользователя, желающего ствия слов, отсутствия слов, использовать логиче удовлетворить определённую информационную ские связки «и» и «или». Расширенный запрос – потребность, формализованный запрос к поиско достаточно простая булевая комбинация утвержде вой системе и выдачу поисковой системы – упоря ний вида «данное слово встречается в тексте». доченный набор Интернет ресурсов. Исходя из Интернет каталог состоит из структурирован этой модели, сформулируем параметры качества ного набора Интернет ресурсов, разбитых на руб информационного поиска. Наиболее распростра рики и подрубрики – обычно несколько уровней нённые параметры качества: релевантность, перти вложенности. Все ссылки, в каталоге привязаны нентность, точность, полнота.

к этим рубрикам. Для поиска требуемого Интер Пертинентность – мера качества поиска;

нас нет ресурса нужно выбрать подходящую рубрику колько хорошо результат поиска удовлетворяет ин и просмотреть список относящихся к ней ссылок. формационную потребность пользователя, т.е. это Информационно поисковые системы и Интернет соответствие информации, полученной в результа каталоги имеют свои преимущества и недостатки. Что те поиска, потребности пользователя. Пертинент бы оценивать качество поиска в различных информа ность определяется субъективным восприятием ционно поисковых системах и каталогах необходимо пользователя: в какой степени документ удовлетво ввести характеристики информационного поиска. ряет его информационную потребность. Информа Задачу информационного поиска в сети Интер ционная потребность пользователя может быть вы нет можно представить в виде приведённого ниже ражена в формализованном запросе с той или иной рисунка. степенью полноты и точности.

Пользователь для удовлетворения определённой Релевантность – мера того, как хорошо список информационной потребности формализует её сред результатов отвечает на запрос;

определяет порядок, ствами, которые ему даёт тот или иной поисковый в котором результаты поиска представлены пользо инструмент. Если пользователь имеет дело с инфор вателю. Когда есть большое количество найденных мационно поисковой системой Гугл или Яндекс, ресурсов, поисковая машина сортирует список ре информационная потребность будет формализована зультатов так, чтобы более релевантные страницы в виде последовательности слов или в виде расши оказались в списке раньше, чем менее релевантные.

ренного запроса. Если поиск происходит по Интер Релевантность – более узкое понятие, чем пер нет каталогу, формализацией информационной тинентность. Документ может быть релевантен потребности будет выбранная рубрика каталога. формализованному запросу, но при этом может 4 БИЗНЕС ИНФОРМАТИКА №1–2008 г.

не удовлетворять информационную потребность основан на логическом анализе естественного пользователя. Различают содержательную и фор языка и теории речевых действий [7, 26, 27].

мальную релевантность – по методу её определе В информационном поиске мы рассматриваем ния. Формальная релевантность – соответствие, три сущности: человек – пользователь, желающей определяемое алгоритмически сравнением поиско получить информацию;

формализованный запрос;

вого предписания и поискового образа документа, и последняя, третья – это ответ на запрос, представ на основании применяемого в информационно ленный в виде упорядоченного списка найденных поисковой системе критерия выдачи. Содержатель Интернет ресурсов.

ная релевантность – соответствие документа Поэтому первый шаг поиска информации – информационному запросу, определяемое нефор в формулировании запроса. Соответствие между мальным путем. информационной потребностью пользователя Пертинентность – степень соответствия между и формализованным запросом определяет успех ожиданиями пользователя и результатами поиска, информационного поиска. Назовём соответствие отношение объёма полезной для пользователя ин между информационной потребностью пользовате формации к общему объёму полученной информа ля и формализованным запросом адекватностью ции, найденной поисковой системой. Достижение запроса.

высокой пертинентности – основная задача совре Мы определяем релевантность как бинарное менных поисковых систем. отношение между формализованным запросом Существуют еще две характеристики информа и ответом на этот запрос. Числовое значение реле ционного поиска, более глубоко раскрывающие вантности зависит от трех параметров – точности, релевантность и пертинентность. полноты и ранжирования.

Точность – мера эффективности поиска, выра Ранжирование – правильность порядка, в кото женная в виде отношения числа найденных реле ром представлен список результатов информа вантных ресурсов к общему количеству ресурсов, ционного поиска.

содержащихся в выдаче поисковой системы в ответ Точность – доля релевантных ресурсов среди на формализованный запрос. всех ресурсов, присутствующих в выдаче.

Полнота – мера эффективности поиска, выра Полнота – это доля релевантных ресурсов при женная в виде отношения числа релевантных сутствующих в выдаче среди всех релевантных ресурсов, извлечённых поисковой системой из ресурсов, имеющихся в сети Интернет.

Интернета в ответ на формализованный запрос, Пертинентность – это бинарное отношение к общему количеству релевантных ресурсов, содер между информационной потребностью пользовате жащихся в Интернете. ля (формализованной в запросе) и списком Интер Полнота показывает, насколько хорошо поиско нет ресурсов, который поисковая система выдала вая система находит то, что нужно пользователю;

в ответ на этот запрос;

пертинентность зависит от точность показывает, насколько хорошо поисковая релевантности списка результатов, и адекватности система отфильтровывает то, что пользователю формализованного запроса. Часто пертинентностью не нужно. называют то, насколько выданный поисковой систе В приведённых выше определениях точности мой список Интернет ресурсов интересен пользова и полноты поиска мы можем заменить «релевант телю. Мы это определяем иначе: пертинентность – ный» на «пертинентный». В таком случае получим, это то, насколько выданный поисковой системой что точность – это доля пертинентных ресурсов список Интернет ресурсов соответствует той ин среди всех ресурсов, присутствующих в выдаче, формационной потребности, которую пользователь а полнота – это доля пертинентных ресурсов, при пытался сформулировать в данном формализованном сутствующих в выдаче, среди всех пертинентных запросе (средствами, предоставляемыми данной по ресурсов, имеющихся в сети Интернет. Очевидно, исковой системой). Различие состоит в следующем.

что при таком изменении определений полноты Ресурсы, представленные в выдаче поисковой и точности, изменятся и их числовые значения для системы, могут быть интересны пользователю, но конкретных результатов обработки конкретных за это может быть совсем не то, что он пытался сфор просов. Есть некоторый произвол в определении мулировать в конкретном запросе.

мер эффективности информационного поиска. Главная цель нашего исследования – разработка Чтобы сделать наше исследование точнее, по методов повышения пертинентности информа требуется ввести более формальное определение ционного поиска. Для получения высокой перти параметров эффективности поиска. Наш подход нентности, мы должны достигнуть и высокой БИЗНЕС ИНФОРМАТИКА №1–2008 г. адекватности, и высокой релевантности. Чтобы по получается запрос. А чем примитивнее запрос, тем лучать высокую адекватность, пользователь должен выше релевантность выдачи и ниже пертинент иметь: различные и достаточно богатые инструмен ность.

ты создания формализованного запроса, т.е. пред В результате возможна парадоксальная ситуа ставления осознаваемой им информационной по ция, когда удовлетворение информационной по требности в формальном виде;

возможность делать требности пользователя (пертинентность) может точную и полную формулировку его информацион быть обратно пропорционально релевантности ной потребности. выдачи поисковой системы.

В терминах наших определений, для пользовате Потребность пользователя и результат выдачи ля важна пертинентность результата информацион (список найденных Интернет ресурсов) можно ного поиска, а не его релевантность. Чем беднее воз представить как начало и конец пути, по которому можности формулировки запроса, тем проще ин пользователь и поисковая система должны пройти, формационно поисковой системе добиться высокой чтобы доставить пользователю необходимую ему релевантности. Даже при максимальной релевант информацию. Момент, когда поисковый запрос ности выдачи поисковой системы пертинентность – сформулирован, находится на этом пути и по суще удовлетворенность пользователя – может быть близ ству означает конец работы пользователя и начало кой нулю, если формализованный запрос, сформу работы поисковой системы. Чем примитивнее вы лированный пользователем, неадекватно отражает разительные возможности формулировки запроса, его реальную информационную потребность. Такая тем ближе этот момент к концу пути, и тем дальше ситуация возможна из за неопытности пользователя он от потребностей пользователя. Соответственно, и сложности требуемой информации. Приведём тем большую работу должен проделать пользова пример. Пользователь хочет узнать, о чём пишут сту тель, чтобы решить свою информационную про денты Новосибирского государственного универси блему. И наоборот, чем сложнее и выразительнее тета (НГУ). Он вводит в Гугл запрос «форум студен язык поискового запроса, тем больше «путь» пои тов НГУ». Просмотрев первые 5 страниц выдачи сковой системы, и тем сложнее ей достигнуть реле Гугла (т.е. первые 50 выбранных ресурсов), пользова вантности. В то же время «путь» пользователя ме тель обнаруживает, что среди них нет ни одной ссы ньше, и ему легче сформулировать правильный лки на какой либо студенческий форум в НГУ, т.е. запрос, чтобы получить нужную информацию.

пертинентность первых пятидесяти ссылок равна Рассмотрим инструменты информационного нулю. При этом релевантность, и, в частности, ран поиска – информационно поисковые системы жирование выдачи очень высоки. Рассмотрим и Интернет каталоги.

подробнее утверждение: чем беднее возможности Преимущества информационно поисковых формулировки запроса, тем проще информацион систем, Гугл и Яндекс:

но поисковой системе добиться высокой релевант высокая релевантность выдачи, т.е. обеспечи ности, когда в качестве запроса пользователь вводит вают высокое соответствие найденных доку ровно одно слово. В этом случае поисковая система ментов сделанному формальному запросу;

должна предоставить документы, содержащие как используют сходные принципы определения можно большее число вхождений данного слова. релевантности документов;

Современные поисковые системы для таких запро полнота найденной информации;

сов покажут очень высокую релевантность. Однако, осуществляют поиск практически по всем при высокой релевантности указанного выше запро ресурсам, представленным в Интернете. Пои са, в подавляющем числе случаев удовлетворенность сковой системой Гугл в настоящее время проин пользователя – пертинентность – будет крайне низ дексировано более 24–х миллиардов страниц;

кой, а во многих случаях равной нулю (или даже от индекс русскоязычной поисковой системы рицательной – если пользователь потратил своё вре Яндекс содержит более 2–х миллиардов стра мя и не получил никакой нужной ему информации). ниц. Поисковые системы постоянно просма Таким образом, для пользователя важно не соответ тривают Интернет. Поэтому пользователь ствие формального запроса выдаче, а реальное соот получит подавляющее большинство докумен ветствие выдачи поисковой системы его информа тов, находящихся в настоящий момент време ционной потребности, т.е. не релевантность, а пер ни в Интернете и релевантных формализован тинентность. ному запросу;

Чем беднее язык формулирования запросов точность поиска. Одним из видов поискового и неискушённее пользователь, тем примитивнее шума, т.е. нерелевантных Интернет ресурсов, 6 БИЗНЕС ИНФОРМАТИКА №1–2008 г.

представленных в выдаче, является спам – в строгом смысле некорректно. Эта ситуация очень злонамеренные действия разработчиков веб сходна с соотношением между глубинными и по сайтов, позволяющие веб странице попадать верхностными структурами в лингвистике, которое в поисковые выдачи по запросам, не имею изучал Н. Хомский.

щим никакого отношения к тематике данной Таким образом, в результате работы информа страницы. Цель спама – те или иные виды ре ционно поисковых систем достигается полнота кламы. Сейчас поисковые системы практиче и актуальность найденной информации. Алгорит ски полностью решили проблему борьбы со мы поиска обеспечивают высокую релевантность спамом и достигают очень высокой точности и низкое количество поискового шума. Но при поиска;

этом не решается и корректно не ставится задача высокая точность ранжирования. Благодаря достижения пертинентности.

ряду разработанных поисковыми системами Другой инструмент поиска информации в Ин алгоритмов, таких как, например, определе тернете – Интернет каталоги (т.е. каталоги Интер ние системой Гугл Пэйдж ранга Интернет нет ресурсов) – разбитый по рубрикам набор ссы страницы, найденные ресурсы хорошо упоря лок на Интернет ресурсы, снабжённых краткими дочиваются поисковыми системами по степе описаниями.

ни релевантности формализованному запросу. Каталоги имеют ясный и понятный пользовате лю интерфейс. Все адреса ресурсов упорядочены по Главный недостаток информационно поиско темам и организованы в виде древовидной структу вых систем – проблематичная пертинентность. ры рубрик и подрубрик. Пользователь просматри Проблема в том, что пользователь не всегда может вает рубрикатор и выбирает интересующий его раз в достаточно полной мере выразить свою информа дел. Каждая рубрика содержит список ссылок на ционную потребность, так как обычно он формули ресурсы Интернета, отвечающих данной тематике.

рует запрос из нескольких, как правило, двух трёх Поисковые системы и каталоги могут быть спе слов. Таким способом крайне трудно (порой просто циализированными и общего назначения. В спе невозможно) сформулировать сложную информа циализированных каталогах собраны ссылки на ционную потребность. Поэтому пертинентность страницы определённой тематики.

результата работы информационно поисковой Недостатки Интернет каталогов:

системы – дело случая и везения. маленькое количество ссылок на Интер Для оценки работы существующих поисковых нет–ресурсы;

систем характеристика пертинентности неприме содержат доли процента от всех ресурсов по нима, а применима только релевантность. Это оз данной тематике, представленных в Интернете;

начает: давая системе разные запросы, мы можем отсутствие свежей информации. Каталоги оценивать релевантность – полноту выдачи, нали нужно постоянно пополнять, но обычно это чие поискового шума, правильность ранжирования не делается оперативно. Поэтому каталоги не найденных Интернет ресурсов (т.е., их место содержат ссылок на самые новые Интернет в списке выдачи) и т.д. Но формально ничего не ресурсы;

можем сказать о пертинентности, поскольку запрос негарантированная релевантность. Составите из 1–5 слов и даже расширенный запрос могут со ли каталогов, исходя из собственных вкусов, ставить пользователи с совершенно разными ин могут помещать в рубрики ресурсы, лишь от формационными потребностями. Например, когда части соответствующие указанной тематике.

пользователь вводит запрос «теория конструктив ных моделей», он хочет найти тексты статей по этой 3. ВИРТУАЛЬНЫЙ КАТАЛОГ теме, купить учебник по теории конструктивных В поисковых системах и Интернет каталогах, моделей, найти объявления о конференциях или мы видим:

форум, где можно задать вопросы и т.д. Таким обра высокую релевантность отработки запросов зом, результаты конкретной выдачи для одного поисковыми системами;

пользователя, сформулировавшего данный запрос, отсутствие возможности корректного опреде могут быть вполне пертинентными, а для другого, ления пертинентности для поисковых систем;

написавшего точно такой же запрос, пертинент высокую пертинентность каталогов (но только ность может быть нулевой. Но, поисковая система для объёма представленных в них ресурсов).

отрабатывает именно данный запрос, поэтому по Если мы хотим добиться релевантности – полно нятие пертинентности выдачи поисковой системы ты и точности найденной информации, то пользуясь БИЗНЕС ИНФОРМАТИКА №1–2008 г. поисковыми системами, не достигнем пертинентно области пользователь может искать различные типы сти, поскольку пользователь не имеет возможности Интернет ресурсов. Например, если мы рассмотрим точно и полно сформулировать свою информацион поиск научной информации, это может быть сайт ную потребность. Если мы хотим предоставить поль электронного журнала;

полный текст научной статьи;

зователю ясный и удобный интерфейс Интернет информация о конференции;

сайт научной организа каталога для точного выражения его информацион ции;

персональная страница учёного: каталог Интер ной потребности, то теряем полноту найденной нет ресурсов по определённой научной тематике;

информации. страница Интернет магазина, в котором продаются Предлагаемое нами решение этой проблемы – научные книги и т.д. Поэтому (в отличие от обычного синтез информационно поисковых систем и Ин Интернет каталога) в виртуальном каталоге пользо тернет каталогов – виртуальный каталог [9], объе вателю предоставляется возможность указать интере диняющий преимущества двух представленных вы сующую его рубрику (т.е. название раздела предмет ше методов информационного поиска: простоту ной области) и тип требуемого Интернет ресурса.

и ясность каталогов, полноту и актуальность най Следующая проблема, которую нужно решить денной информации, обеспечиваемую информа для полной формальной спецификации информа ционно поисковыми системами. ционной потребности пользователя, – определение Интерфейс виртуального каталога внешне на класса задач, которые он хочет решить при поиске поминает интерфейс обычного Интернет катало информации. При поиске научной информации га. В его основе система рубрик, соответствующая такими классами решаемых задач могут быть:

иерархии подобластей данной предметной обла поиск текста статьи по её выходным данным;

поиск сти. В качестве названий рубрик каталога берутся точных выходных данных статьи по автору или наз разделы и подразделы данной предметной области. ванию;

поиск статей, описывающих данные объек Каждой рубрике сопоставлено объяснение её смы ты, свойства или взаимодействия (например, хими сла на естественном языке. Наличие описания руб ческие реакции для синтеза данного вещества);

рик устраняет один из недостатков каталогов – поиск патентов, относящихся к данному типу отсутствие справочной информации. Пользователь устройств;

поиск информации о конференциях по выбирает определённую рубрику и получает спи данной тематике;

поиск ответа (известного специа сок Интернет ресурсов, которые ей соответствуют. листам) на определённый научный вопрос и т.д.

Однако в отличие от обычного Интернет ката Классы решаемых пользователем задач взаимо лога, виртуальный каталог не хранит ссылок на связаны с типами Иитернет ресурсов, которые он конкретные Интернет ресурсы. Вместо этого по хочет найти. Тем не менее, это две разные пробле названию рубрики определяется запрос к информа мы. Для их решения потребуются два разных вида ционно поисковой системе. Для обеспечения реле онтологий – онтология Интернета и онтология вантности информационного поиска каждой рубри пользователей информационно поисковой систе ке сопоставлен набор специальных эвристик. Эти мы. Рассмотрим решаемую пользователем задачу – эвристики – ключевые термины данного раздела найти точные выходные данные статьи. Эту задачу предметной области и другие ассоциации к назва можно решить, отыскав:

нию рубрики – определяют один или несколько по Интернет ресурс, содержащий полный текст исковых запросов таким образом, что найденная по данной статьи;

нему информация полностью соответствует темати Интернет ресурс, содержащий полный текст ке данной рубрики, следовательно, является той, статьи, со ссылкой на данную статью;

которую ожидает получить пользователь. персональную страницу автора данной статьи;

Интерфейс виртуального каталога ясный и по страницу научного отчёта организации, где нятный пользователю. Навигация по подразде работает автор данной статьи;

лам простая, не отнимает много времени, может страницу издательства журнала, где опубли осуществляться как в горизонтальном, так и в вер кована данная статья и т.д.

тикальном направлениях. Горизонтальное напра вление – переход между смежными разделами. Вер Таким образом, типы Иитернет ресурсов тикальная навигация – от раздела к подразделу, и классы решаемых пользователем задач взаимо от подраздела к разделу. связаны, тем не менее, они представляют собой Одна только спецификация предметной области разные классификации.

не позволяет точно формализовать информационную Для наиболее полной и точной формализации потребность пользователя. В данной предметной информационной потребности пользователю 8 БИЗНЕС ИНФОРМАТИКА №1–2008 г.

предоставлена возможность самому указывать до Предметная область Формальная модель полнительные слова, которые должны (или не дол жны) присутствовать в требуемых документах.

Инструментами виртуального каталога:

достигается адекватность формализации ин формационной потребности пользователя, Текст Теория предметной лежащая в основе пертинентности информа на естественном языке области ционного поиска;

обеспечивается полнота, точность и правиль ное ранжирование найденной информации за счёт использования запросов к поисковым Первый шаг построения теории предметной системам. При обработке запроса просматри области – формальное описание онтологии предмет ваются все ресурсы, имеющиеся на данный ной области, т.е. смысла всех используемых терми момент времени в сети Интернет. Это гаран нов, специфичных для данной предметной области.

тирует высокую релевантность списка най Исследованиям по онтологиям посвящены [5, 8, денных Интернет ресурсов;

9, 13–25, 28–30]. Кратко сформулируем, что специа обеспечивается высокий уровень пертинент листы подразумевают под понятием онтологии [8]:

ности информации, найденной при помощи онтология – инструмент для моделирования виртуального каталога. реальности;

онтология описывает определенную предмет Таким образом, виртуальный каталог строится ную область;

на основе трех видов онтологий: знание, представленное онтологией, должно иерархия онтологий разделов и подразделов быть интерсубъективным (это означает, что все данной предметной области;

эксперты в данной предметной области дол онтология сети Интернет;

жны признавать утверждения, представленные онтология пользователя информационно по в онтологии этой предметной области).

исковой системы. онтология должна содержать глоссарий клю чевых понятий и спецификацию их смысла.

4. ТЕОРЕТИКО МОДЕЛЬНАЯ ФОРМАЛИЗАЦИЯ ОНТОЛОГИЙ Главная цель онтологии – описывать общие Онтологии предметных областей – инструмент, свойства предметной области. Мы рассматриваем необходимый для достижения высокой пертинент онтологию с точки зрения её содержания, определя ности информационного поиска. Дадим точное ем онтологию в терминах информации о предмет определение онтологии предметной области в тер ной области. Для формального определения содер минах теории моделей и исследуем свойства соот жания онтологии предметной области применяем ветствующих математических структур. подход Р. Карнапа к описанию видов истинности Понятие онтологии предметной области возни предложений [11, 12]. Он пересмотрел понятие ана кло в инженерии знаний. Онтология нужна для опи литических суждений, введённое И. Кантом, сания основных терминов (ключевых понятий) дан и предложил три типа истинности высказываний:

ной предметной области, цель которого – в явном логическая истинность;

аналитическая истинность;

виде определить значение терминов, специфичных синтетическая истинность.

для данной предметной области;

показывает общее Утверждение является логическим (логически видение таких предметных областей. «Онтология – истинным или логически ложным) если значение это явная спецификация концептуализации» [18]. истинности этого утверждения полностью опреде Необходимость использования онтологий выте ляется его логической формой. Например, предло кает из общей постановки задачи моделирования жение () является логически истинным, дискретных систем, представленной на рисунке. а предложение (&) – логически ложным.

Моделируемая предметная область представле Предложение является аналитическим, если его на в виде набора текстов на естественном языке значение истинности зависит только от смысла поня (в большей или меньшей степени структуриро тий, содержащихся в этом утверждении. Например, ванных). Задача – построить формальную модель предложение «у холостого мужчины нет жены» ана данной предметной области. Для этого сначала литически истинное, а предложение «у треугольника нужно построить теорию предметной области. четыре угла» – аналитически ложное.

БИЗНЕС ИНФОРМАТИКА №1–2008 г. Предложение является синтетическим, если утверждения, содержащие понятия, которые сами значение истинности этого предложения зависит от не являются ключевыми понятиями данной пред реального мира. Например, утверждение «Земля – метной области.

планета Солнечной системы» синтетически истин Для формальной онтологии O = множе ное, а утверждение «Земля плоская» – синтетиче ство A не обязательно должно быть теорией, т.е.

ски ложное. множество A не обязательно дедуктивно замкнуто.

Онтология должна описывать общие свойства Наиболее простой вид онтологии, определяю предметной области, не зависящие от её конкрет щий значения терминов некоторой предметной ной реализации;

содержать только ту информацию, области, – глоссарий (или тезаурус). Представляет которая является верной для каждого примера дан интерес вопрос о возможности представления смы ной предметной области. Одно из наиболее важных сла ключевых понятий произвольной предметной свойств онтологии предметной области – гаранти области при помощи глоссария. Для ответа на этот рованная возможность её переиспользования, когда вопрос рассмотрим формальное определение глос мы имеем дело с различными экземплярами данной сария предметной области.

предметной области. Из этого следует: онтология В современном понимании глоссарий состоит должна содержать только аналитические предложе из статей, в которых даётся объяснение (определе ния [8, 28]. ние) ключевых терминов некоторой предметной Значение истинности аналитического предло области. Статья глоссария состоит из формулиро жения непосредственно вытекает из смысла поня вания определения термина и содержательной ча тий, встречающихся в этом предложении. Поэтому сти, которая более подробно раскрывающей смысл оно не зависит от того, какой экземпляр предмет этого термина. Глоссарий описывает определённую ной области мы рассматриваем. С другой стороны, область знаний, некоторую предметную область.

для любого утверждения, которое не является ана В качестве простого примера фрагмента глосса литическим, можно представить себе ситуацию, где рия можно привести следующие «определения»:

это утверждение будет ложно. Мы можем быть пол «Животное – это … » ностью уверены, что предложение является истин «Собака – это животное, которое … » ным на любом примере данной предметной обла «Болонка – это собака, которая … » и т.д.

сти, только тогда, когда предложение аналитиче Здесь мы начали с наиболее общего термина – ское (в том смысле, как понимаются термины дан «животное», затем перешли к центральному терми ной предметной области). ну – «собака», а затем стали описывать частные Таким образом, онтология предметной области случаи (породы) собаки – болонку и т.п.

должна состоять из набора ключевых понятий Дадим формальное определение глоссария предметной области и множества аналитических в теоретико модельных терминах. Для этого нам предложений, дающих полное описание значений потребуются некоторые определения и обозначе этих ключевых понятий. ния [3, 4].

Сигнатурой назовем кортеж Определение 1. Формальной онтологией предмет ной области SD называется пара O=, где – = , множество ключевых понятий предметной области, и A – множество аналитических предложений, опи где P1, …, Pn – символы предикатов;

сывающих смысл данных ключевых понятий. f1, …, fk – символы функций (операций);

В определении онтологии предметной области cm, …, cm – символы констант (т.е. выделенных множество – это сигнатура онтологии. Это озна элементов).

чает, что содержит только символы понятий.

Множество A состоит из определений символов, Через S() обозначим множество всех предло содержащихся в сигнатуре. Кроме того, выполне жений, т.е. формул без свободных переменных, сиг но (A), но не обязательно верно = (A). Это натуры.

означает, что множество аналитических предложе Для формулы через () обозначим сигнатуру ний A может содержать сигнатурные символы, ко формулы, т.е. множество всех сигнатурных сим торые не являются символами ключевых понятий волов, входящих в. Через (Г) обозначим сигна предметной области. Такое может произойти, когда туру множества формул Г.

при описании смысла сигнатурных символов (т.е., Теорией называется дедуктивно замкнутое символов ключевых понятий), мы используем множество предложений. Это означает, что если 10 БИЗНЕС ИНФОРМАТИКА №1–2008 г.

предложение (данной сигнатуры!) выводимо из Три указанных вида определений – явные опре теории, оно обязательно должно принадлежать деления предиката (n местного отношения), функ этой теории. ции и константы.

Для множества предложений Г через Th(Г) = Пример фрагмента явного глоссария – приве {S((Г)) | Г| } обозначим теорию, аксиомати дённая выше последовательность определений:

зируемую множеством предложений Г. Через «Животное – это … », «Собака – это животное, ко Th() = Th({}) обозначим теорию, аксиоматизи торое … », «Болонка – это собака, которая … ».

руемую предложением. Символом мы будем Всегда ли смысл ключевых понятий предметной обозначать строгое включение. То есть A B озна области можно задать в виде явного глоссария – по чает, что A B и A B. следовательности явных определений? Ниже дан от рицательный ответ на этот вопрос. Для этого мы об Определение 2. Пусть – сигнатура. Последова судим, всегда ли можно так организовать глоссарий тельность предложений 1, …, n S() назовем ключевых терминов предметной области, чтобы эти формальным глоссарием (определяющим понятия из ), понятия определялись по одному, т.е. одно за другим.

если: В реальных глоссариях, написанных на естествен а) (1) (1 & 2) … (1 & … & n) = ;

ном языке, понятия, как правило, определяются б) добавление каждого нового предложения k именно так – по одному. Поэтому и возникает во консервативно расширяет предыдущий набор прос – имеется ли такая возможность в общем слу предложений, т.е. чае, т.е., всегда ли возможно такое представление.

Замечание 1. Для произвольного множества Th(1 &…& k) = Th(1 &…& n)S((1 &…& k)). предложений S сигнатуры существует консерва тивная последовательность множеств предложений Консервативность расширения означает сле S1, …, Sn такая, что Th(S1 … Sn) = Th(S), дующее: при определении новых понятий мы (S1) (S1 S2) …(S1…Sn) = и для любо не должны менять смысл уже определённых го k

Мы определили смысл термина только тогда, Таким образом, используя бесконечные множе когда далее в глоссарии его смысл уже не будет пе ства предложений, мы всегда можем построить по реопределяться (в частности, не будет добавляться следовательность определений ключевых понятий новая информация, существенная для его смысла). предметной области так, чтобы понятия определя В противном случае, определением термина явля лись по одному. Однако в реальных глоссариях мы ется весь текст глоссария, т.е. это уже не глоссарий, имеем дело только с конечными множествами а одно единое определение набора понятий (терми предложений.

нов). Поэтому консервативность расширения – Вопрос. а) Если множество предложений S конеч необходимое условие в определении глоссария. но, можно ли в замечании 1 подобрать последователь ность множеств предложений S1, …, Sn так, чтобы все Определение 3. Будем говорить, что формальный теории Th(Sk) были конечно аксиоматизируемыми?

глоссарий 1, …, n представляет множество пред б) Верно ли, что для произвольного предложе ложений Г, если Th(Г) = Th(1 & … & n). ния существует формальный глоссарий 1, …, n такой, что Th() = Th(1 & … & n) и для любого Определение 4. Будем говорить, что формальный k

если существуют такие формулы 1, …, n, что для Следующая теорема даёт отрицательный ответ любого k

Теорема. Существует сигнатура = {s1, s2} k+1 = x (P(x)k+1(x)), либо и предложение, определяющее понятия из, k+1 = x((f(x) = y) k+1(x, y)), либо для которого нет формального глоссария 1, 2, k+1 = y((c = y)k+1(y)), представляющего {}, такого, чтобы (1) (2) (т.е., (1) (2)) и (1).

где P, f, c \ (1 & … & k);

Из теоремы непосредственно вытекают:

x – кортеж (n ка) переменных;

Cледствие 1. В общем случае онтология не мо (k+1) (1 & … & k). жет быть представлена в виде глоссария, определяющего понятия одно за другим.

БИЗНЕС ИНФОРМАТИКА №1–2008 г. Вернёмся теперь к вопросу – может ли произ При работе с такими системами пользователь вольная онтология быть представлена явным находит интересующую его рубрику и запускает по глоссарием? Всегда ли смысл набора понятий иск. После этого ищутся Интернет ресурсы, наибо может быть представлен явным глоссарием? лее релевантные выбранной рубрике. Пользователь Явный глоссарий даёт определения понятий од может выбирать рубрику любой степени вложенно но за другим – т.е., по одному. Поэтому мы по сти, например, «Алгебра и логика», «Логика», «Тео лучаем отрицательный ответ и на этот вопрос;

рия вычислимости» и т.д. Найденные Интернет ре Cледствие 2. В общем случае смысл ключевых сурсы будут соответствовать именно выбранной понятий предметной области не может быть рубрике, независимо от глубины её вложенности.

представлен в виде явного глоссария. Кроме указания рубрики, пользователь может указать вид требуемого Интернет ресурса. Это мо 5. ЗАКЛЮЧЕНИЕ жет быть: «Статьи», «Организации», «Сайты журна Для решения задачи точного поиска информации лов», «Электронные издания», «Форумы», «Науч нами соединены два подхода: методы поисковых ные сообщества», «Конференции», «Электронные систем для обеспечения релевантной отработки библиотеки», «Персональные страницы» и др. Та формального запроса;

интерфейс Интернет ката ким образом, достигается более точная формули логов, позволяющий обеспечить пользователю по ровка пользователем его запроса.

нятный и удобный интерфейс. Мы решаем задачу поиска информации в сети Интернет с помощью виртуального каталога. Система рубрик виртуаль ного каталога основана на иерархии онтологий предметных областей;

при помощи этой иерархии онтологий достигается релевантность найден ныхдокументов выбранной предметной области.

Пертинентность информационного поиска дости гается за счёт спецификации не только предметной области, в которой ищется информация, но и вида требуемого Интернет ресурса, а также типа поисковой задачи, которую хочет решить пользователь. Для этого используются онтология сети Интернет и онтология пользователя информационно поисковых систем.

Разработка онтологий предметных областей ведёт ся на основе теоретико модельного подхода к форма лизации онтологий. Онтология предметной области представляется в виде пары – сигнатуры предметной области, состоящей из ключевых терминов, и множе ства аналитических предложений, описывающий смысл ключевых терминов предметной области.

Предложена теоретико модельная формализа ция глоссария предметной области. Показано, что не всегда явного глоссария достаточно для специ фикации смысла ключевых терминов данной пред метной области.

Технологии, разрабатываемые в рамках дан ного подхода, применяются для создания метапо Для обеспечения релевантности поиска Интернет исковых систем для поиска в Интернете научно тех ресурсов, соответствующих выбранной рубрике нической информации по математике, химии (ката и имеющих указанный тип, используются специаль лизу) и патентоведению. Эти системы – реализация ные эвристики. Методы порождения таких эвристик идеи виртуального каталога;

их интерфейс – иерар подробно рассмотрены в нашей работе, по технологиям хия рубрик по каждой из указанных предметных практической реализации виртуальных каталогов.

областей.

12 БИЗНЕС ИНФОРМАТИКА №1–2008 г.

Литература 1. Гультяев А.К. Поиск в Интернете. 2 е издание. Питер, 2006.

2. Гусев В.С. Google – эффективный поиск. Диалектика, 2006.

3. Ершов Ю.Л., Палютин Е.А. Математическая логика. Москва, Наука, 1979.

4. Кейслер Г., Чэн Ч.Ч. Теория моделей. Москва, Мир, 1977.

5. Клещев А.С., Артемьева И.Л. Математические модели онтологий предметных областей. Части 1–3. Научно техническая информа ция, серия 2 «Информационные процессы и системы», 2001, № 2, С. 20–27, № 3, С.19–29, № 4, c. 10–15.

6. Ландэ Д.В. Поиск знаний в Internet. Издательский дом «Диалектика Вильямс».

7. Пальчунов Д.Е. Алгебраическое описание смысла высказываний естественного языка. Модели когнитивных процессов. Новос ибирск, 1997 – Вып. 158: Вычислительные системы, стр. 127–148.

8. Пальчунов Д.Е. Моделирование мышления и формализация рефлексии I: Теоретико модельная формализация онтологии и ре флексии. Философия науки, № 4(31), 2006, с.86–14.

9. Пальчунов Д.Е., Сидорова Е.С. Виртуальный каталог. Труды Всероссийской конференции «Знания–Онтологии–Теории», Новос ибирск, 2007, стр. 166–175.

10. Холмогоров В. Поиск в Интернете и сервисы Яндекс. Питер, 2006. ГОСТ 7.73 11. Carnap, R. Meaning and Necessity. A Study in Semantics and Modal Logic. Chicago, 1956.

12. Carnap, R. Philosophical Foundations of Physics. Basic Books, New York, London, 1968.

13. Daconta M.C., Obrst L.J., Smith K.T. The Semantic Web: A Guide to the Future of XML, Web Services, and Knowledge Management. Wiley Publishing, 2003.

14. Fensel D. OIL: An Ontology Infrastructure for the Semantic Web. IEEE Intelligent Systems 16, 2, 2001.

15. Fensel D. Ontologies: A Silver Bullet for Knowledge Management and Electronic Commerce. Springer Verlag, 2004.

16. Gangemi A., Pisanelli D. M., Steve G. An Overview on the ONIONS Project: Applying Ontologies to the Integration of Medical Terminolo gies. In: Data & Knowledge Engineering, Vol. 31, N 2, 1999,183–220.

17. Gomez Perez A. Ontology Engineering. Springer Verlag, 2002/2003.

18. Gruber, T. R. A Translation Approach to Portable Ontologies. Knowledge Acquisition, 5(2), 1993, 199–220.

19. Gruber, T. R./Olsen, G. R. An Ontology for Engineering Mathematics. In: Doyle, Jon/ Torasso, Piero/Sandewall, Erik (Eds.): Fourth Inter national Conference on Principles of Knowledge Representation and Reasoning, Gustav Stresemann Institut, Bonn, Germany, Morgan Kaufmann, 1994.

20. Gruber T. R. Towards Principles for the Design of Ontologies Used for Knowledge Sharing. International Journal of Human Computer Stu dies Vol.43, Issue 5–6, Nov./Dec. 1995, 907– 928.

21. Guarino N. Formal Ontology and Information Systems. In: N.Guarino (ed.) Proceedings of International Conference on Formal Ontology in Information Systems (FOIS’98), Trento, Italy. Amsterdam, IOS Press, 1998, 3–15.

22. Inaba, A./Mizoguchi, R. Learning Design Palette: An Ontology aware Authoring System for Learning Design. Proc. of International Con ference on Computers in Education, (ICCE2004), Melbourne, Australia, Nov. 30 – Dec. 3.

23. Maedche A. Ontology Learning for the Semantic Web. Kluwer Academic Publishers, 2002.

24. McGuinness D., Harmelen F. (eds.) OWL Web Ontology Language Overview. 2003.

25. Mizoguchi R. Ontological Engineering: Foundation of the next generation knowledge processing, N.Zhong et al. (Eds.) WI2001, LNAI2198, Springer Verlag, 2001, 44–57.

26. Pal’chunov, D. E. Algebraische Beschreibung der Bedeutung von ?u?erungen der nat?rlichen Sprache. In: Zelger, Josef/Maier, Martin (Hrsg.): GABEK. Verarbeitung und Darstellung von Wissen. Innsbruck–Wien: STUDIENVerlag, 1999, 310–326.

27. Pal’chunov D. E. On a logical analysis of GABEK. In: Buber, Renate/Zelger, Josef (Hrsg.): GABEK II. Zur Qualitativen Forschung On Quali tative Research. Innsbruck–Wien–Munchen: STUDIENVerlag, 2000, 185–203.

28. Pal’chunov D. E. GABEK for Ontology Generation. In: Herdina P., Oberprantacher A., Zelger, J. (eds.): Learning and Development in Or ganizations. (GABEK – Contributions to Knowledge Organization, Vol. 2), Wien: LIT, 2007, p. 87–107.

29. Staab S., Studer R. (eds.) The Handbook on Ontologies in Information Systems. Springer Verlag, 2003.

30. Wielinga B. J., Schreiber A. Th. Reusable and Sharable Knowledge Bases: A European Perspective. In: K. Fuchi, (ed.);

Proceedings KB&KS’93, International Conference on Building and Sharing of Very Large Scale Knowledge Bases’93, JIPDEC, Tokyo, 1993, 103–115.

БИЗНЕС ИНФОРМАТИКА №1–2008 г.




© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.