WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 25 | 26 || 28 | 29 |   ...   | 82 |

Введение За последние годы Интернет превратился в одно из основных средств публикации информации. Это динамично изменяющаяся распределенная среда, а информационные ресурсы (ИР), представленные в ней, крайне разнородны. Эффективный поиск ИР в Интернет по мере увеличения объема и сложности сети становится все более сложным и трудоемким. При этом критичным является не столько время поиска, сколько отбор ИР, удовлетворяющих реальным информационным потребностям пользователей.

Оценка качества работы информационно-поисковых систем (ИПС) является достаточно сложным вопросом [1]. Проблема заключается в том, по каким параметрам оценивать ИПС. Большинство существующих методик анализируют такие параметры работы ИПС, как релевантность, полнота, точность и различные их соотношения. Релевантность – тематическое соответствие полученной в результате поиска информации запросу. Полнота поиска – это отношение количества правильно найденных документов к общему количеству релевантных запросу документов, известных ИПС. Точность поиска – отношение количества правильно найденных документов к общему количеству документов, выданных ИПС в ответ на запрос.

Ontologies Однако следует учитывать, что формальный запрос к ИПС является попыткой пользователя формализовать свою информационную потребность и, к сожалению, не всегда точно отражает последнюю, что и приводит к снижению эффективности использования Интернета.для пользователя Поэтому важнее такой параметр оценки качества функционирования ИПС, как пертинентность – соотношение объема полезной для него информации к общему объему полученной информации. Для этого ИПС надо иметь сведения об области интересов пользователя, чтобы выбирать среди доступных ресурсов те, которые интересны ему, а не только формально соответствуют запросу. Такие сведения должны быть представлены в форме, пригодной для автоматической обработки и повторного использования, а их формирование необходимо автоматизировать.

Информационные ресурсы Интернет Среди информационных ресурсов (ИР), потенциально доступных пользователям Интернет, по-прежнему преобладает текстовая информация, в основном, в формате HTML и XML, однако ее доля информации постоянно уменьшается за счет увеличения доли мультимедийных ИР. Составить представление о предметной области (ПрО), которую характеризуют эти ИР, можно двумя способами: анализируя непосредственно полнотекстовую информацию и рассматривая метаописания этих ИР.

Метаданные – информация о документе, которая понятна компьютеру. На сегодняшний день наиболее перспективной и общеупотребительной моделью описания метаданных является система описания ресурсов RDF (Resource Description Framework), созданная на основе XML. С помощью RDF можно описывать как структуру сайта, так и связанную с ним ПрО. RDF описывает ресурсы в виде ориентированного размеченного графа – каждый ресурс может иметь свойства, которые в свою очередь также могут быть ресурсами или их коллекциями. Наиболее распространённым наборов элементов для создания метаданных является Dublin Core Metadata Elements. Метаданные могут быть встроены в сам ИР либо хранится и обновляться независимо от ресурсов.

Мультимедийные данные. В последнее время в ИР, представленные в Интернет, наряду с текстовой информацией в них включается графика, видео, звук. На сегодняшний день существует значительное количество широко распространенных форматов для хранения аудио- и видеоинформации, 3D-сценариев и изображений. Мультимедийные ресурсы значительно хуже, чем текстовая информация, поддаются индексации. Если информация о мультимедийных ресурсах не представлена их поставщиками явным образом в каком-либо формате, известном средствам индексирования, то возникает необходимость в применении сложных и трудоемких операций (по распознаванию образов, речи и т.д.). В настоящее время группой MPEG разработан ряд стандартов для представление метаописаний мультимедийной информации (например, MPEG7 "Multimedia Content Description Interface" и MPEG21. Несмотря на значительные отличия мультимедийных ИР от текстовых, наиболее приемлемым для осуществления информационного поиска (с учетом времени его выполнения и объемов хранимой в индексной БД информации) представляется их описание с помощью тех же средств, что и текстовой информации:

ключевые слова, размер и дата создания файла и т.д.

Web-сервисы. Изначально технология World Wide Web была ориентирована на работу со статичными гипертекстовыми документами, представленными в Интернет. Но затем в сети стали появляться сайты, предлагающие клиентам не только документы, но и услуги (например, сайты электронной коммерции).

Многие такие сайты используют серверы приложений, которые не просто возвращают документ, а могут обрабатывать данные, введенные пользователем (запросы, заполненные формы и т.д.) и динамически генерировать документы в зависимости от указанных пользователем параметров. Такая динамическая составляющая Интернет растет значительно быстрее статичной и требует применения более сложных информационных технологий. В связи с этим можно рассматривать отдельный класс ИР – Web-сервисы.

Web-сервис – набор логически связанных функций, которые могут быть программно вызваны через Интернет. Это программа, идентифицируемая по URІ, интерфейс которой может быть определен в виде XML-конструкций. Web-сервисы базируются на трех основных Web-стандартах: SOAP (Simple Object Access Protocol) — протоколе для посылки сообщений по протоколу HTTP и другим Интернет-протоколам;

WSDL (Web Services Description Language) – языке для описания программных интерфейсов Webсервисов; UDDI (Universal Description, Discovery and Integration) – стандарте индексации Web-сервисов.

XII-th International Conference "Knowledge - Dialogue - Solution" Постановка задачи Чтобы эффективно осуществлять поиск информации, необходимой пользователю (текстовых и мультимедийных документов, информационных услуг и т.д.), необходимо сформировать модель ПрО, интересующей пользователя (например, в виде онтологии), и использовать ее при выполнении ИПС запросов этого пользователя.

Тезаурусы и онтологии – средства представления знаний предметных областей В каждой ПрО имеются явления, которые люди выделяют как концептуальные или физические объекты, связи и ситуации. С помощью различных языковых механизмов такие явления связываются с определенными дескрипторами (например, названиями, именными группами и т.д.).

Для успешного решения задачи поиска информации необходимо представить знания пользователя о той ПрО, которая его интересует, в некоторой форме, пригодной для автоматической обработки. Понятие ПрО относительно: спецификации ПрО более высокого уровня образуются путем интеграции схем ПрО более низких уровней. Важно достигнуть интероперабельности знаний ПрО. Онтологии являются именно такой формой представления знаний. Онтология – соглашение об общем использовании понятий, которое содержит средства представления предметных знаний и договоренности о методах соображений. Она может рассматриваться как определенное описание взгляда на мир в конкретной сфере интересов, который состоит из набора терминов и правил использования этих терминов, которые ограничивают их значение в рамках конкретной ПрО [2].

Онтология – БЗ специального вида с семантической информацией о некоторой ПрО. Это набор определений (на формальном языке) фрагмента декларативных знаний, ориентированный на совместное многократное использование различными пользователями в своих приложениях. В онтологии вводятся термины, типы и соотношения (аксиомы), описывающие фрагмент знания.

Онтологические обязательства - это соглашения относительно того, как согласованно и последовательно использовать общий словарь. Агенты (люди либо, например, программные агенты), совместно использующие словарь, не испытывают потребность в общей базе знаний: один агент может знать то, чего не знает другой агент, и агент, который обращается к онтологии, не требуется ответы на все вопросы, которые могут быть сформулированы с помощью общего словаря.

Любая ПрО с определенным предметом исследования имеет собственную терминологию, своеобразный словарь, использующийся для обсуждения характерных объектов и процессов, которые включают область. Библиотека, например, вовлекает собственный словарь, имеющий отношение к книгам, ссылкам, библиографиям, журналам и т.д. Таким образом, характер ПрО раскрывается в ее словаре – множестве слов, которые в ней используются. Ясно, однако, что характер области показан не только в соответствующем словаре. Кроме этого, необходимо (i) обеспечивать строгие определения грамматики, управляющей тем, как могут быть объединены термины словаря для формирования утверждений, и (ii) прояснить логические связи между такими утверждениями. Только когда эта дополнительная информация доступна, можно понять как природу объектов ПрО, так и важные отношения, установленные между ними.

Онтология - структурированное представление этой информации [3].

Формальная модель онтологии О представляет собой упорядоченную тройку O=, где Х - конечное множество концептов (понятий, терминов) предметной области, которую представляет онтология O; R - конечное множество отношений между концептами заданной предметной области; F - конечное множество функций интерпретации, заданных на концептах и отношениях онтологии O.

До недавнего времени термин "тезаурус" использовался как синоним онтологии, однако теперь в ИТ с помощью тезауруса чаще описывают лексику ПрО в проекции на ее семантику, а онтологию применяют для моделирования семантики и прагматики в проекции на язык представления [4]. Модели как онтологий, так и тезаурусов включают в качестве основных понятия терминов и связей между терминами.

Слово "тезаурус" впервые использовал еще в XIII-м веке Б.Датини как название энциклопедии. В переводе с греческого "thesaurus" – сокровище, богатство. Согласно "Современному словарю иностранных слов": "тезаурус – … полный систематизированный набор данных о какой-либо области знаний, позволяющий человеку или вычислительной машине в ней ориентироваться".

Ontologies Тезаурус – это словарь, в котором представлены дескрипторы определенной области знаний с систематизацией их иерархических и коррелятивных отношений; дескрипторы подаются в алфавитном порядке, но сгруппированные они по семантическому принципу; поиск осуществляется от понятия к слову.

Тезаурус можно рассматривать как частный случай онтологии. Тезаурус – это пара Th=, где Т - множество терминов, а R – множество отношений между этими терминами. Множества Т и R конечны.

Совокупность терминов, описывающих ПрО, с указанием семантических отношений между ними, является тезаурусом ПрО.

Мультиязычный тезаурус представляет собой согласованную совокупность одноязычных тезаурусов, содержащая эквивалентные дескрипторы на языках-компонентах, необходимые и достаточные для межъязыкового обмена, и включающая средства для указания их эквивалентности. При установлении эквивалентности дескрипторов различных одноязычных версий необходимо различать на разных языкахкомпонентах следующие степени эквивалентности терминов: 1) полная; 2) неполная; 3) частичная; 4) отсутствие эквивалентного термина. Неполными эквивалентами являются термины, для которых объемы выражаемых ими понятий пересекаются. Частичными эквивалентами являются термины, для которых объем понятия, выражаемого одним эквивалентом, входит в объем понятия, выражаемого другим эквивалентом. Одним из средств установления эквивалентности различной степени является использование онтологии соответствующей ПрО: каждое слово, входящее в один из одноязычных тезаурусов,должно ссылаться на один из терминов онтологии, что и помогает установить связи между словами различных тезаурусов. Так, слова "книга" (рус.), "book" (англ.) и "buch" (нем.) ссылаются на термин онтологии "книга", поэтому они эквивалентны. Слово "book" (англ.) ссылается на термин онтологии "книга", а слово "manual" (анл.) – на термин онтологии "учебник", являющийся подклассом "книга", поэтому между словами "book" и "manual" устанавливается отношение неполной эквивалентности.

Использование тезаурусов для поиска ИР Для того, чтобы при поиске ИР, удовлетворяющим информационным потребностям пользователя, учитывать семантику интересующей его области, необходимо (рис.1):

Пользователь Тезаурус ИР Тезаурус ИР ИР ИР ИР ИР ИР ИР ИР ИР Тезаурус ИР Тезаурус ИР ИР ИР ПрО пользователя Интернет Тезаурус ПрО Тезаурус ПрО Тезаурус ИР Тезаурус ИР ИР ИР Онтология Онтология ПрО ПрО Рис.1. Процедура информационного поиска на основе нормализованных тезаурусов 1. сформировать тезаурус ПрО, соответствующей информационным потребностям пользователя (на основе анализа ИР, которое пользователь считает релевантными этой ПрО) [5];

2. для каждого ИР, известного ИПС, построить тезаурус (в данном случае – простой словарь, не содержащий стоп-слов);

XII-th International Conference "Knowledge - Dialogue - Solution" 3. провести сравнение тезауруса ПрО с тезаурусами ИР, релевантных запросу пользователя к ИПС (например, по ключевым словам) и найти те из них, в которых встречается наибольшее количество соответствий значимых слов.

При построении тезаурусов необходимо использовать онтологии соответствующих областей (более высокого уровня по сравнению с ПрО пользователя, чтобы нормализовать мультиязычные тезаурусы).

Так как все эти тезаурусы строятся с точки зрения пользователя (которая отражена в онтологии интересующей его ПрО), то их построение является его задачей.

Построение тезауруса ПрО Вначале пользователь должен самостоятельно отобрать множество ИР, которые он считает релевантными ПрО, которая его интересует. Каждый ИР характеризуется непустым множеством связанных с ним текстовых документов – метаописаний, результатов индексирования, своим контентом и т.д. Тезаурус ПрО формируется в результате автоматизированного анализа этих документов (действия пользователя сводятся к тому, чтобы построить семантические пучки – указать, на какой термин онтологии ПрО ссылается каждое из слов формируемого тезауруса). Алгоритм построения тезауруса ПрО состоит из следующих шагов:

1. Формирование исходного множества текстовых документов, характеризующих ПрО. На вход алгоритма поступает множество текстовых документов А, характеризующих выбранные ИР (каждый из них может иметь свой коэффициент значимости и коэффициент релевантности ИР, что позволяет поразному определять вес слов из этих документов для характеристики ИР).

2. Создание информационного пространства ПрО. Для каждого документа из А ai A,i = 1, n строится тезаурус T(ai ) – словарь, в котором содержатся все слова, встречающиеся в документе ai. Тезаурус n ИР строится как объединение тезаурусов ai :TИР = ), а тезаурус ПрО – как объединение T(ai i=тезаурусов ИР.

Pages:     | 1 |   ...   | 25 | 26 || 28 | 29 |   ...   | 82 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.