WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     ||
|

2. page — список названий проиндексированных документов (поле page_title в точности соответствует полю одноимённой таблицы в БД MediaWiki); число слов в документе (word_count);

3. term_page — таблица, связывающая леммы словоформ, найденных в документах с этими документами.

Постфикс «_id» в названии полей таблиц обозначает уникальный 1 Эта функциональность доступна начиная с версии Synarcher 0.12.5, см. http://synarcher.sourceforge.net 2 WikIDF — это консольное приложение на языке Java. Оно зависит от библиотек программы Synarcher и поставляется в комплекте с последней.

3 См. принципы проектирования индексов поисковых систем:

http://en.wikipedia.org/wiki/Index_(search_engine).

4 Четвёртая таблица related_page нужна для вспомогательной функции — кэширования похожих страниц, найденных с помощью AHITS алгоритма [126]. Она использовалась при экспериментальной оценке работы AHITS, поскольку слова в тестовом наборе многократно повторялись [35].

- 112 идентификатор. Ниже горизонтальной полосы в рамке каждой таблицы перечислены поля, проиндексированные для ускорения поиска. Между полями таблиц задано отношение один ко многим — между таблицами term и term_page, а также page и term_page.

Рис. 20. Таблицы и отношения в индексной базе данных WikIDFДанная схема БД позволяет получить:

– список лемм слов заданного документа;– список документов, содержащих словоформы лексемы, заданной своей леммой.Напомним читателю формулу TF-IDF (3.1), с прицелом на которую и была спроектирована вышеуказанная схема БД (рис. 20). Всего в корпусе D документов, термин (лексема) t встречается в DF документах (поле i i индексной базы данных term.doc_freq). Для заданного термина t вес i документа w(t ) определяется как [155]:

i D idf ti=log w ti=TF idf ti ; (3.1) i DFi где TF — число вхождений термина t в документ (поле i i term_page.term_freq), idf 4 служит для уменьшения веса высоко частотных слов. Можно нормализовать TF, учтя длину документа, то есть разделив на i число слов в документе (поле page.word_count). Таким образом, значения 1 Для проектирования и визуализации таблиц БД использовалась система визуального проектирования баз данных [17] DBDesigner 4, см. http://www.fabforce.net/dbdesigner4.

2 Точнее: возможно меньше число, чем все леммы. Поскольку для слов, встречающихся больше чем в N документах (здесь тысяча), N+1 связка «слово-документ» не будет записана в таблицу term_page.

3 То же ограничение, до 1000 документов здесь.

4 См. замечание об IDF на стр. 72.

- 113 полей БД позволяют вычислить обратную частоту термин t в корпусе.

i Отметим, что в результате построения индексной БД оказалось, что размер индекса составляет 26-38% от размера файла с текстами индексируемого вики-проекта.3.4 Архитектура программной системы для автоматической оценки списков семантически близких слов Разработана и далее описана архитектура программной системы для автоматической численной оценки набора списков семантически близких слов на основе тезаурусов английского языка (WordNet и Moby), доступным с помощью Dict cерверов. Эти сервера предоставляют программный интерфейс для получения данных о конкретных словарных статьях. Достоинства Dict cерверов для пользователя:

• это низкие требования к клиенту (не нужно устанавливать словарь локально, словари хранятся на сервере, клиенту нужен только выход в Интернет и программа клиент);

• это возможность регулярного обновления данных на сервере, без обременения пользователю необходимостью отслеживать выход новых версий словаря, самостоятельно его устанавливать.

Для оценки работы адаптированного HITS алгоритма используются формулы, разработанные во второй главе (см. раздел 2.5, стр. 91).

Предложена следующая программная архитектура для автоматической оценки (рис. 21).

1 Цифры 26-38% получены как отношение значения поля «Исходный дамп, размер» к «Размер сжатого файла дампа индексной БД» в табл. 4.12 на стр. 144.

- 114 Программа поиска семантически близких слов Список Запрос:

Протокол синонимов слово w rfcдля слова w Сервер WordNet Moby dict.org Рис. 21. Архитектура программной системы для автоматической оценки списков семантически близких слов На основе протокола rfc2229 система запрашивает список синонимов (из тезауруса WordNet) и список семантически близких слов (тезаурус Moby) и после этого сравнивает списки, построенные программой поиска семантически близких слов, с эталонными (на основе разработанных формул). Данная архитектура была реализована в качестве прототипа как один из модулей программной системы Synarcher. Связь этого модуля с пользователем через графический интерфейс на данный момент не реализована.

- 115 Выводы по главе В данной главе были представлены: (1) архитектура программы Synarcher, реализующей адаптированный HITS алгоритм, (2) модель интеграции системы GATE и модуля морфологического анализа Lemmatizer (на основе разработанных автором XML-RPC клиента и сервера), (3) архитектура системы построения индексной базы данных (БД) вики-текстов вместе со структурой таблиц индексной БД и (4) архитектура программной системы оценивания списков семантически близких слов с помощью удалённого доступа к тезаурусам посредством Dict сервера.

В рамкам описания архитектуры программы Synarcher представлены основные классы и методы программы, программный интерфейс доступа к Википедии и особенности реализации модуля визуализации.

В рамкам описания архитектуры программы Synarcher представлены основные классы программы и их методы, программный интерфейс доступа к Википедии и особенности реализации модуля визуализации. Программа (1) предоставляет доступ к Википедии, хранимой в базе данных MySQL, размещённой локально или удалённо, (2) позволяет задать параметры адаптированного HITS алгоритма, (3) обеспечивает хранение параметров поиска и слов, помеченных пользователем, как синонимы, на компьютере пользователя.

Модуль визуализации написан на основе кода программы визуализации вики-страниц – TouchGraph WikiBrowser. Для более удобной навигации код программы был существенно модифицирован, в контекстное меню были добавлены команды: спрятать все вершины (Hide all except node), пометить вершину как синоним (Rate synonym), показать категории (Expand Categories).

Описаны основные экраны программы, точнее вкладки1: (1) вкладка Article, позволяющая просмотреть энциклопедическую статью, соответствующую выбранному слову, (2) вкладка Database, позволяющая подключиться к базе данных и получить статистику по базе данных, 1 Вкладка – элемент графического интерфейса для переключения между приложения, в данном случае между разными группами входных параметров и результатами. См. http://ru.wikipedia.org/wiki/Вкладка.

- 116 (3) вкладке Synonyms, на которой задаются параметры адаптированного HITS алгоритма, выводятся результаты поиска в табличной и текстовой форме.

Описан экран, на котором представлен результат поиска семантически близких слов в виде графа. Описаны команды контекстного меню, позволяющие работать с графом. Указаны (с пояснениями) группы вершин, составляющих этот граф.

В этой главе описана модель, позволяющая интегрировать модуль морфологического анализа Lemmatizer1 в систему GATE. Данная модель представляет способ интеграции приложений написанных на разных языках программирования (например, С++ и Java) посредством XML-RPC протокола.

Описано назначение модулей разработанных автором: (1) GATE модуль – Russian POS Tagger, (2) XML-RPC клиент на Java – aotClient и (3) XML-RPC сервер на C++ – LemServer.

Приведён один их возможных списков модулей системы GATE, включающий модуль Russian POS Tagger. Описаны параметры модуля Russian POS Tagger для его включения в систему GATE.

В главе спроектирована архитектура системы построения индексной БД вики-текстов. Описаны таблицы и отношения в индексной БД, строимой данной системой.

В данной главе представлена архитектура программной системы оценивания синонимов, позволяющей реализовать метод численной оценки списков семантически близких слов на основе тезаурусов английского языка (WordNet и Moby). Данная система для доступа к тезаурусам использует Dict cервера. Указаны достоинства Dict cерверов для конечного пользователя 1 Lemmatizer разработан москвичами (в проекте Диалинг), см. http://www.aot.ru - 117 4. Эксперименты и практическое использование разработанных в диссертации алгоритмов В этой главе приводятся примеры результатов работы адаптированного HITS алгоритма и сравнение результатов работы с другими алгоритмами.

Выполняется оценка алгоритма с помощью коэффициента Спирмена.

Показана работа модуля Russian POS Tagger в составе системы GATE. В качестве проверки работоспособности программного комплекса индексирования вики-текстов построен ряд индексных баз данных, приводится сравнение построенных баз данных по ряду параметров.

Работоспособность и функциональность разработанных программных комплексов (Synarcher и WikIDF) обосновывается успешно работающими unit-модулями (о методике экстремального программирования, а именно автоматических тестовых модулях см. в [6], [9], [188]).

4.1 Экспериментальная оценка работы адаптированного HITS алгоритма Оценка тестируемого корпуса текстов Разработанная система тестировалась на двух корпусах: Английская и Русская Википедия. Энциклопедии хранятся в базе данных MySQL. На скорости работы реализованной системы Synarcher сказываются такие параметры энциклопедии, как: число статей, число ссылок, число категорий.

Сервер Википедия (http://en.wikipedia.org) не использовался, поскольку данная реализация поиска синонимов требует значительной вычислительной нагрузки на базу данных (БД). Поэтому обрабатывалась локально установленная БД MySQL Википедия.

Параметры компьютера на котором выполнялись эксперименты:

процессор – AMD Athlon XP 2700+, оперативная память – 1 Гб, винчестер – 80 Гб, операционная система – Debian Sarge 3.1.

Английская версия содержит 901 861 энциклопедических статей, 18.млн. внутренних перекрёстных ссылок и 1.2 млн. ссылок на категории.

- 118 Тестируемая Английская Википедия соответствует онлайн версии от 8 марта 2005 г.Указание версий дампов Русской Википедии и Simple Wikipedia, использованных для построения индексных БД, даётся в разделе, посвящённом индексированию на стр. 143.

Эксперименты с Английской Википедией Нужно отметить, что поиск синонимов и семантически близких слов не является полностью автоматическим2. Программа Synarcher формирует список слов, который является сырьём для дальнейшей работы эксперта. В построенный автоматически список могут попасть слова весьма далёкие от семантически близких слов, программу можно рассматривать в качестве некоторого фильтра.

Поиск СБС с помощью программы Synarcher выглядит следующим образом. Пользователь задаёт исходное слово, задаёт параметры адаптированного HITS алгоритма. Программа строит список слов, который может содержать семантически близкие слова, и представляет список в виде таблицы и графа пользователю. Используя команды навигации (см. раздел 3.1), пользователь исследует граф и помечает слова (на графе и в таблице), которые, по его мнению, являются семантически близкими исходному слову.

Эта информация сохраняется на компьютере пользователя. При повторном поиске эти данные будут учитываться (см описание подхода на стр. 66).

Таким способом автором, с помощью программы Synarcher, были найдены синонимы для слов Robot и Astronaut (колонка Synarcher+Эксперт в таблицах 4.1 и 4.2 соответственно). Итого было найдено 6 синонимов для слова Robot, отсутствующих в WordNet: Android, Homunculus, Domotics, 1 Отметим, что для работы адаптированного HITS алгоритма (реализованного в программе Synarcher) необходимо, чтобы таблица pagelinks БД Википедия была заполнена. Таблица pagelinks хранит информацию о том, какая страница на какую ссылается. Авторы оболочки энциклопедии MediaWiki предлагают несколько способов её заполнения. До 2006 г. эту таблицу вполне успешно заполнял инструмент mwdumper (http://download.wikimedia.org/tools/), написанный на Java. После изменения формата БД Википедии осталось два способа заполнения: с помощью php-скрипта refreshLinks.php и (более быстрый способ) с помощью программы Xml2sql (http://meta.wikimedia.org/wiki/Xml2sql).

2 Точно также как результаты поиска любой ИПС могут содержать документы не нужные пользователю, но найденные в виду особенностей исходного набора данных и алгоритма ИПС.

- 119 Replicant, Sentience, Parahumans. Здесь тезаурус Moby не рассматривается, так как он не содержит слово Robot.

Для слова Astronaut с помощью программы Synarcher было найдено синонима, из которых три отсутствуют в тезаурусах Moby и WordNet: «Space tourist», «Spationaut» и «Taikonaut» (табл. 4.2).

Таблица 4.Синонимы для слова Robot Синонимы Synarcher+Эксперт WordNet 2.Android1 + Automaton + Golem + + Homunculus + Domotics + Replicant + Sentience + Parahumans + Таблица 4.Синонимы для слова Astronaut Синонимы Synarcher+Эксперт WordNet 2.0 Moby Aeronaut + Cosmonaut + + + Pilot + Rocket man + Rocketeer + Space tourist + Spaceman + + Spationaut + Taikonaut + Результаты экспериментов показывают, что с помощью программы Synarcher можно найти синонимы и семантически близкие слова, отсутствующие в современных тезаурусах (например, найден синоним Spationaut для слова 1 Значение данного слова см. в энциклопедической статье http://en.wikipedia.org/wiki/Android. Значение прочих слов таблицы можно найти в энциклопедии аналогичным образом.

- 120 Astronaut). Тем не менее, некоторые синонимы,представленные в тезаурусах, не были найдены. Например, синоним Automaton для слова Robot не был найден, хотя такая статья1 в Википедии существует. Это можно объяснить несовершенством алгоритма и большим количеством статей (901.8 тыс.) среди которых выполнялся поиск.

Эксперименты с Русской Википедией Русская версия энциклопедии содержит 94 632 энциклопедических статей, 3.4 млн. внутренних перекрёстных ссылок, 29.9 тыс. категорий, 390.1 тыс.

ссылок на категории. Тестируемая русская Википедия в данном эксперименте соответствует онлайн версии от 18 июля 2006 г.

Для оценки работы адаптированного HITS алгоритма были выбраны четыре слова, имеющие статьи в Русской Википедии:

1. Слово жаргон, имеющее несколько синонимов2 (сленг, арго, радиожаргон, феня)3;

2. Слово самолёт, для которого существуют слова для названий предметов близких по сути (планер, турболёт).

Pages:     ||
|



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.