WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     ||
|

2 Простая Английская Википедия, см. http://simple.wikipedia.org 3 Ещё одна классификация метрик семантической близости представлена в работе [148] (стр. 5).

- 129 получить из работ: [186] метрика wup, ([99], стр. 265-283) метрика lch, [151] метрика res, [74] метрика lesk.

Табл. 4.6 содержит значения корреляции тестовой коллекцией 353-TC и результатов, полученных с помощью указанных метрик и алгоритмов.

Получены лучшие результаты при поиске с учётом:

• расстояния в таксономии – 0.48, метрика lch ([99], стр. 265-283) для Английской Википедии;

• анализ ссылок – 0.45, алгоритм WLVM [134] для Английской Википедии (при автоматическом разрешении «дизамбигов»);

• частотности слов в корпусе – 0.75, алгоритм ESA [103] для Английской Википедии;

• перекрытия текстов – 0.21, метрика lesk [74] для тезауруса WordNet.

Вне рассмотрения оставлен алгоритм Green [145] (поиск в Википедии), поскольку нет данных о его тестировании с помощью коллекции 353-TC.

- 130 Таблица 4.Классификация алгоритмов и корреляция результатов с данными респондентов (на данных тестового набора 353-TC, без пропусков) Расстояние в таксономии Анализ ссылок Частотность слов в корпусе Перекрытие текстов Набор wup lch res jarm AHITS WLVM jaccard res LSA ESA lesk text hypo данных asz WordNet 0.3 0.34 – – – – 0.34 – 0.21 – Wiki- 0.47 0.48 0.33-0.36 – 0.38-0.39 0.45-0.723 – –4 0.75 0.2 0.pedia1 0.Simple – – 0.37 – 0.31-0.33 – – – – – Wikipedia Другие – – – Тезау – Google – – – – Intelli рус 0.Zap Роже 0.0.Таким образом, оценка корреляции результатов поиска СБС с тестовым набором 353-TC показала, что алгоритм AHITS даёт несколько лучший результат (0.38-0.39), чем адаптированная метрика Резника (0.33-0.36) и хуже, чем алгоритм WLVM (0.45-0.72) на данных Английской Википедии.

В экспериментах с Википедией на английском упрощённом языке получен значительный разброс значений корреляции для AHITS: от 0.15 до 0.4.Для оценки поисковых алгоритмов на русских словах предложен общедоступный тестовый набор.1 Английская Википедия, см. http://en.wikipedia.org 2 0.33-0.36 – о получении этих данных см. [35], [36], 0.37 взято из [173].

3 Коэффициент корреляции Спирмена с эталонным набором равен 0.45 при автоматическом разрешении многозначных статей и 0.72 — при ручном. Подробнее об WLVM см. на стр. 30.

4 Сомнения по поводу того, чтобы считать эквивалентными метрики res [151] и res [173] изложены в hypo работе [35] на стр. 3.

5 0.539, см. [117], стр. 4. Значение 0.55 в работе [103] - это, вероятно, опечатка.

6 Подробное описание экспериментов см. в работе [35], (10 стр.), краткое в [36] (4 стр.).

7 См. http://ru.wikipedia.org/wiki/Участник:AKA_MBG/Wordsim - 131 Пример оценки эвристики с помощью коэффициента СпирменаОдна из эвристик поиска похожих статей энциклопедии Википедия программой Synarcher заключается в том, чтобы пропускать и не включать в корневой и в базовый набор те энциклопедические статьи, названия которых содержат пробелы, то есть названия, состоящие более чем из одного слова.

Для оценки эффекта этой эвристики на качество поиска был использован коэффициент Спирмена (табл. 4.7).

В этой таблице столбец F – это значение коэффициента Спирмена.

Данный коэффициент получается при сравнении списка построенного программой (длина этого списка указана в столбце N) и списка построенного экспертом и упорядоченного респондентами (табл. 4.3). В столбце «Набор слов» в таблице 4.7 указаны те слова, выбранные экспертом, которые вошли в список, построенный автоматически программой Synarcher. В конце каждого слова стоит число, соответствующая порядковому номеру слова в автоматически построенном списке. Чем меньше эти номера и чем больше слов в столбце «Набор слов», тем более похож автоматически построенный список на список семантически близких слов, построенный экспертом. В этом случае значение коэффициента Спирмена будет меньше.

Применение эвристики не изменило результат поиска для слова истина. 900 – это максимальное значение коэффициента Спирмена для списков из 100 и 9 слов, то есть их пересечение пусто. Это можно объяснить большим количеством статей, которые связаны со статьёй Истина: на неё ссылается 45 статей.

Преимущество и недостаток данной эвристики в сужении пространства поиска. Этим объясняется тот факт, что для слова Жаргон при включённой эвристике (1) синоним Диалект был пропущен, (2) общее число полученных семантически близких слов снизилось с 48 до 11 (табл. 4.7).

1 Эксперимент проводился на данных, соответствующих онлайн версии Русской Википедии от 18 июля 2006 г.

- 132 Таблица 4.Оценка влияние эвристики учёта статей (не содержащих в заголовке пробелов1) на результаты поиска Без эвристики С эвристикой Слово F N Набор слов F N Набор слов Жаргон 129 48 Арго8,Сленг11,Эвфемизм 27 11 Арго1,Матерщина2,Эвфемизм 19,Диалект28,Матерщина 3,Просторечие4,Сленг36,ПросторечиеИстина 900 100 Нет 900 100 Нет Самолёт 161 100 Планер5,Автожир9,Экран 48 78 Планер2,Автожир4,Турболёт6, олёт12,Турболёт13,Экран Экраноплан7,Экранолёт9,Конв оплан41,Конвертоплан96 ертопланСюжет 547 100 Трагедия50 446 95 Трагедия12,ИнтригаДанный опыт показал, что в целом применение эвристики (не учитывать статьи с пробелами) понижает значение коэффициента Спирмена (табл. 4.7), то есть строится список, более близкий к списку эксперта. Это был ожидаемый результат, поскольку список семантически близких слов, построенный экспертом (табл. 4.3), содержит однословные понятия, то есть слова без пробелов.

Применение коэффициента Спирмена для оценки параметров адаптированного HITS алгоритмаБыло проведено 66 опытов для каждого из четырёх слов: жаргон, истина, самолёт, сюжет. Менялись такие входные параметры адаптированного HITS алгоритма, как: размер корневого набора страниц (от 10 до 510 с шагом 50), инкремент (от 10 до 60 с шагом 10)3. Чёрный список категорий был тот же, что и в других экспериментах: Страны|Века| Календарь|География_России|Люди. Погрешность для останова итераций:

1 То есть заголовки статей состоят из одного слова.

2 Эксперимент проводился на данных, соответствующих онлайн версии Русской Википедии от 18 июля 2006 г.

3 Для этого была написана подпрограмма с вложенным циклом, в теле цикла которой вызывался адаптированный HITS алгоритм.

- 133 0.01. Усреднённые значения выходных параметров алгоритма приведены в таблице 4.8.

Таблица 4.Средние значения выходных параметров адаптированного HITS алгоритма Слово F Inter- N N time (мин) iter vertices edges S expert auto category section Жаргон 22.4 5.7 6 15.0 5.6 30.2 155.4 393.4 19855.Истина 900.0 0 9 100 19.9 19.2 458.8 2631.0 Самолёт 50.2 6.0 6 86.8 7.4 12.6 144.0 547.0 29252.Сюжет 426.2 1.9 6 90.1 32.3 14.2 849.0 4381.4 119069.Графа Intersection указывает среднее число общих слов двух списков:

(1) списка построенного экспертом и упорядоченного респондентами, см.

таблицу 4.3 (размер этого списка указан в графе N ) и (2) списка, expert автоматически построенного программой (размер этого списка см. в графе N ).

auto Графа S показывает число шагов по дереву категорий, для того category чтобы выяснить, какие статьи нужно удалить / добавить в зависимости от содержимого входного параметра алгоритма: чёрный список категорий. Этот параметр, также как и параметры: time (время выполнения поиска), iter (число итераций для вычислений весов hub и authority страниц), позволяет косвенно судить о временных затратах алгоритма.

Параметры vertices и edges (число вершин и рёбер в базовом наборе страниц соответственно) позволяют судить о порядке размера оперативной памяти, необходимой для вычислений.

Эксперименты показали быструю сходимость итеративных вычислений (порядка 20, 30 шагов), см. графу iter в таблице 4.8. Аналогичная скорость сходимости указана в [125] в экспериментах по поиску похожих интернет страниц.

Графа time таблицы 4.8 указывает среднее время обработки поискового запроса. Полчаса (для слова сюжет) это чрезвычайно много для того, чтобы говорить об онлайн версии системы поиска. Необходимы эвристики, позволяющие ускорить время поиска, либо позволяющие выполнять какую- 134 либо предобработку поиска. Это особенно важно, если учесть, что размер Английской Википедии на порядок больше Русской.

В таблице 4.9 указаны минимальное (F ), максимальное (F ), min max среднее значение (F ) и стандартное отклонение (F ) коэффициента avg stdev Спирмена для той же серии опытов, что и в предыдущей таблице.

Таблица 4.Значения коэффициента Спирмена в серии опытов построения списков семантически близких слов Слово F F F F min max avg stdev Жаргон 20 30 22.36 2.Самолёт 45 59 50.21 4.Сюжет 60 479 426.18 95.Из таблицы 4.9 можно сделать вывод, что для некоторых слов (жаргон, самолёт) качество результата поиска достаточно стабильно1 (значение стандартного отклонения коэффициента Спирмена 2.75 и 4.соответственно). В этом случае перед пользователем не стоит такой нетривиальной2 задачи, как выбор входных параметров адаптированного HITS алгоритма.

Для многозначного слова сюжет всё сложнее. Такое высокое значение стандартного отклонения коэффициента Спирмена (95.97) указывает, что наличие в автоматически построенном списке тех слов, которые являются семантически близкими, в большей степени зависит от входных параметров алгоритма. Возможно, это связано с большей употребимостью слова сюжет в текстах энциклопедических статей, с большим количеством ссылок на эту статью (среднее число вершин – 849.0, рёбер – 4381.4 в базовом наборе для слова сюжет, см. таблицу 4.8). Для таких слов пользователю программы, вероятно, придётся не раз менять параметры программы поиска, чтобы найти как можно больше семантически близких слов.

1 Под качеством результата поиска понимается число тех слов, которые одновременно есть (1) и в автоматически создаваемом программой списке, (2) и в списке семантически близких слов, составленном экспертом.

2 То есть неформализованной на данный момент.

- 135 4.2 Сессия нормализации слов на основе модуля Russian POS Tagger, как одного из этапов автоматической обработки текстов в системе GATE Ниже приведён пример результата работы модуля Lemmatizer (разработанного в проекте Диалинг [59]) для слова рама. Результат включает в себя (1) лемму слова, (2) часть речи (C,Г,П,...), (3) информацию о словоформе в кодах Ancode1, (4) граммему2, (5) уникальный идентификатор, (6) список словоформ:

«+ {РАМ, С, "дфст,лок,но", ("мр,рд,ед",) } Id=69343 \nAll forms: РАМ РАМА РАМУ РАМ РАМОМ РАМЕ РАМЫ РАМОВ РАМАМ РАМЫ РАМАМИ РАМАХ + {РАМА, С, "но", (\"жр,им,ед\",) } Id=98067 Accented=РА'МА\nAll forms: РАМА РАМЫ РАМЕ РАМУ РАМОЙ РАМОЮ РАМЕ РАМЫ РАМ РАМАМ РАМЫ РАМАМИ РАМАХ» Заметим, что одной словоформе может соответствовать много морфологических интерпретаций (в данном случае две интерпретации для слова рама). И результат работы для слова доброго:

«+ {ДОБРЫЙ, П, \"кач\", (\"но,од,мр,рд,ед\",\"од,мр,вн,ед\",\"но,од,ср,рд,ед\",) } Id=138557 Accented=ДО'БРОГО\n All forms: ДОБРЫЙ ДОБРОГО ДОБРОМУ ДОБРОГО ДОБРЫЙ ДОБРЫМ ДОБРОМ ДОБРАЯ ДОБРОЙ ДОБРОЙ ДОБРУЮ ДОБРОЙ ДОБРОЮ ДОБРОЙ ДОБРОЕ ДОБРОГО ДОБРОМУ ДОБРОЕ ДОБРЫМ ДОБРОМ ДОБРЫЕ ДОБРЫХ ДОБРЫМ ДОБРЫХ ДОБРЫЕ ДОБРЫМИ ДОБРЫХ ДОБР ДОБРА ДОБРО ДОБРЫ ДОБРЫ ДОБРЕЕ ПОДОБРЕЕ ДОБРЕЙ ПОДОБРЕЙ \n\n» Более подробно о работе морфологического модуля Lemmatizer см. в работах [59], [60].

Благодаря разработанному автором модулю Russian POS Tagger, эта информация теперь доступна как в системе GATE, так и в отдельном приложении на языке Java. Для подключения Russian POS Tagger необходимо установить модуль морфологического анализа Lemmatizer, систему GATE и программу Russian POS Tagger (см. инструкции на сайте http://rupostagger.sourceforge.net).

Для инициализации Russian POS Tagger и подключения к XML-RPC серверу LemServer указаны следующие параметры:

• выбран английский словарь (dictLemServer=ENGLISH);

• выбрана Unicode кодировка (encoding=UTF-8);

1 Все возможные морфологические интерпретации хранятся в таблице Ancodes в Lemmatizer. Ключом является поле Ancode («аношкинский код») [60].

2 «Граммема – это элементарный морфологический описатель, относящий словоформу к какому-то морфологическому классу» [59]. Например, словоформе рама с леммой РАМ будет приписан следующий набор граммем: «мр,рд,ед».

- 136 • XML-RPC сервер LemServer, а значит, и Lemmatizer находятся на машине student (hostLemServer=student);

• XML-RPC сервер слушает порт 8000 (portLemServer=8000).

Рис. 27. Параметры GATE модуля Russian POS Tagger Для запуска модуля в GATE нужно создать приложение (pipeline_en на рис. 27 и рис. 28) и назначить ему последовательность обработчиков (Processing Resources). Также нужно создать текстовый ресурс (Language Resource), например, текстовый файл signatures_en.txt.

На рис. 28 показано, что приложению pipeline_en присвоена последова­ тельность из четырёх обработчиков (Document Reset PR, ANNIE English Tokenizer, ANNIE Sentence Splitter, Russian POS Tagger)1 и каждому из обра­ ботчиков присвоен текстовый ресурс signatures_en.txt. На рисунке показано присвоение текстового ресурса свойству document модуля Russian POS Tagger и отмечено, что это необходимый параметр (required).

После запуска приложения pipeline_en к текстовому ресурсу будут после­ довательно применены указанные обработчики, передавая от одного друго­ му, как эстафетную палочку, те наборы аннотаций (annotation sets), которые они строят в течение своей работы. Наборы аннотаций предыдущих модулей содержат данные, необходимые для работы последующих. В результате работы приложения (включающего модуль Russian POS Tagger) среди прочих будут построены два набора аннотаций: Wordform и Paradigm. Они содержат данные, приведённые вначале этого раздела: лемму слова, часть речи и др., полученные от модуля морфологического анализа Lemmatizer. Эти данные представлены пользователю в графической среде GATE (рис. 29).

1 Более подробно эти модули GATE описаны в гл. 3 на стр. 106.

- 137 Рис. 28. Определение последовательности обработчиков в GATE Рис. 29. Результат построения аннотаций Paradigm и Wordform - 138 4.3 Индексирование вики-текста: инструментарий и эксперименты Архитектура системы индексирования и структура таблиц индексной базы данных (БД) описаны в третьей главе.

Преобразование вики-текста с помощью регулярных выражений Тексты Википедии написаны по правилам вики-разметки. Существует насущная необходимость в преобразовании вики-текста, а именно в удалении либо «раскрытии» тегов вики (то есть извлечении текстовой части). Если опустить данный шаг, то в сотню наиболее частых слов индексной БД попадают специальные теги, например «ref», «nbsp», «br» и др.1 В ходе работы возникали вопросы: «как и какие элементы разметки обрабатывать».

Pages:     ||
|



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.