WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     ||
|

3. Многозначное слово сюжет. Слово может обозначать(1) содержание, суть случая, происшествия, фильма, рассказа о чёмнибудь, тогда синонимами будут содержание, киносюжет, (2) совокупность действий, событий, в которых раскрывается основное содержание художественного произведения, тогда синонимами будут фабула, интрига.

4. Слово истина, обозначающее понятие, не имеющее однозначного определения.

Для этих слов был выполнен поиск семантически близких слов с помощью программы Synarcher. Полный список слов, выданный программой см. в приложении (табл. 1). С помощью эксперта были отобран ряд слов наиболее 1 См. http://en.wikipedia.org/wiki/Automaton 2 Словарь синонимов системы АSIS, ссылка (http://www.lingvoda.ru/dictionaries/) 3 Второе значение слова жаргон (дорогой камень красно-желтого цвета, циркон, минерал [24]) на данный момент (18 июля 2006 г.) в русской Википедии не представлено 4 Толковый словарь русского языка (1935-1940 гг.) под редакцией Д.Н.Ушакова. Компьютерное издание, ссылка (http://www.lingvoda.ru/dictionaries/) - 121 близких по значению к искомому слову (табл. 4.3). Порядок слов в графе «Семантически близкие слова» в этой таблице является существенным для вычисления коэффициента Спирмена. Данный порядок был получен после опроса 16 респондентов (носителей русского языка) и представляет собой ряд упорядоченный на основе усреднённой оценки экспертов (см. об усреднении в приложении в табл. 1).

Если не указано особо, то здесь и далее поиск выполнялся при следующих параметрах адаптированного HITS алгоритма:

• размер корневого набора:200;

• инкремент: 17;

• чёрный список категорий:Страны|Века|Календарь| География_России|Люди;

• глубина поиска категорий: 10;

• ограничение сверху длины строящегося списка слов:100;

• погрешность для останова итераций: 0.01.

Идея выбора нескольких типов слов (для оценки алгоритма) и привлечения респондентов для упорядочения списков семантически близких слов взята из работы [83].

Таблица 4.Семантически близкие слова, полученные экспертом с помощью программы Synarcher и упорядоченные респондентами Слово Семантически близкие слова Жаргон Сленг, Просторечие, Матерщина, Диалект, Арго1, Эвфемизм Истина Факт, Правда, Реальность, Действительность, Знание, Бог, Вера, Авторитет, Догмат Самолёт2 Планер, Турболёт, Автожир, Экранолёт, Экраноплан, Авиация, Транспорт, Штурмовик, Махолёт, Мускулолёт, Дельтаплан, Вертолёт, Винтокрыл, 1 Определение данного слова даётся в энциклопедической статье http://ru.wikipedia.org/wiki/Арго.

Определения прочих слов данной таблицы см. аналогичным образом.

2 Викисловарь содержал (на 19.07.2007) такие семантически близкие слова для слова самолёт (включая синонимы, гипонимы, гиперонимы, меронимы, холонимы): аэроплан, авиация, транспорт, штурмовик, экранолёт, экраноплан, моноплан, биплан, планер, махолёт, мускулолёт, дельтаплан, параплан, турболёт, вертолёт, автожир, винтокрыл, эскадрилья, авиапушка, фюзеляж, крыло, двигатель, винт.

Примеры СБС для словосочетания «Беспилотный летательный аппарат» представлены в табл. 4.1.

- 122 Авиапушка, Фюзеляж, Двигатель, Винт Сюжет Интрига, Переживание, Конфликт, Трагедия, Коллизия, Противоречие Экспериментальное сравнение адаптированного с исходным HITS алгоритмомДля десяти слов и словосочетаний, для которых есть энциклопедические статьи в Русской Википедии (Автопилот, Аэродром, Беспилотный летательный аппарат, Движитель, Интернационализация, Истина, Пропеллер, Самолёт, Сюжет, Турбина)2, проведена серия экспериментов (рис. 22-25) для оценки времени работы и точности поиска адаптированного HITS алгоритма (AHITS) в зависимости от числа категорий (ось абсцисс).

Точность (англ. precision) – это отношение числа семантически близких слов, найденных программой, к общему числу найденных программой слов.

Семантически близкие слова выбираются экспертом из общего числа слов, найденных программой. Примеры СБС для словосочетания «Беспилотный летательный аппарат» представлены в табл. 4.1.

Таблица 4.Список семантически близких слов для словосочетания Беспилотный летательный аппарат Синонимы БПЛА, БЛА Гиперонимы летательный аппарат Гипонимы спутник, зонд, ракета, автоматическая межпланетная станция Меронимы автопилот Чёрный список категорий (blacklist) составляется экспертом и сужает пространство поиска. Например, включение категории «ХХ век» в blacklist 1 Эксперимент проводился на данных, соответствующих онлайн версии Русской Википедии от сентября 2007 г. Данная версия энциклопедии содержит около двухсот тыс. энциклопедических статей, 10.4 млн. внутренних перекрёстных ссылок, 49.8 тыс. категорий, 1.1 млн. ссылок на категории.

2 Для слова Жаргон эксперимент не проводился, так как набор слов, найденный программой, слишком мал (11 слов) для того, чтобы применять какую-либо дополнительную фильтрацию. Для слова Автопилот точность поиска была низкой (2%) и не менялась при изменении числа фильтруемых категорий.

Возможно, это объясняется недостаточным (по сравнению, например, со статьёй Самолёт) числом ссылок, связывающих статью Автопилот с другими. Результаты поиска СБС для слова Автопилот учитывались для оценки времени поиска и не учитывались для оценки суммарной точности поиска.

- 123 позволяет отсечь множество документов с заголовками: 1900, 1901, 1902 и т. д. В эксперименте для фильтрации выбираются категории с максимальным числом слов, не являющихся семантически близкими заданному слову1. На рис. 22 представлены не сами категории, а только их число (здесь от 0 до 15).

Число 0 означает, что нет фильтрации категорий.

4,6 4,t,сек 4,P,% 3,3,2,1,9 14 1,0,-0,-1,1 7,0 5 9 Категорий Рис. 22. Изменение времени работы (t) и точности поиска (P) (пунктирная линия) AHITS алгоритма в зависимости от числа фильтруемых категорий для слова Истина Опишем детально эксперимент и дадим его интерпретацию для слова Самолёт (рис. 23). Время работы на рисунках указано с помощью высоты прямоугольника, точность поиска представлена с помощью тонкой пунктирной линии.

1. Категории. Проведено шесть опытов с разным числом категорий: 0, 1, 3, 6, 10, 17. Были выбраны категории с максимальным числом слов, не являющихся релевантными. Такие категории позволяют отсечь большое число статей, заведомо не относящихся к делу. Первая фильтруемая категория (для слова Самолёт) называется Википедия:Избранные_статьи на неё ссылается 14 найденных слов. Три категории включают в себя вышеуказанную, а также: Незавершённые_статьи_по_географии| Незавершённые_статьи. Шесть категорий включают (помимо трёх, ещё три) Химические_элементы|Государство|Википедия:Статьи_к_викификации.

10 категорий включают ещё четыре категории Механика| Столицы_Летних_олимпиад|Мегаполисы|История_Европы. 17 категорий включают ещё семь Тюркские_народы|Город|Локомотивы|Города1 Выбирается категория, которой принадлежит больше всего найденных слов. Это возможно узнать с помощью вкладки «Категории С», см. рис. 17 на стр. 106.

- 124 государства|Народы_России|Википедия:Хорошие_статьи_о_технике| Дворянство.

t,сек P,% 10,15,8,13,7,12,5,5,11 3,3,4 4,0 3,2,9 2,2,1,-0,5 0 1 3 6 10 Категорий Рис. 23. Изменение времени работы (t) и точности поиска (P) AHITS алгоритма в зависимости от числа фильтруемых категорий для слова Самолёт Русской Википедии соответствует орграф, содержащий 171 тыс. вершин, 3.млн дуг (на 11.05.07). При поиске в графе AHITS алгоритм строит базовый набор с числом вершин 200-800, числом дуг 800-12 000 (для слова Самолёт).

Указан диапазон вершин и дуг, поскольку изменение фильтруемых категорий меняет число вершин, включаемых в базовый набор. Таким образом, рис. обобщает результаты шести опытов с разными размерами базовых наборов, построенных для слова Самолёт.

2. Время работы. При нуле категорий получено почти минимальное время работы алгоритма (2.9 с). Этого следовало ожидать, так как фильтрация категорий требует дополнительных вычислений, то есть времени.

В опытах при увеличении числа категорий (при числе категорий больше нуля) время поиска уменьшается. В данном опыте время снизилось с 5.2 с (максимальное значение при одной категории) до 2.8 с (при 17 категориях). Это объясняется тем, что при увеличении числа фильтруемых категорий пространство поиска сужается. Тогда максимальное время работы алгоритма будет при минимальном числе категорий, то есть при фильтрации по одной категории1, см. рис. 22-25.

1 Время поиска зависит и от того, какая именно категория выбрана.

- 125 3. Точность поиска. На рис. 23 видно, что использование категорий увеличивает точность поиска. Максимальная точность 15.2% получена при 17 категориях, минимальная точность 6% – при одной категориях. В среднем (по пяти опытам с числом категорий: 1, 3, 6, 10, 17) это превышает точность 11%, полученную в случае, когда категории не учитываются на 6.5%.

t, сек P, % 9,10,8,7,8,7,0 6,6,7,4,5,8,4,6 6 6 6 2,1,-0,0 1 2 5 8 13 Категор.

Рис. 24. Изменение времени работы (t) и точности поиска (P) AHITS алгоритма в зависимости от числа фильтруемых категорий для слова Сюжет Основная разница HITS и AHITS алгоритмов – не учёт и учёт категорий соответственно. При числе категорий ноль (первый вертикальный ряд на рис. 22-25) можно считать, что работа AHITS алгоритма (по скорости и точности поиска) соответствует работе HITS алгоритма. Это позволяет сравнить HITS и AHITS алгоритмы в следующей таблице 4.5.

t, сек P, % 5,25,0 25,25,20,4,20,15,2,11,10,1,7,3 7,4 1,0,1,09 0,0,0,5,-0,41 0,0 1 2 3 4 Категорий Рис. 25. Изменение времени работы (t) и точности поиска (P) AHITS алгоритма в зависимости от числа фильтруемых категорий для слова Интернационализация В столбце HITS (табл. 4.5) указано время работы алгоритма AHITS без учёта категорий. В столбце AHITS дано среднее время работы алгоритма при числе - 126 категорий больше нуля. Значения столбца «Замедление работы, %» вычислялось по формуле (AHITS – HITS)/AHITS·100%. Таким образом, усреднение по девяти словам показало, что адаптированный HITS алгоритм работает на 52% медленнее HITS алгоритма.

Таблица 4.Сравнение времени работы HITS алгоритма и адаптированного HITS алгоритмов Слово HITS, AHITS, Замедление c c работы, % Аэродром 1,19 2,29 48,Беспилотный летательный аппарат 0,54 1,1 50,Движитель 2,17 5,39 59,Интернационализация 0,39 0,84 53,Истина 1,11 4,3 74,Пропеллер 0,94 2,85 67,Самолёт 2,87 3,64 21,Сюжет 4,85 7,67 36,Турбина 1,63 3,9 58,Среднее: 1,74 3,55 52,При каждом числе категорий получено своё значение точности (в AHITS алгоритме), поэтому можно указать минимальное (Min), среднее (Avg) и максимальное (Max) значение точности (P ) для каждого слова.

AHITS Изменение точности вычисляется по формуле (P P ) / P, 100%, AHITS — HITS HITS при этом было вычислено изменение точности в худшем (при минимальном значении точности алгоритма AHITS), среднем и лучшем случаях. Таким образом, точность поиска адаптированного HITS алгоритма выше точности поиска HITS алгоритма в худшем на -6.3%, среднем – на 33.3% и в лучшем – на 77.8%. Изменение точности поиска в зависимости от числа фильтруемых категорий представлено на рис. 26.

- 127 P, % Самолёт 30 Истина Сюжет Интернационализация Аэродром Движитель Пропеллер Автопилот Беспилотный летательный аппарат Турбина 0 2 4 6 8 10 12 14 16 18 Число фильтруемых категорий Рис. 26. Изменение точности поиска (P) AHITS алгоритма в зависимости от числа фильтруемых категорий Сравнение результатов работы AHITS алгоритма с другими на основе 353 пар английских словДля оценки метрик и алгоритмов, вычисляющих близость значений слов, был использован тестовый набор (англ. Test Collection) из 353 пар английских слов, предложенный в работе [100] (далее 353-TC).Респонденты (13 человек обработали 153 слова, 16 человек – 200 слов) присвоили значения от 0 до 10 семантической близости парам слов, где указывает на то, что слова совершенно не связаны, 10 – слова почти полные синонимы. Критика данного тестового набора, приведённая в работе [117], заключается в том, что:

– не приведена методология составления списка;

– респондентам сложнее давать оценку от 0 до 10, чем на более привычной шкале от 0 до 4.

Достоинство данного тестового набора в том, что он – превосходит другие тестовые наборы по размеру3;

1 Эксперимент (по оценке работы AHITS алгоритма и адаптированной метрики Резника (res ) hypo проводился на данных, соответствующих онлайн версии English Wikipedia от 27 мая 2007 и 2 мая 2006г., а также Simple Wikipedia от 11 августа 2007 и 9 сенября 2007, подробности см. в [35].

2 Данные доступны: http://www.cs.technion.ac.il/~gabr/resources/data/wordsim353/wordsim353.html - 128 – позволяет оценивать семантическую близость (включающую, например, отношение антонимии), а не семантическое сходство (только синонимия)1.

Подробное описание экспериментов по оценке результатов поиска СБС в Английской и Simple2 ВП приведено в работе [35], [36]. Основные резуль­ таты данной подглавы связаны с классификацией методов поиска СБС и оценкой методов.

Классификация метрик и алгоритмов поиска СБС, предложенная в [173], расширена (1) адаптированным HITS алгоритмом, основанном на анализе веб-ссылок, (2) алгоритмом WLVM [134] и (3) явным указанием отдельной группы методов, полагающихся на частотность слов в корпусе.Таким образом, предложена следующая классификация (табл. 4.6) метрик и алгоритмов поиска СБС, основанных на учёте (i) расстояния в таксономии, (ii) анализа веб-ссылок, (iii) частотности слов в корпусе, (iv) совпадения (перекрытия) текстов. Следует уточнить, что метрика Резника res учитывает одновременно и частотность слов и свойства (не расстояние) концептов в таксономии.

Проведены эксперименты по вычислению корреляции результатов работы алгоритма AHITS и метрики Резника, адаптированной в работе [173] к Википедии, res с оценкой семантической близости пар английских слов, hypo выполненной респондентами. Результаты указаны в столбцах AHITS и res hypo в табл. 4.6, то есть курсивом выделены значения, рассчитанные самостоятельно. Данные для других метрик и алгоритмов в основном взяты из работы [173], в ней также описаны метрики jaccard, text, res.

hypo Использованы экспериментальные данные таких работ, как [117] (jarmasz), [100] (поисковик IntelliZap и алгоритм LSA), [103] (алгоритм ESA), [134] (алгоритмом WLVM). Представление об остальных метриках можно 3 Тесты на синонимию: 80 вопросов теста TOEFL, 50 вопросов ESL [177] и 300 вопросов Reader's Digest Word Power Game [117].

1 Разница понятий semantic similarity и semantic relatedness описана на стр. 185. AHITS алгоритм позволяет находить семантически близкие слова (semantic relatedness).

Pages:     ||
|



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.