WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     ||
|

В системе GATE можно выделить компоненты, не зависящие от языка текста (например Doc Reset) и зависящие (например, English POS Tagger).

Система GATE позволяет обрабатывать документы на таких языках, как:

английский, французский, немецкий, арабский, китайский и др. Это определяется наличием соответствующего модуля.

В системе GATE предложен следующий способ автоматической аннотации текстовых документов.1 GATE позволяет связать подстроку текста документа (слово, фраза, предложение) с аннотацией. Аннотации описывают иерархическое разбиение текста, простой пример – это разбиение текста на слова (tokens). Более сложный пример (при полном синтаксическом анализе) – это декомпозиция предложения на именную, глагольную группы слов с выделением главного слова и т. п.

Отсутствуют (по крайней мере, неизвестны автору) доступные модули в системе GATE для морфологической обработки русского языка. Возможно, поэтому система GATE редко упоминается в системах обработки текстов на русском языке. Отрадное исключение представляют работы [64], [98], где представлены архитектура и реализация системы OntosMiner.

Для оценки качества функционирования систем Information Extraction (IE) используются такие метрики, как: точность (Precision), полнота (Recall) и качество (F-measure)2. В работе [64] предлагается новая система метрик, в 1 В проекте ALVIS предложен иной формат лингвистической аннотации (платформа Ogmios) для индексирования документов определённой тематики [109], [141]. Лингвистическая аннотация, добавляемая к текстовым единицам (словам, фразам, и т.д.) включает морфологические и синтаксическая теги, синтаксические отношения и семантические отношения (анафорические и специфичные для данной проблемной области).

2 Эти, а также ещё десяток других мер для оценки работы ранжирующих методик представлены в работе [156].

- 44 которой «аннотация представляется в формате, где явно специфицированы тип выделенного объекта (отношения) и его атрибуты, а также расположение аннотации в тексте относительно его начала (Offsets)». С одной стороны, указание типа объекта и положения подстроки в тексте (Offsets) сужает понятие объекта (именно объектами оперируют метрики точность, полнота и качество). С другой стороны, новые метрики подходят для оценки качества функционирования IE систем, построенных на основе GATE, поскольку тип объекта и положения подстроки в тексте включены в аннотации GATE.

Небольшой обзор систем, подобных GATE, а именно: KIM, TEXTRACT, Textpresso, Ogmios, представлен в работе [109].

Проект Диалинг В данном подразделе дано краткое описание модулей автоматической обработки текста и морфологических словарей, разработанных рабочей группой Aot.ru [60]. Изначальный проект, посвящённый разработке русскоанглийского машинного перевода, назывался Диалинг. Разработанный процессор Диалинг включает графематический, морфологический и синтаксическим модули. Программная реализация процессора выполнена на языке C++. «Неоспоримым достоинством процессора Диалинг является его завершённость: программная реализация доведена до уровня промышленного использования, – система характеризуется приемлемой скоростью анализа и устойчивостью на открытом пространстве реальных текстов» (цит. по [47]).

Морфологический словарь, или лексикон, содержит все словоформы одного из языков: английский, немецкий или русский. Словарь предоставляется в двух вариантах: с возможностью редактирования и в бинарном варианте. Оболочка редактирования словаря позволяет выполнять:

(i) поиск в словаре по лемме, словоформе, морфологической интерпретации, (ii) редактирование словаря. Словарь в бинарном формате предоставляет возможность выполнять: (1) морфологический анализ (получение по словоформе леммы, её свойств, уникального ID леммы, морфологических характеристик входной словоформы1 и (2) морфологический синтез 1 Каждая словоформа представляется множеством морфологических омонимов [47].

- 45 (получение по уникальному ID леммы всей парадигмы слова со всеми словоформами и их морфологическими характеристиками). Бинарное представление словаря оптимизировано для проведения морфологического анализа. Основу этого представления составляет конечный автомат. Работает морфологическое предсказание слов, отсутствующих в словаре [60].

В прикладной части данной диссертационной работы для нормализации слов используется программа морфологического анализа (Lemmatizer)1. Например, для текста «смерч обрушился на южные селенья» нормализованным вариантом будет – «смерч обрушиться на южный селение» [31].

Тезаурусы WordNet, РуТез, Викисловарь Тезаурус – это сложный компонент словарного типа, отражающий основные соотношения понятий в описываемой области знаний [41]. Тезаурусы включают всю терминологию, специфическую для предметной области (ПО), а также парадигматические отношения2 между понятиями ПО. Тезаурус может выполнять разные функции в разных системах [41]:

• является источником специальных знаний в узкой или широкой ПО, способом описания и упорядочения терминологии ПО;

• является инструментом поиска в ИПС [17];

• является инструментом ручного индексирования документов в ИПС (так называемый контролирующий словарь);

• является инструментом автоматического индексирования текстов.

Одним из наиболее успешных проектов, связанных с тезаурусами, является WordNet3 [99] – тезаурус английского языка, представляющий состав и структуру лексического языка в целом, а не отдельных тематических областей [1]. WordNet группирует наборы слов со схожим значением в 1 Программа Lemmatizer (http://www.aot.ru) распространяется на условиях LGPL лицензии.

2 «Парадигматические отношения обусловлены наличием логических связей между предметами и явлениями, обозначаемыми словами. Такие отношения носят внеязыковой характер и не зависят от ситуации, для описания которой используются слова» [66]. Примерами парадигматических отношений являются отношения синонимии, антонимии.

3 См. http://wordnet.princeton.edu - 46 синсеты1 (от англ. synonym set, synset). WordNet содержит синсеты, краткие общие определения к синсетам (глоссы), примеры употреблений и несколько типов семантических отношений между синсетами. Авторы преследовали двоякую цель: объединить возможности тезауруса и наглядность словаря, а также создать ресурс для автоматической обработки текстов на естественном языке. База данных и программа выпущены на условиях BSD лицензии.

Возможен онлайн доступ к содержимому базы данных.

WordNet был разработан в 1985 г. Работа над ним ведётся сотрудниками Лаборатории когнитологии Принстонского Университета (США) под руководством профессора психологии Дж. Миллера. К 2005 г.

WordNet содержал около 150 тыс. слов, организованных в более чем 115 тыс.

синсетов, всего 203 тыс. пар слово-значение. Словарь состоит из 4 файлов, соответствующих таким частям речи, как: существительное, глагол, прилагательное и наречие.

Семантические отношения связывают большинство синсетов.

Представлены такие семантические отношения, как: гипонимия (родовидовое), меронимия (часть-целое), лексический вывод (каузация, пресуппозиция) и др.

Гипонимия позволяет организовывать синсеты в иерархические структуры (деревья). Гипонимия связывает слова, «между содержанием понятий которых существует отношение семантического включения, то есть значение гиперонима полностью включено в значение гипонима» [1].

Например, значение слова бояться включено в значение слов опасаться, остерегаться.

Разработаны способы вычисления семантического расстояния между концептами либо словами с помощью тезауруса WordNet, например: мера Leacock-Chodorow [99],2 меры на основе частотности концептов в корпусе (мера Резника [151], [152], мера Jiang-Conrath [120], мера Lin [128]), мера 1 С точки зрения теории графов системе WordNet соответствует направленный граф, вершины которого представлены концептами (наборы синонимов, синсеты), дуги представлены семантическими отношениями.

2 См. описание меры Leacock-Chodorow и других в табл. 1.2, стр. 37.

- 47 Hirst-St.Onge, мера пересечения расширенных глосс1. В работе [87] проведены эксперименты по сравнению пяти мер, вычисляющих семантическое расстояние между терминами WordNet. Эксперименты показали, что лучшие результаты даёт мера JiangConrath. Также обзор нескольких мер и эксперименты с ними представлены в диссертации итальянского учёного Calderan M. [90].

Данные WordNet используются для решения таких задач, как определение значения слова (WSD2) [138]3, [153], [187], вычисление логичности и связности предложений в тексте [110], [175], построение баз знаний [17] и тезаурусов.

В работе [154] авторы задались целью показать, что комбинация эвристик позволяет построить полную таксономию современного словаря на любом языке. В результаты были разработаны: (1) метрика расстояния между двумя словами (в двуязычном словаре) на основе таксономии гипонимов / гипернимов WordNet, (2) эвристики (и методика их интеграции) для определения значения (WSD) родовых терминов4 двух словарей, (3) построена таксономия для испанского и французского языков на основе машинных словарей DGILE (испанский) и LPPL (французский).

Работа [121] интересна критикой WordNet. Авторы предложили итеративный способ решения задачи WSD на основе корпуса и словаря.

Слова считаются похожими, если встречаются в похожих предложениях.

Предложения похожи, если содержат похожие слова. Авторы разработали 1 С другой стороны глоссы WordNet критикуют за отсутствие единого стиля в их написании, считают также, что некоторые из них не очень информативны [158].

2 В свою очередь WSD (word sense disambiguation) методики успешно применяются в машинном переводе, основанном на статистическом подходе [88].

3 В работе [138] категориям (в классификации новостных тем) ищется соответствующий синсет WordNet.

При этом категория может состоять из нескольких слов, то есть нет точно соответствующего слова в WordNet. Проблема была решена поиском подстроки среди слов WordNet (функция «Find Keywords by Substring»). Эту идею (поиск подстроки) можно применить при интеграции данных ВП и WordNet при поиске соответствия между словом из WordNet и названием статьи ВП, состоящей из нескольких слов.

4 В работе [154] под «родовым термином» (англ. genus term) подразумевается гипероним. Отношение гипонимии важно, так как является «основой таксономии и главным механизмом наследования, помогая в установлении других семантических отношений и свойств, обеспечивая строгую структуру, не обременённую многословием» [154]. Заметим также, что «в словарном определении заголовок статьи и “родовой термин” должны принадлежать одной части речи» [154].

- 48 меры сходства сходства слов и предложений, обладающие особенностями:

ассиметричность, транзитивность, сходимость. Благодаря транзитивности данный метод позволяет оценивать сходство редких фраз, отсутствующих в корпусе. Были использованы данные словарей Webster, Oxford и WordNet. В экспериментах WordNet показал слабые результаты. Возможные причины таковы [121]:

• архитектура WordNet не предназначена для хранения данных о контекстном сходстве;

• расстояние в дереве WordNet (длина пути между концептами) не всегда соответствует интуитивным представлениям сходства слов, так как разные концепты находятся на разном уровне абстракции, имеют разное число гиперонимов.

Система WordNet используется во многих современных проектах, что, в свою очередь, приводит к появлению научно-исследовательских проектов, направленных на улучшение самой базы WordNet. В работе испанских учёных [158] предлагается использовать данные энциклопедии Википедия для расширения сети концептов WordNet. Авторы предлагают способ автоматического установления соответствия между статьями энциклопедии и концептами онтологии (здесь – семантической сети WordNet).1 Для решения задачи авторы строят упрощённую версию Английской Википедии2 таким способом, что из всех статей оригинальной Википедии были выбраны только те, заголовкам которых был найден соответствующий концепт в WordNet.Для вычисления метрики сходства между статьёй Википедии и концептом WordNet использовалась модель VSM (Vector Space Model).

Далее будут описаны отечественные лингвистические базы данных и тезаурусы: каталог семантических переходов, тезаурус РуТез, Русский Викисловарь, а также тезаурус GEMET.

«Каталог семантических переходов» – база данных регулярно воспроизводимых лексико-семантических изменений, 1 Такое автоматическое установление соответствия является подзадачей автоматического построения онтологий, как верно замечают авторы [158].

2 Не путать с Википедией на английском упрощённом языке (Simple Wikipedia).

3 Этим объясняется небольшое количество статей в упрощённой Википедии (1841 статья на 15.11.2004) - 49 засвидетельствованных в различных языках мира [21]. В этой БД выделено шесть типов семантических переходов (смысловых связей между словами), интересных с точки зрения изучения этимологии слов и создания этимологических словарей:

• полисемия;

• семантическая эволюция – изменение значения слова на разных временных срезах одного и того же языка;

• когнаты – «лексемы с двумя значениями, находящимися в отношении семантической производности, в родственных языках восходят к одной лексеме праязыка, в которой предположительно отсутствует соответствующая полисемия» [21];

• заимствование – семантическая адаптация иноязычных слов, в ходе которой может измениться значение слова;

• морфологическая деривация – образование новых значений при добавлении аффиксов (например «любить» – «любой»);

• грамматикализация – процесс превращения лексических единиц с ходом эволюции языка в грамматические показатели (например, глагол «стать» в конструкции «стану работать» означает начало действия в будущем времени).

Особенностью другой системы – тезауруса РуТез [41] является автоматическое индексирование. Термины тезауруса делятся на дескрипторы и варианты (синонимы) дескрипторов. Дескрипторы представлены отдельными существительными и именными группами. Синонимами могут быть две упомянутые грамматические группы, а также отдельные прилагательные, глаголы и глагольные группы. Применяются следующие правила включения дескрипторов в тезаурус:

1. Наличие связи с другими дескрипторами;

2. Наличие (если это словосочетание) таких тезаурусных связей, которые не вытекают из структуры словосочетания. Например, словосочетание аренда земли является свободным словосочетанием, и сумма значений его составляющих равна значению всего словосочетания, при этом, аренда земли является одним из видов - 50 землепользования, и эта неочевидная связь служит основанием для включения этого словосочетания в тезаурус.

Pages:     ||
|



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.