WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 || 3 |

Практическая значимость работы Средствами реализованной инструментальной среды были промоделированы и отлажены частично или полностью следующие блоки алгоритмов Т.Ю.Кобзаревой [1518]: анализ случаев частеречной омонимии [20], наиболее часто встречающихся или синтаксически наиболее значимых, сегментация (разделение предложения на части, соответствующие отдельным исходным экстралингвистическим ситуациям: простые главные и придаточные предложения и всякого рода обособленные обороты), внутрисегментный анализ (установление синтаксических подчинительных связей внутри каждой части предложения), более подробно описанные в разделе «Алгоритмы поверхностно-синтаксического анализа Т.Ю. Кобзаревой» диссертационной работы.

Часть алгоритмов была реализована в сжатые сроки в рамках дипломных работ при консультировании или под руководством [24, 33] автора данной работы. В ходе моделирования и отладки были выявлены некоторые неточности, исправленные автором алгоритмов.

Апробация и внедрение Ход и результаты работы были представлены на следующих международных конференциях (библиографические ссылки см. в разделе «Результаты изложены в следующих публикациях»):

• конференция по компьютерной лингвистике «Диалог» – доклады с демонстрацией в 2004, 2005, 2006, 2007 гг, • конференция по искусственному интеллекту «КИИ» – доклады в 2004, 2006 гг, • конференция по интеллектуальной обработке данных «НТИ» – доклад в 2007 г, • конференция по прикладной лингвистике MegaLing – доклад в 2007 г.

Разработанные положения отражены в трудах данных конференций, а также в статье с участием автора в журнале «Программные продукты и системы».

Задача имплементации синтаксического анализа определений терминов реализуется автором средствами описываемой в данной работе инструментальной среды в рамках гранта РФФИ № 06-06-80434.

Структура работы Диссертацию открывает Введение, за ним следует глава 1 – обзор затрагиваемой в работе предметной области. В главе 2 описываются алгоритмы Т.Ю.Кобзаревой, ставшие лингвистической базой для реализации инструментальной среды для экспериментов с алгоритмами ПСА.

В главе 3 описывается проект по объектному моделированию в лингвистике и место в нем описываемой инструментальной среды. В рамках общего проекта разрабатывается модель лексики языка, основанная на синтезе лингвистических единиц, [11, 12] и ведется преобразование этой модели в модель для морфологического анализа [2].

Модель лексики языка, основанная на синтезе лингвистических единиц, в целом охарактеризована в [11, 12]. В данных работах задачей было выработать универсальные форматы хранения информации, за счет которых можно было бы уменьшить ограничение применимости словарей. Подход основан на идее представления языковых единиц, информации о них и отношений между ними в виде объектов, объединенных в многоссылочную структуру.

Модель для морфологического анализа представляет собой еще один подход к созданию морфологического анализатора. Базой его реализации является объектная модель, основанная на синтезе лингвистических единиц. Поскольку исходными данными инструментальной среды для экспериментов с системой алгоритмов поверхностно-синтаксического анализа являются предложения текста, лексические единицы которых представлены объектами модели лексики языка, основанной на синтезе лингвистических единиц, становится «актуальной задача проведения морфологического анализа в данной инструментальной среде таким образом, чтобы совокупность его результатов для слов предложения непосредственно формировала бы исходную структуру данных для поверхностно-синтаксического анализа этого предложения». [2] В главе 4 приводится описание объектной модели инструментальной среды.

Данная модель представляет собой расширение объектной модели многофункциональных словарей, основанной на синтезе лингвистических единиц [11, 12]. Для моделирования лингвистических алгоритмов к данной модели добавляются следующие объекты:

• алгоритм – объект верхнего уровня, содержащий информацию о характеристиках моделируемого алгоритма; «основным» данным этого объекта является иерархическая (т.е. без циклов) сеть его узлов, по которой осуществляется проход алгоритма на конкретном примере;

• узел алгоритма – объект, представляющий узел лингвистического алгоритма и содержащий ссылку на объект-правило и ссылки на «да»/«нет» узлы, к которым происходит переход в случае выполнения/невыполнения условий правила;

• правило – объект, содержащий информацию о присваиваниях переменным алгоритма, проверяемых в правиле условий, действиях в случае выполнения условий, действиях в случае невыполнения условий;

• объекты-присваивания, содержащие информацию о различного вида контролируемых присваиваниях значений используемым в алгоритмах переменным;

а также объекты, служащие непосредственно для вычисления алгоритма на конкретном примере:

• скоуп (от англ. scope) альтернативы – объект, содержащий сведения об анализируемом предложении – исходные и уже полученные как некоторый вариант в результате анализа к данному моменту времени, а также представляющий соответствующее этому варианту состояние вычислительной среды применения алгоритма к предложению;

• объект, представляющий применение алгоритма к примеру в целом – содержит пространство альтернатив, то есть совокупность построенных к данному моменту их скоупов с выделением обрабатываемого в данный момент, а также общие сведения об алгоритме и предложении.

Вычисление алгоритма на конкретном примере происходит, начиная с самого верхнего узла алгоритма. Переход к следующему узлу осуществляется в зависимости от результата вычисления условий, находящихся в правиле текущего узла. В процессе вычисления алгоритма могут порождаться альтернативы – возможные варианты, например, синтаксической структуры предложения (как в примере Мать любит дочь.) или грамматических характеристик слов предложения (например, для не снятой по тем или иным причинам омонимии). В рамках одной альтернативы возможен переход не более чем к двум узлам алгоритма. Алгоритм может вызывать другие алгоритмы, аналогично вызовам процедур и функций в программировании.

В главе 5 описываются входные языки инструментальной среды. Для входного описания объектов используется следующие языки:

• графический (используется в графическом редакторе структуры объектов [10, 19]) • предметно ориентированный язык, основанный на синтаксисе Лиспа (такое Лисп-описание алгоритма создается для трансляции в объектную модель).

• языки в синтаксисе xml (служат посредниками между инструментальной средой и приложениями для просмотра результата работы).

Язык графического конструктора объектов был разработан в рамках создания графического конструктора структуры объектов [10, 19]. Конструктор позволяет рисовать диаграммы объектов модели в MS Visio и является ориентированным на эту модель приложением.

Предметно ориентированный пополняемый язык, основанный на синтаксисе Лиспа, был разработан специально для описания правил ПСА. В основу была положена идея о присваиваниях и перечислениях (см. Главу 4 диссертационной работы – «Объектная модель поверхностно синтаксического анализа»), также были рассмотрены основные предикатные обороты, использующиеся предметным специалистом при записи правил. Подробно этот язык описан в Приложении 1 к диссертационной работе.

Языки в синтаксисе xml для взаимодействия между инструментальной средой и приложениями для просмотра результата работы содержат описание всех необходимых этим приложениям данных и подробнее охарактеризованы в разделе «Просмотр результатов работы» Главы 6 диссертационной работы.

В главе 6 описывается отладка алгоритмов ПСА средствами инструментальной среды. Подсистема отладки описываемой инструментальной среды реализована аналогично режиму отладки в инструментальных средах разработки ПО (debug).

В рассматриваемой инструментальной системе предметом тестирования (не только с целью отладки, а иногда и для проведения эксперимента) являются:

(1) порядок выполнения алгоритмов в общей схеме ПСА, (2) различные варианты объединения правил в алгоритмы, (3) отладка алгоритма в смысле организации (взаимосвязи) составляющих его правил, (4) отладка отдельных правил (их предметного содержания) в контексте использующих их алгоритмов, (5) отладка правильности Лисп-кодов, реализующих присваивания, условия и действия в правилах.

Основные возможности режима отладки описываемой инструментальной среды:

установка прерывания, автоматическое выполнение части алгоритма, пошаговое выполнение алгоритма, просмотр контекста выполнения, пробное вычисление выражений элементов правил, трассировка выполнения алгоритма, режим пакетного тестирования (возможность автоматически применять алгоритм к пакету примеров; при этом для каждого примера конечное состояние вычислительной среды, как результат его анализа, проверяется «прогоном» автоматически сгенерированных ранее тестов).

Для просмотра результатов работы было реализовано два приложения:

приложение, показывающее проход алгоритма в виде дерева с соответствующей функциональностью сворачивания/разворачивания узлов [1] (автор – Г.Ю.Айриян) и приложение для графического отображения связей, сегментов и характеристик лексических единиц примера (автор – И.М.Ножов [25]).

При работе с рассматриваемой системой роли распределяются следующим образом. Лингвист содержательно разрабатывает лингвистические алгоритмы. Вместе с программистом они доводят их до готовности к представлению в объектной модели.

При необходимости программист пополняет входной язык описания алгоритмов, основанный на Лисп-синтаксисе. Алгоритмы (новые или варианты уже имеющихся) испытываются как с целью отладки, так и для улучшения их структуры и т.п. При отладке программист выявляет неточности или ошибки в процессе вычисления алгоритмов. В зависимости от характера ошибок их исправляет либо сам программист, либо программист вместе с лингвистом. В случае корректного завершения вычисления лингвист анализирует результаты и, при необходимости, содержательно исправляет алгоритмы, а программист корректирует модель. В итоге, если задача тестирования (п. 6.1) выполняется только программистом, то задачи 1-4 (п. 6.1), как правило, – специалистом предметной области и программистом вместе, причем рассматриваемая в диссертационной работе инструментальная среда облегчает их тесное взаимодействие.

В главе 7 приводится общее описание реализации инструментальной среды.

Реализация объектов модели и связей между ними выполнена на языке Common Lisp [35] с использованием встроенной в него библиотеки CLOS (Common Lisp Object System) в инструментальной среде разработки Corman Common Lisp ® версии 2.5 [34].

Common Lisp – это интерпретируемый язык. Поэтому его использование существенно облегчает программирование среды для отладки, в ходе работы которой требуется именно интерпретировать выражения. В описываемой системе алгоритмы рассматриваются как данные по отношению к интерпретатору. Для записи алгоритмов используется своеобразный языковой «конструктор», что обеспечивает легкость модификации. При составлении описания алгоритма мы или манипулируем (добавляем, переставляем, удаляем) готовыми «кирпичиками» - объектами, представляющими правила, или только меняем содержание правил. Объектная модель и является таким «конструктором».

В Заключении приводится характеристика основных результатов работы (см.

далее раздел «Основные результаты работы»).

В Приложениях к диссертационной работе приведены следующие описания. В Приложении 1 приведен синтаксис языка описания алгоритмов ПСА: структуры алгоритмов, системно-определенных форм («предметных» конструкций), синтаксиса описания примеров. В Приложении 2 приведен пример выходного xml-описания алгоритма для графического конструктора объектов. В Приложении 3 приведен пример оригинальной записи алгоритма и его представления на входном языке, основанном на синтаксисе Лиспа. В Приложении 4 рассказывается о методике предварительного обозрения алгоритмов ПСА. В Приложении 5 приведены некоторые примеры работы промоделированных средствами инструментальной среды алгоритмов, описанных в диссертационной работе.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ В рамках данной работы на предварительном этапе было проведено исследование структуры алгоритмов поверхностно-синтаксического анализа, выявлены и классифицированы основные типы используемых в них конструкций. Для обзора содержания и классификации используемых в алгоритмах конструкций была специально разработана небольшая база данных в MS Access. Для исследования топологии алгоритмов ПСА было проведено их преобразование к «сжатому» виду.

(Подробнее эти приемы предварительного анализа алгоритмов ПСА описаны в Приложении 4 к диссертационной работе.) В результате этой деятельности задача была поставлена и специфицирована (совместно с М.Е.Епифановым [6]).

Разработаны и реализованы программные средства для построения (входные языки) и поддержки объектных моделей алгоритма и анализируемого предложения.

Pages:     | 1 || 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»