WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     || 2 | 3 |

На правах рукописи

БАТАЛИНА Анна Михайловна РАЗРАБОТКА ИНСТРУМЕНТАЛЬНОЙ СРЕДЫ ДЛЯ ЭКСПЕРИМЕНТОВ С АЛГОРИТМАМИ ПОВЕРХНОСТНО-СИНТАКСИЧЕСКОГО АНАЛИЗА Специальность 05.25.05 ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ПРОЦЕССЫ, ПРАВОВЫЕ АСПЕКТЫ ИНФОРМАТИКИ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва- 2008

Работа выполнена в Российском государственном гуманитарном университете

Научный консультант:

Доктор технических наук, старший научный сотрудник. Лахути Делир Гасемович

Официальные оппоненты:

Доктор технических наук Зеленков Юрий Григорьевич Кандидат физико-математических наук, доцент Валиев Марс Котдусович

Ведущая организация:

Институт программных систем РАН

Защита состоится «25» июня 2008 г. в 14 часов на заседании диссертационного совета Д 002.026.01 при Всероссийском институте научной и технической информации РАН по адресу: 125190, Москва, ул. Усиевича, д. 20.

С диссертацией можно ознакомиться в библиотеке Всероссийского института научной и технической информации РАН.

Автореферат разослан «20» мая 2008 г.

Ученый секретарь диссертационного совета ВИНИТИ доктор технических наук, профессор Цветкова Валентина Алексеевна 2

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Работа посвящена созданию инструментальной программной среды, облегчающей и ускоряющей процесс отладки большой системы лингвистических алгоритмов, конкретно алгоритмов поверхностно-синтаксического анализа русского предложения.

В свое время (50-60 гг. ХХ в.) большим достижением в области информационных процессов и систем явилось создание документальных ИПС, использовавших в качестве поисковых признаков лексический состав – множества лексических единиц (ЛЕ) – документов, подлежащих выдаче на запросы пользователей (так называемые ИПС с грамматикой 1-го уровня [25, с. 6]), обеспечивавших среднюю полноту и точность поиска до 50-60 %. Потребность в повышении полноты поиска без существенного падения точности в сочетании с потребностью в автоматической обработке все возрастающего потока входных документов (автоматизации индексирования) привели в 70-80-е гг. к созданию и широкому распространению ИПС с грамматикой 2-го уровня, учитывающей такие относительно легко поддающиеся распознаванию синтагматические отношения ЛЕ в тексте, как взаимное расположение, расстояние между ними и вхождение в легко распознаваемые фрагменты текста, прежде всего предложения. Собственно говоря, именно к этому типу принадлежат повсеместно используемые в настоящее время «поисковые машины» Интернета (Яндекс, Google и др.). С одной стороны, эти системы имеют возможность выдвигать такие девизы, как «Найдется все», а с другой стороны в целом ряде случаев за полноту поиска приходится платить значительным возрастанием информационного шума.

Стремительное нарастание информационных массивов (в масштабах Интернета количество документов измеряется уже миллиардами) выдвигает повышенные требования к сочетанию показателей полноты и точности поисковых систем.

Актуальность темы Одним из необходимых средств повышения точности документального (текстового) поиска является синтаксический анализ входного текста. «Синтаксический анализ сам по себе не является достаточным средством существенного повышения качества поиска в документальных ИПС. Однако он является необходимым условием эффективного применения, во-первых, тезаурусов понятий (дескрипторосочетаний, концептуальных словарей), являющихся (точнее, долженствующих быть) основным средством обеспечения эффективного семантического анализа - “понимания” автоматизированными ИПС запросов к ним, текстов, подлежащих выдаче, и соответствия (отношения релевантности/нерелевантности) между ними» ([21] с. 39).

Иначе говоря, синтаксический анализ является необходимым элементом концептуального анализа текстов, понимаемого как «распознавание в них наименований понятий, выраженных словами и словосочетаниями, и отношений между понятиями» [7].

Другими важными областями применения автоматического синтаксического анализа в сфере информатики являются: автоматическое извлечение фактов из текста (в частности, для введения в фактографические ИПС, или базы данных), автоматическое аннотирование и реферирование первичных документов, не говоря уже о машинном переводе. Частичный синтаксический анализ уже применяется (например, в поисковой системе компании Интегрум Техно) для выявления в тексте документов составных имен собственных (имен лиц, названий организаций и т.п.) и отношений между ними (типа вступления некоторого лица в организацию, ухода из организации и т.п.).

Таким образом, синтаксический анализ текста (для нашей страны – в первую очередь русского текста) становится все более важным информационным процессом, а его автоматизация – все более существенной для повышения эффективности современных информационных систем и процессов.

«Проблема синтаксического анализа неформализованных текстов в полном объеме еще не решена» [8, с. 11], хотя в течение последних десятилетий над ней работал ряд весьма сильных научных коллективов (в большинстве случаев эта проблема ставилась ими не как самостоятельная, а как частичная задача в рамках таких задач, как машинный перевод или автоматический поиск текстов). Наиболее продвинутыми можно считать работы в рамках систем ЭТАП ([3, 4, 13]), АОТ ([28]), RETRANS ([8]) TREETON ([30, 31]) и нек. др. В качестве самостоятельной задачи алгоритмизация (как основа для автоматизации) синтаксического анализа русского текста была поставлена Т.Ю.Кобзаревой [15-18]. Ее подход отличается от подхода большинства из указанных выше коллективов тем, что синтаксический анализ рассматривается ею не в неразрывной связи с семантическим анализом («когда мы ведем речь о синтаксическом или о семантическом анализе и синтезе текстов, то надо иметь в виду, что это всегда бывает их семантико-синтаксический анализ и синтез» [7, разд. 1.4], а как самостоятельный этап анализа текста, предшествующий семантическому анализу и использующий минимальные семантические сведения, грамматикализованные, такие как «одушевленность – неодушевленность», или грамматикализуемые, такие как модели управления, сформулированные в самых общих грамматических терминах (таких как «управление определенным падежом», «управление предлогом» и т.п., см. с. 26 диссертационной работы).

Неоднократные попытки программно реализовать разработанные Т.Ю.Кобзаревой алгоритмы синтаксического анализа русского текста не были завершены (хотя частичные программные реализации дают основание считать, что эти алгоритмы способны решить стоящую перед ними задачу). Помимо несовершенства доступных технических средств (первые попытки производились еще на ЭВМ ЕС) и потери квалифицированных исполнителей, связанной с событиями 90-х гг. прошлого века, основной причиной этого можно считать объективную сложность задачи, исключающую возможность одноактного полного и окончательного решения ее «в голове» или «на бумаге». «…Сколь бы глубоко и тщательно ни разрабатывался синтаксический анализатор <…>, в нем неизбежно остаются белые пятна и лакуны.

Многие лингвистические факты, в том числе критически существенные для работы анализатора, никогда не попадали в поле зрения ученых просто потому, что они не имели возможности в массовом порядке оперировать материалом неверного или неожиданного синтаксического разбора предложений. Именно такой материал в изобилии поставляет развитая система автоматической обработки текстов, а работа с этим материалом позволяет выявить лакуны научного описания и устранить их» [13, с.

234]. Этому соответствует итеративный процесс пробной программной реализации – оценки пробного решения и анализа его ошибок (как программных, так и алгоритмических) – исправления их в следующей пробной реализации и т.д.

Лингвистические знания обо всех этапах анализа текста обычно записываются специалистами предметной области в текстовых редакторах в виде правил, организованных некоторым образом. Здесь можно выделить два подхода: условно говоря, «словарный», использующий богатую лексическую информацию и относительно простые алгоритмические решения (примером может служить система ЭТАП), и «алгоритмический» - использующий минимально необходимую словарную информацию и достаточно сложные алгоритмы1, представленный в системе, Под словом «алгоритм» понимается совокупность лингвистических правил, связанных между собой так, что в зависимости от результатов применения текущего правила однозначно определено, какое правило следует применить следующим.

описываемой в настоящей работе. У каждого из них есть свои достоинства и недостатки. Когда объем информации, на основе которой строятся алгоритмы, становится большим, специалисту предметной области (особенно при втором подходе) становится все труднее отслеживать ее актуальность, корректность с лингвистической точки зрения, проводить умозрительно какие-либо эксперименты с работой алгоритмов на различных примерах.

Основная идея предлагаемой работы состоит в том, что оптимальным способом осуществления этого итеративного процесса является разработка специальной инструментальной программной среды, которая позволила бы сделать постоянное изменение реализуемой системы программ регулярным процессом. Таким образом, актуальным становится создание специального инструментального средства для наглядного, предметно ориентированного представления лингвистической информации об анализе текста, предоставляющего возможность отладки и лингвистического эксперимента специалисту, реализующему систему лингвистических правил.

Представляемая работа описывает такую систему. (Идея создания специального интерпретатора для отладки лингвистических алгоритмов была выдвинута М.Е.Епифановым, разработавшим также объектную модель, положенную в основу описываемой инструментальной среды, реализация которой была выполнена автором данной диссертационной работы.) Цель работы и задачи исследования В работе рассматривается инструментальная среда, реализованная для предметно ориентированного моделирования лингвистических алгоритмов и произведения с ними различной сложности вычислительных экспериментов (от изменения порядка их применения до детальной отладки каждого из входящих в них правил). Предметной базой для реализации описываемой среды стали алгоритмы поверхностно-синтаксического анализа (ПСА) Т.Ю.Кобзаревой [15-18].

При помощи рассматриваемой среды решаются следующие задачи:

1. реализация специального инструментального средства для наглядного, предметно ориентированного представления лингвистической информации об анализе текста, предоставляющего возможность отладки и вычислительного эксперимента специалисту, реализующему систему лингвистических правил 2. моделирование лингвистических алгоритмов на входном языке, отражающем специфику предметной области, близком по структуре к оригинальной записи лингвистических алгоритмов (сделанной специалистом предметной области) и открытом как для пополнения новыми лингвистически значимыми конструкциями, так и для изменения структуры алгоритмов и их блоков 3. отладка лингвистических алгоритмов с предоставлением функциональности, аналогичной функциональности сред программирования (установка прерывания, трассировка, протоколирование, просмотр результата в разных видах) 4. проведение вычислительных экспериментов с лингвистическими алгоритмами, не требующее чрезмерно больших человеко-временных затрат 5. поддержка работы с большой совокупностью лингвистических алгоритмов на уровне структуризации и обозримости алгоритмов и актуальных для них примеров текстов.

Методы исследования Основным методом исследования проблемы реализации инструментальной среды для экспериментов с алгоритмами ПСА являлось применение принципа максимальной предметной ориентированности представления алгоритмов, обеспечения их отладки и вычислительного эксперимента с ними в условиях, приближенных к отладке программ в современных средах программирования.

Был проведен анализ «топологии» алгоритмов ПСА с точки зрения переходов от одного узла к другому. Были выявлены основные типы конструкций, используемых в записи правил, для чего реализована специальная БД.

Научная новизна Проблемы обозримости, поддержки, пополнения и отладки совокупности лингвистических знаний при создании систем анализа текста на сегодняшний момент в различных системах решается по-разному. Либо при помощи тесного взаимодействия с программистом, реализующим лингвистические знания в виде готовой программной системы (но при этом общий язык для взаимодействия – естественный, что затрудняет формализацию знания, кроме того, переделка лингвистической базы требует существенной модификации программного кода), либо при помощи использования для записи правил специального формального языка (но при этом результат эксперимента виден только на выходе, а не «в процессе»). Средства для отладки лингвистических алгоритмов анализа текста в печати не представлены. В связи с этим представляются новыми следующие результаты, автоматизирующие решение данных проблем:

1. реализована адекватная предметной области объектная модель: разработано представление алгоритмов, правил, обрабатываемых примеров 2. реализована соответствующая вычислительная модель, ориентированная на пошаговое выполнение алгоритмов с возможностью прерывать вычисление на каждом шаге и просматривать во время таких прерываний значения используемых в этих алгоритмах переменных, состояние вычислительной среды, вычислять пробные значения каких-либо выражений и т.п.

3. разработаны входные языки описания алгоритмов: синтаксис, процедурная семантика (для инструментальной среды, для взаимодействия с другими приложениями с целью просмотра результата) 4. реализованы средства отладки лингвистических алгоритмов с широкими возможностями (проход по алгоритмам, просмотр результата в режиме реального времени, вычисление различных выражений с лингвистическими переменными, участвующими в алгоритмах).

Pages:     || 2 | 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»