WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

На правах рукописи

МИХАЙЛОВ Дмитрий Владимирович

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ, МЕТОДЫ И АЛГОРИТМЫ ФОРМИРОВАНИЯ ЗНАНИЙ О СИНОНИМИИ ДЛЯ ЗАДАЧ АНАЛИЗА И СЖАТИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ

05.13.17 – Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени доктора физико-математических наук

Великий Новгород – 2012

Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования “Новгородский государственный университет имени Ярослава Мудрого” на кафедре информационных технологий и систем.

Научный консультант - доктор технических наук, профессор Емельянов Геннадий Мартинович

Официальные оппоненты:

Немирко Анатолий Павлович, доктор технических наук, профессор, ФГБОУ ВПО “Санкт-Петербургский государственный электротехнический университет “ЛЭТИ” им. В. И. Ульянова (Ленина)”, профессор кафедры биотехнических систем;

Минаков Игорь Александрович, доктор технических наук, Учреждение Российской академии наук Институт проблем управления сложными системами РАН, старший научный сотрудник лаборатории анализа и моделирования сложных систем;

Чернов Владимир Михайлович, доктор физико-математических наук, ФГБОУ ВПО “Самарский государственный аэрокосмический университет имени академика С.П.Королева (национальный исследовательский университет)”, профессор кафедры геоинформатики и информационной безопасности.

Ведущая организация: Научно-исследовательский институт прикладной математики и кибернетики ФГБОУ ВПО “Нижегородский государственный университет им. Н.И. Лобачевского”.

Защита состоится “15” февраля 2013 г. в 10 часов на заседании диссертационного совета Д 212.215.07, созданного на базе ФГБОУ ВПО “Самарский государственный аэрокосмический университет имени академика С.П.Королева (национальный исследовательский университет)” (СГАУ), по адресу: 443086, Самара, Московское шоссе, 34.

С диссертацией можно ознакомиться в библиотеке СГАУ.

Автореферат разослан “___” _____________ 2012 г.

Ученый секретарь диссертационного совета Белоконов И.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Важнейшей составляющей компьютерного анализа смысла текста является выделение класса семантической эквивалентности (СЭ). Для поисковых и вопросно-ответных систем это позволяет сократить время поиска информации и упростить семантических анализ запроса путём разделение знаний о языке на уровни. В системах машинного перевода иерархия классов СЭ уменьшает число необходимых трансформационных правил и повышает адекватность варианта перевода исходному тексту. В программах обучения языку классы СЭ есть основа знаний о формах выражения нужной мысли в изучаемом языке. В системах тестирования знаний интерпретация ответа на тестовое задание открытой формы (ТЗОФ) есть анализ принадлежности классу СЭ правильного ответа, задаваемого разработчиком теста.

Тем не менее, серьёзных попыток смоделировать на ЭВМ формирование знаний о синонимии в естественном языке (ЕЯ) во взаимосвязи с процессом накопления знаний о языке в целом и об окружающем мире не предпринималось, несмотря на многочисленные публикации, посвященные:

– синтаксису, его связи с семантикой и лексическими средствами языка, реализующими механизм синонимического перефразирования – Мельчук И.А., Жолковский А.К., Гладкий А.В., Апресян Ю.Д., Кибрик А.Е., Тестелец Я.Г., Солганик Г.Я., Тузов В.А. и др.;

– компьютерным словарям, тезаурусу и машинному фонду русского языка – Караулов Ю.Н., Нариньяни А.С., Рубашкин В.Ш., Попов Э.В., Леонтьева Н.Н., Демьянков В.З. и др.;

– системам тестирования знаний – Аванесов В.С., Красильникова В.А., Майоров А.Н., Челышкова М.Б., Останин К.С., Якимов В.Н. и др.;

– информационному поиску – Леонтьева Н.Н., Осипов Г.С., Попов Э.В., Рубашкин В.Ш., Фомичёв В.А., Соснин П.И., Тихомиров И.А., Журавлёв Ю.И., Гуревич И.Б., Кузнецов С.О., Райгородский А.М., Мучник И.Б. и др.

Современные поисковые системы, анализируя ЕЯ-запрос, используют статистику встречаемости слов запроса в различных контекстах с учётом возможных синонимов с целью поиска документа, максимально релевантного запросу. Аналогичный принцип используется и в статистическом переводе. Данный подход полностью оправдывает себя в задаче информационного поиска, но он не позволяет воссоздать целостный образ самой ситуации использования естественного языка для описания фрагмента действительности. Сказанное значимо, в частности, при подготовке ТЗОФ, когда известен фрагмент реальности и разработчику теста требуется выделить все возможные формы описания этого фрагмента в заданном естественном языке.

В связи с этим задача разработки эффективных средств машинного представления знаний о СЭ в совокупности с реализацией механизма взаимодействия знаний о естественном языке и предметной области (ПО) является чрезвычайно актуальной.

Г.М. Емельяновым, Т.В. Кречетовой и Е.П. Курашовой в 1998–2000 гг. была предпринята попытка решить эту задачу с привлечением уровня глубинного синтаксиса ЕЯ в рамках модели СЭ на основе грамматик деревьев (-грамматик). Указанный математический аппарат, предложенный А.В. Гладким и И.А.Мельчуком и расширенный разделением преобразований узлов и ветвей, позволяет формализовать синонимические преобразования ЕЯ-высказываний на уровне универсальной (абстрактной) лексики без существенного ограничения входного ЕЯ и ПО решаемых задач. Но и данному подходу присущи серьёзные недостатки, а именно:

– на уровне глубинного синтаксиса текст представлен фразами, каждая из них соответствует простому распространенному предложению. При этом нельзя говорить о необходимых и достаточных признаках синонимии текстов исключительно по результатам анализа применимости правил синонимических преобразований к деревьям глубинного синтаксиса отдельных фраз и, как следствие, делать выводы о целесообразности трансформаций того или иного типа;

– словарная подсистема предполагается закрытой ввиду существенной сложности описываемой словарём информации;

– отсутствует формализация компонент, отождествляемых с условиями применимости правил синонимических преобразований. По оценке И.А. Мельчука, в теоретическом плане сами правила не претендуют на полноту и возможно их расширение по результатам соответствующих исследований.

Диссертация посвящена разработке методов и алгоритмов формирования знаний о синонимии в естественном языке на основе ситуаций его употребления для описания фрагментов действительности. В данной работе впервые предложено одновременное формирование предметных и языковых знаний непосредственно по текстам, вводимым пользователем без специальной подготовки в области языкознания.

Объект исследования настоящей диссертационной работы – программные средства распознавания, анализа и сжатия текста на естественном языке.

Предметом исследования являются методы и алгоритмы формирования знаний о синонимии.

Цель диссертации заключается в разработке и теоретическом обосновании структуры знаний о синонимии, а также методов и алгоритмов их формирования и использования для совокупности задач оценки семантической схожести текстов предметно-ограниченного естественного языка, автоматизации пополнения и компрессии баз языковых и предметных знаний.

Для достижения поставленной цели в работе решаются следующие задачи:

- анализ существующих методов формализации семантики конструкций ЕЯ и определение общих требований, предъявляемых к механизму сравнения смыслов на функциональном уровне;

- разработка и исследование методов анализа СЭ на уровне варьирования абстрактной лексикой;

- разработка методов автоматизированного формирования и кластеризации знаний о семантике конструкций предметно-ограниченного естественного языка с учётом взаимосвязи языковых уровней;

- исследование и алгоритмизация механизма использования морфологии и синтаксиса ЕЯ для задач кластеризации, разделения и сжатия баз предметных и языковых знаний;

- разработка и исследование методов численной оценки семантической схожести текстов предметно-ограниченного естественного языка;

- разработка архитектуры программной системы, реализующей предложенные принципы, методы и алгоритмы.

Методы исследования. Для решения поставленных в работе задач были использованы методы формальной теории языков, математической логики и теории множеств, теории решеток и анализа формальных понятий, системной типологии языков и когнитологии, основные положения теоретической и когнитивной лингвистики, а также прикладные методы анализа данных и знаний.

Научная новизна. В диссертации разработаны теоретические основы автоматизированного формирования знаний о синонимии и их использования для сокращения объёмов баз предметных и языковых знаний в задачах анализа текстов. В частности, новыми являются следующие результаты:

• методика автоматизированного формирования и экспериментальной оценки знаний выделением классов семантической эквивалентности текстов, учитывающая целостный образ ситуации употребления предметно-ограниченного подмножества естественного языка для описания факта действительности;

• подход к решению задачи распознавания сверхфразовых единств в текстах на уровне глубинного синтаксиса. При этом динамическая информационная модель совокупности правил -грамматики сводит поиск последовательности преобразований с заданными свойствами к известным задачам сетей Петри;

• принцип выделения и кластеризации семантических отношений как теоретическая основа формирования смыслового эталона на множестве эквивалентных по смыслу фраз предметно-ограниченного подмножества естественного языка;

• метод и алгоритмы автоматизированного формирования смыслового эталона на множестве СЭ-фраз в виде решётки формальных понятий, а также метод компрессии текстовой базы знаний на основе выделенных эталонов;

• метод численной оценки семантической схожести текстов предметноограниченного ЕЯ с учётом разделения языковых и предметных знаний;

• типовая архитектура программной системы контроля знаний, реализующая предложенные в работе принципы, методы и алгоритмы.

Теоретическая и практическая значимость. Диссертационная работа носит теоретико-прикладной характер. Полученные в ней результаты, разработанные методы и реализующие их программы могут быть использованы для решения широкого класса задач обработки текстов, а также сжатия информации без потери полезной смысловой составляющей. Наряду с ЕЯ-текстами, выделение смысловых эталонов предлагаемыми в работе методами актуально для задач распознавания и анализа семантики любых сложных информационных объектов, в том числе изображений, при формировании баз данных и знаний. Результаты диссертационной работы реализованы в рамках следующих НИР:

1. Грант РФФИ № 03-01-00055-а “Разработка математического аппарата для распознавания сверхфразовых единств в текстах”, рук. Емельянов Г. М., отв. исп. Михайлов Д.В.

2. Грант РФФИ № 06-01-00028-а “Разработка методов автоматизированного пополнения тезауруса для задач распознавания смысловой эквивалентности текстов”, рук. Емельянов Г. М., отв. исп. Михайлов Д.В.

3. Грант РФФИ № 10-01-00146-а “Разработка методов автоматизированного накопления и систематизации знаний о морфологии и синтаксисе естественного языка для задач семантической кластеризации текстов”, рук. Емельянов Г. М., отв. исп.

Михайлов Д.В., гос. рег. № 0120.1 164263, 2010-2012 г.

4. Грант № ТОО-3.3-408 Минобразования РФ, отв. исп. Михайлов Д.В.

5. Контракт № И 0675 ФЦП “Интеграция”, отв. исп. Михайлов Д.В., гос. рег. № 0120.0 300918.

6. ГБ НИР “Разработка и исследование математических моделей многопараметрических систем”, рук. Емельянов Г.М., отв. исп. Михайлов Д.В., по заданию Минобрнауки РФ, гос. рег. № 0120.0 704719, 2007-2011 г.

Достоверность теоретических результатов обеспечивается применением апробированного математического аппарата, корректностью изложения основных теоретических положений работы с формулировкой необходимых утверждений, лемм и теорем, строгостью математических доказательств, согласованностью с ранее полученными результатами других авторов. Теоретические положения иллюстрируются примерами реализации компонент программной системы тестирования знаний и решения возникающих при этом инженерных задач.

Личный вклад автора. В диссертационной работе обобщены результаты, полученные лично автором. Постановка и решение задачи распознавания сверхфразовых единств в текстах на уровне глубинного синтаксиса принадлежит автору. Решение задач формирования и кластеризации знаний на основе синтаксического контекста существительного предложено автором как обобщение результатов, полученных совместно с Н.А. Степановой. Теоретические основы формирования знаний о языке на основе ситуаций его употребления развиты автором совместно с А.Н. Корнышовым.

Метод оценки семантической схожести текстов предметно-ограниченного ЕЯ, а также метод и алгоритмы выделения смыслового эталона на множестве эквивалентных по смыслу ЕЯ-фраз, метод компрессии текстовой базы знаний и подход к интерпретации ответа испытуемого на тестовое задание открытой формы (включая архитектуру программной системы контроля знаний) разработаны лично автором. Эксперименты на ЭВМ подготовлены и выполнены автором в рамках выпускных квалификационных работ студентов специальностей “Прикладная математика и информатика” и “Программное обеспечение вычислительной техники и автоматизированных систем”.

Апробация работы. Результаты работы представлялись на 35 конференциях, семинарах и конгрессах, в том числе проводимых РАН: 10-й, 12-й, 13-й, 14-й, 15-й Всероссийских конференциях “Математические методы распознавания образов”, 2001, 2005, 2007, 2009, 2011; 6-й, 7-й, 8-й, 9-й, 10-й Международных конференциях “Распознавание образов и анализ изображений: новые информационные технологии”, 2002, 2004, 2007, 2008, 2010; проводимых РАН совместно с Национальными академиями наук Украины и Беларуси 4-й, 5-й, 6-й, 7-й, 8-й Международных конференциях “Интеллектуализация обработки информации”, 2002, 2004, 2006, 2008, 2010.

Публикации. Всего по теме диссертации опубликовано 75 работ, среди них одна монография, 18 статей в журналах, входящих в перечень, рекомендованный ВАК для публикации основных результатов докторских диссертаций. Имеется свидетельство о регистрации программы для ЭВМ. В трудах международных конференций представлено 28 работ, в трудах всероссийских – 7 работ.

Структура и объем диссертации. Диссертация состоит из введения, шести глав, заключения, списка литературы и двух приложений. Общий объем диссертации составляет 333 страницы машинописного текста. Основная часть работы изложена на 237 страницах и содержит 78 рисунков и 15 таблиц. Список литературы включает 1наименований.

На защиту выносятся следующие основные положения:

1. Методика формирования и экспериментальной оценки знаний, основанная на концепции ситуации употребления естественного языка как единицы формализованного описания его семантики.

2. Подход к решению задачи построения системы целевых выводов в грамматике деревьев на основе информационной модели совокупности её правил.

3. Принцип формирования и кластеризации семантических отношений как основы классов СЭ.

4. Метод и алгоритмы выделения смыслового эталона на множестве эквивалентных по смыслу фраз предметно-ограниченного естественного языка.

5. Численная оценка семантической схожести текстов предметно-ограниченного естественного языка относительно ситуаций его употребления.

6. Метод компрессии текстовой базы знаний с применением смысловых эталонов.

Диссертация включает исследование процессов накопления знаний о синонимии в естественном языке; создание и исследование информационной модели указанного явления; разработку принципов и методов извлечения знаний, а также средств автоматизации построения концептуальной модели предметной области на основе классов СЭ для текстов предметно-ограниченного ЕЯ, что полностью соответствует паспорту специальности 05.13.17 – “Теоретические основы информатики”.

КРАТКОЕ СОДЕРЖАНИЕ ДИССЕРТАЦИИ Во введении обоснована актуальность темы работы, дан краткий обзор современного состояния проблематики и литературы по теме исследования, сформулированы цели и задачи, определена структура диссертации.

Первая глава посвящена общей постановке задачи автоматизированного накопления знаний о синонимии как основы кластеризации предметных и языковых знаний. Вводится понятие ситуации языкового употребления (СЯУ), рассматриваемой в качестве единицы формализованного описания семантики ЕЯ:

S = (O, R,Ts), (1.1) O где – множество символов, отождествляемых с некоторыми понятиями; Ts – множество альтернативных форм описания ситуации в некоторой знаковой системе;

R On, где n 1,K, O. Отношения из множества R, как и формы из Ts, могут быть произвольными. В качестве элементов Ts в работе рассматриваются совокупности символьных цепочек (содержательно – семантически эквивалентные ЕЯ-фразы), причём для Tsi Ts Tri : Tsi = Synt(Tri ), где Tri есть ориентированное помеченное дерево, а Synt – сюръективная функция, определяемая правилами синтаксиса языка.

Тогда O = M V, M V , где для o M найдётся ok V такое, что понятию j o w ok соответствует дочерний узел с пометкой, а понятию – родительский узел с j j пометкой wk в Tri. Далее будем говорить, что слово, соответствующее символьной w цепочке, подчинено (синтаксически) слову, отождествляемому с wk.

j Сама задача СЭ формулируется следующим образом.

Задача 1.1. Дано множество ЕЯ-текстов G. Требуется: по результатам синтаксического разбора каждого gi G выявить множества V(gi ) M (gi ), а также тернари ное отношение I G M V M = M(gi ) V = V(gi ) :,. Далее на основе I неUi Ui обходимо сформировать множество R и выделить группы текстов по сходству встреrj R чаемости понятий в одних и тех же.

Задача 1.1 наиболее естественно решается методами анализа формальных понятий (АФП). При этом для A G B M V вводится пара отображений:

и A = {(m,v): m M, v V g A : m(g) = v} B = {g G (m,v) B : m(g) = v},. Па(A, B) ра, где A = B и B = A, есть формальное понятие (ФП) с объемом A и содержанием B. Классам СЭ здесь будут соответствовать классы формальных понятий в решётке, а задача накопления знаний о синонимии сводится к совокупности подзадач, решаемых далее в главах:

- формирование прецедентов синонимии для уровня абстрактной лексики;

- кластеризация отношений из множества R в составе тройки (1.1);

- численная оценка схожести СЯУ.

Вторая глава посвящена решению проблемы полноты представления смысла при формировании прецедентов ситуаций синонимии для уровня абстрактной лексики. При этом содержательную основу сжатия смысловой информации составляют сверхфразовые единства на уровне глубинного синтаксиса.

Для теоретического обоснования алгоритмической разрешимости построения последних вводится динамическая информационная модель (в терминологии работ Г.М. Емельянова и Е.И. Смирновой) совокупности правил -грамматики на основе аппарата ограниченных сетей Петри. Рассматриваемые -грамматики задаются четвёрками = (WR,VR,, ), где VR – конечное множество пометок на ветвях дерева:

VR = {a1, a2,K, ak }; WR – конечное множество пометок на узлах; – матрица ограничений на характер размещения на ветвях дерева пометок из VR : для i =1,K, k из любого узла дерева выходит не более (ai )= ni ветвей с пометкой ai ; – конечное множество правил преобразований деревьев, причём для rule задаётся множеj ство Rap условий его применимости. Содержательно rapl Rap выступает в роли прецедента, с которым отождествляется класс СЭ на уровне абстрактной лексики.

Определение 2.1. Лексической синонимической конструкцией (ЛСК) будем далее называть комплекс лексических единиц wrk WR vrj VR и связей между ними, замена которого описывается некоторым rulei . Каждой ЛСК соответствует свое C0 wrk ключевое слово, при этом в общем случае произвольная в составе ЛСК есть Cзначение некоторой лексической функции от.

Представим вход правила rule как описание поддерева, заменяемого праj вилом. Тогда определение возможности применения преобразований из к заданному дереву есть анализ применимости каждого rule , с выделением ключевого j слова ЛСК и представлением результата в виде списка пар:

{(rule,C0(j)): j = 1,K, }. (2.1) j В работе некоторого rule в общем случае следует выделить два состояния:

j соответствующее заменяемому дереву Tio1 и соответствующее заменяющему дереву Tio2, где Tiok = Wiok,Viok, Wiok – множество узлов, Viok – множество ветвей. Условие rapl Rap представляет собой формальное описание допустимости перехода из состояния Tio1 в Tio2. Правило rule может быть применено к дереву Tio1, если j m m l=1 rapl = true l=1 rapl, где m = Rap. Обозначим далее как r12. При этом r12 следует интерпретировать как “определение события, разрешающего переход от Tio1 к Tio2 ”.

rule Применение правила сводится к выполнению перехода:

j rule (r12 ) j rule (r12 ): Tio1 . (2.7) Tioj Отдельному правилу соответствует элементарная сеть Петри вида N = {P,T, F, H, M }. (2.8) При этом множество состояний правила есть множество позиций сети P ={p1, p2}, где p1 Tio1, а p2 Tio2. Множество возможных переходов T представлено единственным переходом из Tio1 в Tio2 : t = rule (r12): p1 t p2. Компоненты F и H есть j отображения F : P T {0,1} H : T P {0,1}, соответственно. Для сети вида (2.8) и F(p1, t)= F(p2, t) = H(t, p1) = H(t, p2 ) = 1, а число допустимых маркировок 1, 0, 0, M = (1,0) (разметок) сети равно двум. Начальной маркировке соответствует вектор, второй из допустимых маркировок – вектор M = (0,1).

rule Множество правил, представленных сетями (2.8), есть множество объj ектов-примитивов для построения информационной модели системы правил некоторого подмножества с определением структурных взаимосвязей между примитивами. При этом сама система формируется следующим образом: для каждой пары {rule1, rule2} rule1 rule,, в системе либо вход у rule2 является выходом для rule1, либо наоборот, вход у rule1 есть выход для.

ruleПусть Ni = {Pi,Ti, Fi, Hi, M } – сеть, построенная из примитивов (2.8).

0i Ni Теорема 2.1. Сеть является безопасной в течение всего времени функционирования моделируемой системы правил.

Последовательность применяемых правил соответствует последовательности = (t1i,t2i,K,tki ) срабатываний переходов:

rule (rk, +1) ( ) ()Tio k Tio1 rule1 12 r23 3 K Tiok k, (2.9) rTio2 rule 2 Tiok+ где t1i rule1(r12 ), t2i rule2(r23) tki rulek (rk, k +1), …,. При этом происходит последовательная смена разметок:

t1i t2i tki M M1i M K M M, (2.10) 0i 2i k -1, i ki где M Tio1 M1i Tio2 M Tiok M Tiok+,, …,,.

0i k -1, i ki M0i Множество разметок, достижимых из начальной разметки и образующих мноNi M0i жество достижимости сети, находится в зависимости от задания. Функционирование системы описывается в терминах последовательностей срабатываний перехоt1i,t2i,K,tk -1, i,tki дов, каждая из которых есть слово в языке L(Ni ), называемом Ni свободным языком сети.

Tio1 Tiok +Задача приведения деревьев и к виду с одинаковой ЛСК фактически включает в себя три задачи:

M M0i 1) определение достижимости разметки из начальной разметки.

ki Ti* Ti* M M Данная задача есть поиск слова , где – множество всех слов в 0i ki Ti алфавите ;

2) задача обратимости слова : если Ti* M M, то существует 0i ki = (tki,tk -1,i,K,t2i,t1i) ли слово :

t2i tki M t1i M1i M K M M , (2.11) 0i 2i k-1, i ki где M Tio1 M1i Tio2 M Tiok+,, …, ;

0 i ki 3) задача определения оптимального слова Ti* M M. Суть: если 0i ki 1 2 l существуют 1,,K,l M0i M, M M, …, M0i M, то в ка:

2 ki 0i ki ki честве оптимального берется слово наименьшей длины, причём предпочтение всегда отдаётся обратимому слову.

L(Ni ) Для решения указанных задач проводится исследование языка.

M M Лемма 2.2. Проблема достижимости заданной разметки из начальной ki 0i Ni в сети разрешима.

Ti Ti* Обозначим множество всех слов в алфавите как.

Теорема 2.3. Проблема определения обратимости слова Ti* M M 0i ki L(Ni ) языка разрешима.

Теорема 2.4. Проблема поиска оптимального слова Ti* M M в языке 0i ki L(Ni ) является разрешимой.

Таким образом, во второй главе предложены теоретические основы сжатия информации для прецедентов классов СЭ уровня абстрактной лексики. При этом динамическая информационная модель системы правил -грамматики сводит поиск последовательности преобразований с заданными свойствами к классическим задачам теории сетей Петри.

В третьей главе решается задача формирования и классификации отношений из множества R в составе тройки (1.1). Базовым здесь является прецедент класса СЭ, rij представляемый условием в (2.7) и (2.9). За основу его формализации берётся введённое Б.Х. Парти и В.Б. Борщевым описание семантики символьной цепочки, соответствующей ЕЯ-слову и обозначающей некоторое oi O, совокупностью -выражений, каoi ждое из которых описывает некоторое свойство понятия. Назовём далее указанную совокупность теорией лексического значения (ЛЗ) слова. Сама теория ЛЗ слова wi, заменяемого некоторым rule , определяется рекурсивно посредством упорядоченной соj вокупности троек и пар (3.2)–(3.4), связывающих обозначаемое словом wi понятие oi O с другими понятиями множества O через отношения из множества R :

Lm(wi ) = (wi, LM ), (3.1) при этом отдельный элемент Mp списка LM может представлять либо бинарное отношение между парой понятий {o1,o2} O :

Mp = (r2,o1,o2 ), (3.2) либо рекурсивно определяемое отношение произвольной арности:

Mp = (rn,o, LM ), (3.3) r либо Mp = (rc, LM ), (3.4) r rc {,&,¬} LM r2 rn где ; определяется по аналогии с LM ; и – символы (либо r символьные цепочки), обозначающие соответствующие отношения.

Для автоматизации получения знаний, представляемых формулами вида (3.1)– (3.4), в разделе 3.5 решается задача формирования множества R на основе множеств СЭ-фраз предметно-ограниченного ЕЯ. При этом отношения в рамках троек и пар (3.2)–(3.4) будут составлять подмножество множества R.

Рассмотрим Tsi Ts Tsi с точки зрения составляющих её символов. У каждой Tci Tfi выделяется неизменная часть, общая для всех Tsi Ts, и флективная часть. На Tfi множестве выражаются синтагматические зависимости, которые задаются синтаксическими отношениями и определяют возможность сосуществования словоформ wij, где в линейном ряду. Аналогично для слова имеем Wij = Wcij •Wfij Wij – последовательность его символов, Wcij Tci составляют символы неизменной части, именуемой далее основой, Wfij Tfi – символы флективной части (флексии), а символом “• ” обозначается конкатенация символьных последовательностей. Для формироваWij Tsi ния множества R попарным сравнением различных требуется найти:

Wcij Wfij Wij 1) и каждого при Wcij max;

Rq 2) отношение, определяющее допустимость сочетания (Wfij,Wfik ), k j.

J Введём индексное множество для неизменных частей всех слов, употребленных во всех Tsi Ts. Тогда упорядоченная совокупность индексов j J неизменных частей слов, присутствующих в Tsi Ts, будет моделью линейной структуры этой фразы (далее обозначается как Ls(Tsi )). Для построения множества R необходимо найти совокупность указанных моделей, отвечающих требованиям проективности.

h( j, Ls(Tsi )) Ls(Tsi ) Пусть – позиция индекса в модели. Тогда множество свяj Ls(Tsi ) зей для определяется как D : Tsi {( h( j, Ls(Tsi )), h (k, Ls(Tsi )) ): j k}.

dqi = ( h( j, Ls(Tsi )), h(k, Ls(Tsi ))) Определение 3.3. Связь является допустимой Ls(Tsi ) {Tsl, Tsm} Ts Ls(Tsl ) Ls(Tsm) для, если, l m, причем и, и содержат в ка{j,k} {k, j} ( j,k) честве подпоследовательности либо, либо. При этом пара содержательно соответствует одной синтагме.

Положим, что для Tsi Ts i = 1,K, Ts, все dqi D(Tsi ), удовлетворяют определению 3.3.

Определение 3.4. Будем считать модель Ls(Tsi ) проективной относительно D(Tsi ) множества R в (1.1), если qi Ls(Tsi ) qi = h( j, Ls(Tsi ))- h(k, Ls(Tsi )).

, где q=D(Tsi ) (VJ, IJ ) На основе. Элементами множестформируется граф синтагм Ui VJ ( j,k) {j,k} J ва вершин являются множества пар,, сгруппированных по некоE1 E2 VJ торому индексу k. Множества и, входящие в, будут соединены ребром из I {j,k,m} J ( j, k) E1 (k, m) E2 j m. Анализом (VJ, I ), если :, строится и J J (VJT, I ) дерево синтаксических связей. Формально JT VJT = J I = {( j, k): E VJT, ( j, k) E},. (3.11) JT k VJT E1 VJ При этом, в котором соответствует корню дерева (3.11), если E1 > 1 k пары индексов сгруппированы по k,, а не содержится ни в одной паре ин E2 VJ E1 Eдексов для :.

Замечание. Число дочерних узлов у корня дерева (3.11) полагается не менее двух, поскольку содержательный интерес для формирования R в (1.1) представляют ситуации действительности с двумя и более участниками.

Рассмотрим построение дерева (3.11) для случая расщепленного предикатного значения (РПЗ) как совокупности вспомогательного предикатного слова-связки и слова, называющего ситуацию. Пусть Tcnci ={wij : wij = •(Wij )}, где символом “• ” обозначается Wfij конкатенация, последовательно выполняемая над символами из. Положим, что Tpi Tsi определяющая последовательность Pcnci ={uk :uk = •(Wpk ), Wpk = Tpi}, Uk где Wpk Tsi – последовательность символов слова, для которого не выделены неизменная и флективная часть.

Теорема 3.1. Последовательность Pcnci содержит предикатное слово, если {j,0, k} Ls(Tsi ) p = Pcnci.

: {wij,u1,K,u, wik} Tcnci, где {u1,K,u }= Pcnci, p p Доказательство следует из определения корня дерева (VJT, I ) и проективности JT Ls(Tsi ) Pcnci. Пусть для выполняется условие теоремы 3.1.

Теорема 3.2. Слово uk Pcnci принадлежит расщеплённому предикатному значению, если Ts Ts Ls(Ts ) Ls(Tsi ) uk Pcnc, причём Pcnc :, а также отвечает j j j j условию теоремы 3.1. При этом ¬Tsk Ts Pcnck Pcnci и отвечает теореме 3.1,, где а Ls(Tsk ) Ls(Ts ) Ls(Tsk ) Ls(Tsi ) и.

j Доказательство следует из доказанной теоремы 3.1 и определения множества ребер в графе (VJ, I ).

J uk Замечание. При выполнении условия теоремы 3.2 может быть в том числе и зависимым словом в составе РПЗ.

Пусть Pcnci – последовательность слов, удовлетворяющих теореме 3.2, а Ts ={Tsi : Pcnci max} Ts Ts, при этом.

uk Pcnci Tsi Ts Для,, его неизменная и флективная часть выделяютUi ся сравнением последовательности Wpk его символов с аналогичными последова u Pcncl Tsl (Ts \ Ts ) тельностями Wp для всех :, а Pcncl отвечает условию U j j l Wpk = Wck •Wfk теоремы 3.1. При этом необходимо, чтобы 2 Wck > Wfk + Wf, где, j Wp = Wck •Wf а.

j j Замечание. Если Pcnci Pcnci , то um (Pcnci \ Pcnci) представляется вмеPcnci um сте со словом слева от него в (в этом случае рассматривается как предлог).

С учетом Pcnci дерево (3.11) преобразуется следующим образом:

1) корень изменяется с k = 0 на значение k для uk Pcnci с максимальной встреTcnci чаемостью в разных относительно заданной СЯУ;

2) левое поддерево остается без изменений;

j 3) правое поддерево перевешивается на узел для u Pcnci наименьшей встреj чаемости;

{ul 4) в паре,um} Pcnci дочерний узел у слова с меньшей встречаемостью.

Далее назовём дерево (3.11), преобразованное согласно указанным правилам, расширенным деревом (3.11). Заметим, что расширенное дерево (3.11) является дере{Tri вом-прецедентом для множества деревьев : Tsi = Synt(Tri )} из определения компонента Ts в составе тройки (1.1).

Таким образом, в третьей главе разработан принцип формирования и кластеризации семантических отношений выделением синтагматических зависимостей. Его программная реализация, представленная в приложении 1 диссертации фрагментами исходного текста на языке Visual Prolog 5.2, позволяет выделять произвольные отношения в рамках СЯУ за время, оцениваемое сверху как квадрат произведения числа СЭ-фраз и максимального числа слов во фразе.

Четвертая глава посвящена задаче минимизации оптимального слова в языке сети Петри, построенной из примитивов вида (2.8). Основу решения составляет выделение ситуаций синонимических замен на уровне абстрактной лексики (синонимов, конверсивов и расщеплённых предикатных значений) в последовательностях синтаксически соподчинённых слов:

Sqki ={v1,K,vn mki} (k,i),, (4.1) v1 – существительные.

где – предикатное слово; mki иvl {v2,K,vn } (k,i) Rq(v1,v2)= true Утверждение 4.2. При возможно установление указанного отноv1 vl {v3,K,vn mki} шения между и (k,i),.

Замечание. На основании утверждения 4.2 справедливо будет утверждать, что vl {v2,K,vn } в составе последовательности (4.1) обозначает некоторое понятие, (k,i) v1 mki значимое в ситуации, наравне с. Таким образом, если в задаче 1.1 в качестве Sqki множества G рассматривать множество Ts в составе тройки (1.1), то для любой {v2,K,vn } M(Tsi ) V (Tsi ) = (Sqki \ {mki}), а.

Uk (k,i),mki В главе рассматривается концептуальная кластеризация текстов методами АФП на основе последовательностей (4.1). Описываются алгоритмы формирования множеств M(Tsi ) V (Tsi ) и отношения на основе синтаксического разбора исходных, I gi G согласно постановке задачи 1.1, а также порядок замены конверсивов и расщепленных предикатных значений.

Обозначим функцию, которая ставит в соответствие каждому v V(Tsi ) предлог для связи с зависимым словом, как prep:v py ; функцию, ставящую в соответствие именному m M (Tsi ) символьное обозначение его падежа – как case : m cy. Соответствие между словом и его начальной формой зададим функцией norm. Пусть {Ts1,Ts2} – Tsпара анализируемых ЕЯ-фраз. Положим, для выделено множество последовательностей вида (4.1), обозначаемое как SQ1 ={Sqk1 : Sqk1 Ts1}, k =1,K, n(SQ1), аналогично для Ts2 имеем SQ2 ={Sqk2 : Sqk2 Ts2} k = 1,K, n(SQ1), но при этом либо, либо k = 1,K, n(SQ1)-1, где n(SQ1)= SQ1.

Утверждение 4.4. Применительно к паре {SQ1, SQ } имеет место конверсив, ес Sqk1 SQли для Sq SQнайдется такая, что при этом могут иметь место слеjSqk1 Sq дующие случаи взаимного соответствия и.

j1) Sqk1 ={v11, vk 2, vk3,K, vk,idx mk1}, Sq ={v21, vk 2, vk3, K, vk,idx mk1}.

(k,1), j2 (k,1), При этом norm(v11)= norm(v21) norm(vk2 )= norm(vk2),, причем в общем случае prep(v11) prep(v21) case(vk 2 ) case(vk 2), а. Функция idx(k,i) возвращает максимальное значение второго индекса при v.

2) Sqk1 ={v11,v12,vk2,vk3,K, vk,idx mk1}, Sq ={v21, vk2,vk3,K, vk,idx mk1}.

(k,1), j2 (k,1), Здесь norm(vk2 )= norm(vk2) case(vk 2 ) case(vk 2) (в общем случае), но при этом, для Sq Sqk1 SQ1: {Sqk1, Sq } соответствует случаю 1, Sqk1 Sqk1, а для j2 j Sqk1 Sq SQ2 {Sqk1, Sq } также удовлетворяет требованию случая 1 на :

j2 j Sq Sq стоящего утверждения и.

j2 jТаким образом, в четвёртой главе принцип формирования и экспериментальной оценки знаний в виде классов СЭ согласно постановке задачи 1.1 развит применительно к наличию конверсивов и РПЗ в анализируемых текстах. Критерием выбора возможного варианта замены конверсива либо РПЗ здесь является минимум многозначности при максимальном числе беспредложных смысловых валентностей слова, на которое производится замена. При этом степень многозначности определяется числом СЯУ, в которых фигурирует слово.

Пятая глава посвящена совместному использованию свойств расширенного дерева (3.11) и последовательности вида (4.1) для оценки семантической схожести текстов относительно СЯУ, порождаемых независимо друг от друга.

J В разделе 5.1 индексное множество, рассмотренное в разделе 3.5, определяется для неизменных частей всех слов, употребленных в более чем одной фразе из Ts множества в (1.1), с учетом возможного присутствия слова не во всех фразах указанного множества. При этом удвоенная длина общей неизменной части пары слов всегда больше суммы длин флективных частей.

Ts J Пусть LS есть множество моделей линейных структур фраз из на.

{j1, j2} J соответствует словам-синонимам, если Теорема 5.1. Пара индексов {Ls(Ts1), Ls(Ts2 )} LS : Ls(Ts1)= J1 •{j1}• J2 и Ls(Ts2)= J1 •{j2}• J2, где J1 J, J2 J, а “ • ” есть операция типа конкатенации над множеством J.

Пусть PJ – множество пар, отвечающих теореме 5.1. Заменим индексы, воLS шедшие в пары из PJ, на некоторые j ( \ J) во всех моделях из. Обозначим преобразованное LS как LS, множество заменяемых индексов – как JP, а множест во индексов, на которые идёт замена, – как JP, JP JP = . Фактически каждая LS (J модель в задается на множестве \ JP) JP.

Пусть JN есть множество индексов с максимальной встречаемостью в разных Tsi моделях из LS, Ls (Tsi ) LS Ls2(Tsi ) – модель линейной структуры относи, а тельно JN. Обозначим множество моделей второго вида как LJN. Положим также, j j что имеется LS LS такое, что для всех Ls1(Tsi ) LS модели Ls2(Tsi ) одинаковы и соответствуют некоторой Ls2(Ts ) LJN, Ts Ts.

j j Обозначим множество индексов j JN с максимальной встречаемостью в разj личных Ls (Tsi ) LS, как JA. Местоположение индекса в расширенном дереве (3.11) и флективные части для слов с индексами из ((J \ JP) JP )\ (JN JA){0} определяются Pcnci аналогично словам из описанным в разделе 3.5 способом. При этом вместо индексов с ненулевым значением рассматриваются j (JN JA).

Для численной оценки схожести СЯУ, каждая из которых описывается тройкой (1.1), в разделе 5.2 вводится представление СЯУ в виде совокупности трёх составляющих, называемой в теории АФП формальным контекстом (ФК):

Ks = (Gs, Ms, Is), (5.1) Ts Ts w где Gs включает основы слов : wk Tsi, Tri : Tsi = Synt(Tri ), при UTsi U j i =1 i= w этом соответствует дочернему, а wk - родительскому узлу в Tri ( wk есть синтакj w w сически главное для, - синтаксически зависимое по отношению к wk в дереве j j Tri ); mi Ms есть символьная цепочка, понимаемая как некоторый признак некоторого gi Gs, сами признаки могут быть следующих видов, составляющих непересекающиеся подмножества множества Ms и обозначаемых далее посредством соответствующего нижнего индекса:

- указания на основу синтаксически главного слова (индекс 1);

- указания на флексию главного слова (индекс 2);

- связи “основа – флексия” для синтаксически главного слова (индекс 3);

- сочетания флексий зависимого и главного слова (индекс 4). После флексии главного слова через двоеточие при необходимости указывается предлог для связи главного слова с зависимым;

- указания на флексию зависимого слова (индекс 5).

Посредством Is Gs Ms отношения из множества R в (1.1) разбиваются на классы по сходству основы главного, флексии зависимого слова, а также характеру сочетаний основ и флексий. Для численной оценки схожести СЯУ выполняется редукция ФК (5.1) исключением объектов и признаков РПЗ согласно правилу, очевидным образом вытекающему из теоремы 5.1 и утверждения 4.4.

Пусть {m1,m2,m3} M1 m1 m2 m3 m. Если, и взаимно различны, то соответm2 mствует указанию на основу главного, – зависимого слова РПЗ, а – на основу однословного эквивалента РПЗ при выполнении трех условий:

1. g1 Gs : Is(g1, m1)= true Is(g1, m3) = false m2 = pbs • g1. Здесь есть,, pbs обозначение символьной константы “главное – основа:”.

g1 g2 g2. {g2, g3} Gs, при этом объекты, и взаимно различаются, а Is(g2, m3) Is(g3, m3) (Is(g2,m1) Is(g3, m2) Is(g2, m2) Is(g3,m1)) = true.

3. Не существует других троек объектов, для которых признак m3 занимал бы m1 mместо либо, либо в вышеуказанных соотношениях.

Помимо редукции формальных контекстов (5.1) отдельных СЯУ, для численной оценки их схожести, представленной далее в разделе 5.5, вводится представление тезауруса ПО в виде формального контекста:

Kth = (Gth, Mth, Ith), (5.2) Gth где множество состоит из символьных пометок отдельных СЯУ. Множество Mth включает элементы множеств признаков формальных контекстов вида (5.1) всех Mth gth Gth. Кроме того, в составе выделяются:

- множество указаний на объекты формальных контекстов вида (5.1), генериGth руемых для элементов (обозначим далее это множество как M );

- множество связей “основа – флексия” для зависимого слова ( M );

- множество сочетаний основ зависимого и главного слова ( M ).

SПусть СЯУ описывается тройкой вида (1.1) и соответствует заведомо корSректному ЕЯ-описанию некоторого факта заданной ПО. Положим также, что – Sанализируемая СЯУ. Обозначим ФК вида (5.1): для – как Ke, а для S2 – как Kx, где Ke = (Ge, Me, Ie) Kx = (Gx, Mx, Ix) Ie Ge Me Ix Gx Mx, соответственно.

и, и p pb Введем обозначения для констант: – для “флексия:”, – для “основа:”. Результат fl M M M Me5 MU объединения,,, Me4, Mx4, и Mx5, обозначим как.

6 7 S1 SОпределение 5.1. Будем считать, что и связаны отношением схожести, если каждому объекту gx Gx соответствует такой объект ge Ge, что выполняется одно из следующих условий:

ge (1) gx = ge и любой признак me Me объекта относится и к gx.

(2) gx = ge, при этом условие (1) не выполняется, но существует gthGth, обладающий признаком mth1 M mth1 = pb • ge при обязательном выполнении :

следующих условий:

( me Me5 : me = p • fe) ( mth17 M : mth17 = ge • ":" • fe), fl fl fl (Ie(ge, me ) Ix(ge, me )) Ith( gth, mth17 ) при этом ;

fl fl ( mebs Me1 : mebs = pbs • be) ( mth18 M8 : mth18 = ge • ":" • be), Ie( ge, mebs ) Ith(gth, mth18) при этом ;

( mxbs Mx1 : mxbs = pbs • bx) ( mth28 M8 : mth28 = ge • ":" • bx), Ix( ge, mxbs ) Ith( gth, mth28) при этом.

mth ( Mth \ MU ) Кроме того, для истинно:

Ith( gth, mth) (Ie( ge, mth) Ix( ge, mth)). (5.3) (3) gx ge, но существует объект gthGth, обладающий признаками mth1 M :

mth1 = pb • ge и mth2 M : mth2 = pb • gx, при этом для любого признака mth ( Mth \ MU ) справедливо:

Ith( gth, mth) (Ie( ge, mth) Ix( gx, mth)). (5.4) gth1 Gth (4) gx ge, но существует объект, обладающий признаком mth1 M :

mth1 = pb • ge, а для me(Me4 Me5) верно:

( Ith( gth1, mth1) Ie( ge, me)) Ith( gth1, me).

При этом существуют признаки mth2 M mth2 = pb • gxg и :

mx ( Mx1 Mx2 Mx3), для которых верно:

(Ith(gth1, mth2) Ix( gx, mx)) Ith(gth1, mx), (gxg, отвечает условию (3) при генерации ФК вида (5.1) где gxg gx, а пара ge) для объекта gth1. В то же время существует объект gth2 Gth, относительно которого пара (gx, gxg) также будет отвечать условию (3) настоящего определения. Генеgthрируемый при этом формальный контекст вида (5.1) для обозначим как Kxg, Kxg = (Gxg, Mxg, Ixg).

SЗамечание. Оценка схожести ситуаций и S2 включает сравнение последовательностей двух и более соподчиненных слов. Выполнимость условий определения 5.1 анализируется только для главных слов. Последовательности считаются заменяемыми, если возможно их построение по формальному контексту pbs (5.2) на наборе признаков с префиксом для одной и той же СЯУ.

С учётом сопоставления согласно определению 5.1 объектов формальных контекстов Ke = (Ge, Me, Ie) Kx = (Gx, Mx, Ix) и, из которых удалена информация РПЗ, Sсхожесть ситуаций и S2 численно оценивается как n spck k=spc(S1, S2 ) =, (5.5) n spck (gxk, ge) где n = Gx, а есть значение схожести объектов в паре. В зависимости от spck выполнимости условий определения 5.1 значение либо равно 1,0, если для пары (gxk, ge) выполнено условие (1), либо вычисляется по формуле:

BLCS Dc - log2 1 - , (5.6) pathC B1 \ BLCS + B2 \ BLCS + BLCS (gxk, ge) если для пары выполнено условие (2), (3) либо (4).

xe Во втором случае имеем гипотетическую решетку ФП (обозначим её как ), в которой объемы объектных ФП (формальных понятий с одним объектом в составе {gxk } {ge} {gxk } {ge} объема) есть и (при выполнении условия (2) или (3)) либо, и Dc {gxg} (при выполнении условия (4)). Значение равно числу сравнимых формальных xe понятий, составляющих цепочку с вершинным ФП решетки в качестве максимального ФП и наименьшим общим суперпонятием (НОСП) для объектных формальных поxe нятий решетки – в качестве минимального ФП. Множество BLCS есть содержание (множество признаков всех объектов) этого НОСП, а число pathC равно минимальному числу ФП в цепочке, которой принадлежит вершинное ФП, наименьшее ФП решетки xe BLCS.

и формальное понятие с содержанием Dc = В случае выполнения любого из условий (2), (3) или (4) значение.

При выполнении условия (2) либо (3) pathC = 4, а в BLCS войдут признаки mth (Mth \ MU ), для каждого из которых справедливо либо соотношение (5.3) (при выполнении условия (2)), либо соотношение (5.4) (при выполнении условия (3)). Множества B1 B и в этом случае определяются следующим образом:

B1 = { me : me (Me1 Me2 Me3), Ie( ge, me) = true}, B2 = { mx : mx (Mx1 Mx2 Mx3), Ix( gxk, mx) = true}.

Доказательство выполнимости условия (4) обычно происходит в несколько итераций. При этом в ходе каждой последующей итерации число признаков, не являющихся общими для gxk и gxg, всегда меньше, чем в предыдущей. Начальное значение pathC, равное 4, в ходе каждой итерации увеличивается на 1, а B1 = {mxg : mxg (Mxg1 Mxg2 Mxg3), Ixg( gxg, mxg) = true}, B2 = {mx : mx (Mxg1 Mxg2 Mxg3), Ixg( gxk, mx) = true}, где (Mxg1 Mxg2 Mxg3) Mxg в соответствии с показанным выше разделением множества признаков формального контекста вида (5.1), а BLCS = B1 B2.

Далее в разделе 5.5 приводится пример интерпретации ТЗОФ с вычислением оценок (5.5).

Таблица Сопоставление ответов правильному варианту ответы правильный вариант анализируемый вариант 1 2 3 4 1 2 основа флективная часть + предлог заниженн ости ости ость ость ость ость ости эмпирическ ого ого ого ого – – – риск а а а а – – – средн – – – – ей ей ей ошибк – – – – и:на и:на и:на обучающ – – – – ей ей ей выборк – – – – е е е переобучении е – – ем ем – е переподгонк – а ой – – ой – связан – – а:с а:с а:с а:с – привод ит:к ит:к – – – – ит:к SПусть задана четырьмя вариантами правильного ответа на вопрос о связи переобучения и эмпирического риска. Допустим, имеются три варианта S2 (см. табл. 1), Sсвязанные отношением схожести с по определению 5.1. Фрагмент тезауруса ПО “Математические методы обучения по прецедентам”, задействованный в доказательстве схожести СЯУ, представлен в табл. 2 ЕЯ-описанием соответствующих фактов.

Таблица Факты предметной области для фрагмента тезауруса № п/п 1 2 3 основа флективная часть + предлог заниженн ость ость ости ости – ость ости ость ость оценк – – – – – и и и и эмпирическ ого – ого – – – – – – риск а – а – – – – – – средн – ей – ей – – – – – ошибк – и:на – и:на – – – и и распознавани – – – – – – – я я обучающ – ей – ей – – – – – выборк – е – е – – – – – переусложнени ем ем е е – – – – – модел и и и и – – – – – уменьшени – – – – е – – – – обобщающ – – – – ей ей ей – – способност – – – – и и и – – выбор – – – – – – – ом а решающ – – – – его – – его его дерев – – – – а – – – – правил – – – – – – – а а алгоритм – – – – – а а – – переподгонк – – – – ой ой а – – переобучени – – – – – ем е – – связан а:с а:с – – о:с а:с – а:с – вызван а а – – – а – – – обусловлен а а – – о – – – – привод – – ит:к ит:к – – ит:к – – завис – – – – – – – – ит:от Использованные в эксперименте формальные контексты строились по результатам синтаксического разбора фраз, представленных в табл. 1, программой “Cognitive SDwarf”. Как видно из табл. 3, значение схожести будет больше у того варианта, признаки объектов у ФК которого разделяются большим числом объектов формальноSго контекста ситуации относительно ФК тезауруса.

Таблица Оценка близости ответа правильному варианту spc(S1, S2 ) Вариант BLCS B1 \ BLCS B2 \ BLCS 1 0,9167 7,7500 0,7500 0,002 0,7917 7,0000 2,0000 0,503 0,8750 7,7500 0,7500 0,75Таким образом, в пятой главе предложен метод численной оценки семантической схожести текстов предметно-ограниченного ЕЯ относительно ситуаций его употребления. При этом формальный контекст (5.1) составляет основу выделения классов семантических отношений на базе подхода, изложенного в разделе 3.5.

Шестая глава диссертации посвящена разделению и сжатию баз предметных и языковых знаний с применением комплексной методики формирования и кластеризации семантических отношений, изложенной в разделах 3.5, 4.1, 5.2 и 5.3. Здесь вводится понятие смыслового эталона СЯУ и рассматриваются два приближенных метода его построения с представлением формальным контекстом вида (5.1).

Первый метод основан на подходе к выделению и классификации синтагматических зависимостей, предложенном в разделе 3.5.

Пусть Ke = (Ge, Me, Ie) есть искомый формальный контекст эталона. Если ( j, k) E b bk {j, k} J :

в расширенном дереве (3.11), то для основ и и флексий j f fk Ge Me и соответствующие им элементы множеств и, а также элементы отноj Ie шения, будут сформированы следующим образом.

j Случай 1. Индекс k соответствует родительскому узлу, индекс – дочернему узлу в расширенном дереве (3.11), а линейная структура ЕЯ-фразы не содержит предj лог между словами с индексами и k.

При этом в состав множества признаков Me формального контекста Ke = (Ge, Me, Ie) m1 = pbs • bk m2 = pbf • fk m3 = p • f будут включены признаки,, fl j b Ge и m4 = f • ":" • fk, основа войдет в множество объектов указанного ФК, а паj j ры (b,m1) (b,m2) (b,m3),m4) войдут в отношение.

,, и (b Ie j j j j k j Случай 2. Индекс соответствует родительскому узлу, индекс – дочернему узлу в расширенном дереве (3.11), линейная структура ЕЯ-фразы содержит предлог j k p между словами с индексами и.

y m1 mВ этом случае признаки и формируются аналогично случаю 1, m2 = pbf • fk • ":" • py m4 = f • ":" • fk • ":" • p (b, m1) (b, m2) (b,m3),, пары,, и j y j j j (b, m4) Ie включаются в отношение.

j Второй метод основан на построении ФК эталона по совокупности ФК вида (5.1) для отдельных СЭ-фраз, задающих СЯУ. При этом формальные контексты указанной совокупности строятся по результатам разбора фраз внешней программой синтаксического анализа. Для отбора объектов и признаков из формальных контекстов фраз вводятся коэффициенты сжатия информации относительно ФК вида (5.1).

Коэффициент сжатия информации по основам равен:

nbs ksi i=ks =, (6.4) nbs nbsi nmf nasijk j=1 k=где ksi = ; nbs = M1 ; nmf = M ;

nbsi nbsi = {g Gs : Is(g, m) = true, m M1, m = pbs • bi} ;

nasijk = {mk M3 : Is(g,mk)= true, mbf M, mbf = pbf • fk, mk = bi • ":" • fk} ;

j pbf соответствует символьной константе “главное – флексия:”.

Аналогично определяется коэффициент сжатия информации по флексиям:

nfs kfi i =kf =, (6.5) nfs nfsi nmf naf ijk j=1 k=nfsi = {g Gs : Is(g,m) = true, m M5, m = p • fi} где kfi = ; nfs = M5 ; ;

fl nfsi nafijk = {mM : Is(g, m)= true, mbf M, mbf = pbf • fk, m = fi •":"• fk }.

4 j В разделе 6.2 представлена пара алгоритмов (алгоритмы 6.1 и 6.2), реализующих построение формального контекста эталона. Из них алгоритм 6.1 выполняет отбор объектов и признаков из формальных контекстов отдельных фраз по максимуму коэффициентов (6.4) и (6.5) результирующего ФК. Признак будет включен в множество признаков ФК эталона, если он входит в пятерку признаков {m1, m2, m3, m4, m5}, в которой m1 = pbs • b, m2 = pbf • f1, m3 = b• ":"• f1, m4 = p • f2, m5 = f2 • ":"• f1. При fl этом основе b не должен соответствовать объект ФК, если есть другой объект этого же ФК, который обладает одновременно признаком m1 и некоторым другим признаком m = pbs • b, где b1 b, а основе b1 не соответствует ни одного объекта этого ФК при том, что признак m относится более чем к одному объекту.

Замечание. Последовательности трех и более соподчиненных слов, встречающиеся более чем в 49% исходных СЭ-фраз, выделяются предварительно на этапе синтаксического разбора. Для каждой такой последовательности строится свой ФК вида (5.1), который будет объединен с ФК эталона. Данный шаг предпринят в целях нежелательного занижения коэффициентов (6.4) и (6.5) при выполнении алгоритма 6.1.

Таблица Ситуации языкового употребления i Фраза максимальной длины из определяющих СЯУ Нежелательное переобучение является причиной заниженности средней величины ошибки алгоритма на обучающей выборке.

Тренировочная выборка, на ней проявляется эффект заниженных значений средней ошибки, причиной же является переусложненная модель.

Контрольная выборка, принятие деревом решения на ней будет с большей вероятностью ошибки именно по причине переподгонки.

Оценка частоты ошибок на выборке, взятой в качестве контрольной, может для алгоритма оказаться заниженной по причине переподгонки.

5 Заниженность оценки ошибки распознавания зависит от выбора правила принятия решений.

Число закономерностей алгоритмической композиции влияет на частоту ошибок логического классификационного алгоритма на контрольной выборке.

Качественно процесс формирования смысловых эталонов характеризуется соотношением размеров тезауруса, задаваемого формальным контекстом (5.2), при построении его на основе формальных контекстов вида (5.1) для всех СЭ-фраз каждой СЯУ и на основе эталонов при заданном числе СЯУ в тезаурусе. Пример указанного соотношения приведен на рис. 1 для СЯУ из табл. 4. Часть указанных СЯУ была задействована при построении тезауруса, представленного в табл. 2.

Рис. 1. Размер тезауруса для разного числа СЯУ Для сравнения в табл. 5 представлены значения числа СЭ-фраз, задающих ситуацию языкового употребления ( N1 ), фраз, представляющих эталон ситуации языкового употребления ( N ), исходного числа объектов ( N3 ) и признаков ситуации языкового употребления ( N ), числа объектов ( N5 ) и признаков эталона ( N ).

4 Таблица Смысловые эталоны 1 2 3 4 5 i N1 56 28 29 30 6 N2 8 9 7 9 1 N3 18 17 15 13 12 N4 177 186 173 162 94 N5 9 12 12 11 8 N 82 90 80 69 35 Точность формирования эталона повышается введением согласования знаний относительно разных СЯУ, которое определятся следующим образом. Пусть b – осj нова слова w, f – его флексия, выделенные относительно СЯУ S. Предположим, j j что w = b1 • f1 suf для СЯУ S1, w = b2 • f2 для СЯУ S2, причём b1 = b2 • suf, где содержит минимум один символ. Тогда относительно S1 основа b1 будет заменена на fb2, флексия – на f3 = suf • f, но только в том случае, если частоты встречаемости флексий f3 и f2 в отношениях, представляемых формальным контекстом (5.2) тезауруса заданной ПО, не уменьшаются при выполнении указанных замен.

Рис. 2. Сокращение размеров тезауруса согласованием знаний по разным СЯУ Рис. 3. Сжатие информации тезауруса (эталоны выделены) Диаграмма на рис. 2 иллюстрирует дополнительное сокращение размеров тезауруса в среднем на 1,5% при выполнении указанной процедуры для ситуаций языкового употребления из табл. 4. Рост специфичности формальных понятий в решётке тезауруса иллюстрируется постепенным уменьшением коэффициентов сжатия информации (рис. 3), аналогичных коэффициентам (6.4) и (6.5) для ФК вида (5.1).

Использование СЯУ в качестве единицы предварительного сжатия информации позволяет сократить резервируемый объём памяти ЭВМ для хранения текстов с учётом возможных видов синонимии. На сегодняшний день за такую оценку для отдельной фразы из n слов берётся значение vol(n)= n!. Метод и алгоритмы выделения эталона СЯУ, представленные в диссертации, позволяют оценивать данный объём сверху как vol1(n) = l1 n и снизу как vol2(n) = l2 n, где l1 – число СЭ-фраз из задающих СЯУ, из которых l2 определяют эталон. Соотношение указанных оценок для СЯУ из табл. 4 представлено в табл. 6.

Таблица Оценка объёма памяти для хранения ЕЯ-фразы 1 2 3 4 5 i n 12 15 16 17 10 vol(n) 4.790 108 1.3081012 2.092 1013 3.557 1014 3.629 106 8.71810vol1(n) 648 795 416 442 20 vol2(n) 168 225 80 187 20 В разделе 6.4 приводится описание архитектуры системы контроля знаний, реализующей предложенные в работе принципы, методы и алгоритмы. На рис. 4 представлен её интерфейс, а также интерпретация ответа на вопрос о влиянии переподгонки на частоту ошибок дерева принятия решений. Демо-версия системы представлена вместе с полным текстом работы в подразделе “Участник:Dmitry.Mikhaylov” раздела “Страницы участников” профессионального информационно-аналитического ресурса www.machinelearning.ru, акты о результатах опытной эксплуатации приводятся в приложении 2. Были реализованы следующие компоненты: формирование эталонов и базы лексико-синтаксических связей на основе формальных контекстов (5.1) и (5.2), тезаурус, подготовка и выполнение теста. В целях более гибкой интерпретации ответа испытуемого оценки вида (5.5) вычисляются для случаев неполного ответа, орфографических ошибок, лишних слов, которые не фигурируют в лексикосинтаксических связях, представленных в базе знаний системы.

Рассмотрим более подробно каждый из трёх указанных случаев.

Случай 1. Неполный ответ – для всех слов и словосочетаний из ответа испытуемого нашлись прообразы в наиболее близком варианте правильного ответа, но для части слов правильного ответа не нашлось прообразов в ответе испытуемого.

Ненулевое значение оценки (5.6) будет только для тех из упущенных слов, которые в варианте правильного ответа являются синтаксически зависимыми по отношению к некоторым другим словам, присутствующим в анализируемом ответе. Здесь мы имеем обобщение оценки (5.6) на случай, когда для одного из сравниваемых объектов Mx(основы упущенного слова) не определены признаки из множеств (указание на Mxфлексию зависимого слова), (сочетание флексий зависимого и главного слова), M M (указание на основу зависимого слова), (сочетание основы и флексии зави6 M симого слова), (сочетание основ зависимого и главного слова).

Случай 2. Орфографические ошибки (из допустимых) – слово из ответа испытуемого и слово из варианта правильного ответа являются формами одного и того же слова, допустимыми в рамках одной лексико-синтаксической связи из известных системе. В этом случае оценка (5.6) для рассматриваемой пары слов вычисляется аналогично общему случаю, описанному в разделе 5.5.

Случай 3. “Лишние” слова. Здесь имеется в виду ситуация, когда все слова из варианта правильного ответа нашли свой прообраз в ответе испытуемого, но в анализируемом ответе имеются слова, которые не нашли себе прообразов в правильном “варианте” (в том числе и на уровне словосочетаний). В этом случае ответ не будет засчитан как неверный только тогда, когда “лишние” слова не фигурируют ни в одной лексико-синтаксической связи из представленных в базе знаний системы. При этом значение оценки (5.6) для каждого “лишнего” слова принимается равным нулю.

Рис. 4. Пример интерпретации ответа на ТЗОФ Таким образом, в шестой главе предложен метод компрессии текстовой базы знаний на основе смысловых эталонов и последующего разделения предметных и языковых знаний. При этом наибольший интерес для задач тестирования знаний представляет выделение смыслового эталона на множестве СЭ-фраз на основе принципа формирования и кластеризации семантических отношений, разработанного автором и описанного в разделах 3.5 и 5.1.

Заключение Основные научные результаты работы в области разработки принципов и методов извлечения данных из текстов на естественном языке состоят в следующем.

1. На основе теории анализа формальных понятий предложена методика автоматизированного формирования и экспериментальной оценки знаний, фиксируемых совокупностями классов семантической эквивалентности текстов в рамках ситуаций употребления естественного языка.

Новизной решения является теоретико-решеточное представление СЯУ в качестве информационной единицы тезауруса предметной области. За счёт использования формального понятия в качестве базового элемента информационного ресурса предложенное представление тезауруса решеткой формальных понятий позволяет оперировать данными на семантическом уровне без потери или недопустимого упрощения объектов и их признаков.

2. Сформулирован и теоретически обоснован принцип формирования и кластеризации семантических отношений на основе описаний ситуаций действительности множествами эквивалентных по смыслу фраз предметно-ограниченного подмножества естественного языка.

Новизна решения заключается в сравнении символьных последовательностей, составляющих эквивалентные по смыслу описания одного и того же объекта (ситуации) на заданном языке, с выделением изменяемых и неизменяемых частей для последующего анализа взаимного расположения фрагментов последовательностей в языковых конструкциях с разными логическими акцентами относительно одной и той же ситуации. Предложенная методика выявления закономерностей сосуществования словоформ в линейном ряду позволяет выделять для заданного естественного языка лучший способ выражения нужной мысли, который составляет основу смыслового эталона. Сказанное актуально как для разработки стратегий и правил синтаксического анализа, так и для ролевой идентификации сущностей при формировании признаков сравниваемых текстов. Предложенный принцип формирования и кластеризации семантических отношений реализован в рамках демонстрационного варианта системы контроля знаний.

3. Разработаны метод и алгоритмы автоматизированного формирования смыслового эталона в виде решётки формальных понятий, а также метод компрессии текстовой базы знаний на основе выделенных эталонов.

Вне зависимости от пути формирования эталона его выделение сокращает размер базы знаний для оценки семантической схожести текстов предметноограниченного естественного языка текстов не менее чем на 40–50%.

В области разработки и исследования методов и алгоритмов анализа текста основной научный результат работы есть метод численной оценки семантической схожести текстов предметно-ограниченного естественного языка относительно ситуаций его употребления.

При этом семантическая схожесть текстов оценивается по числу признаков, которые характеризуют сочетаемость слов и разделяются объектами сравниваемых СЯУ относительно тезауруса, что немаловажно, в частности, при интерпретации результатов теста открытой формы в системах контроля знаний.

В области разработки основ математической теории языков и грамматик основной научный результат – это решение задачи построения системы целевых выводов в грамматике деревьев (-грамматике).

В отличие от традиционных подходов к формализации преобразований помеченных деревьев, с целью нахождения последовательности преобразований с заданными свойствами автором исследуется динамика функционирования совокупности правил -грамматики в рамках её динамической информационной модели на основе аппарата ограниченных сетей Петри. Такое решение учитывает недетерминированный характер порождения множества помеченных деревьев, а построение целевого вывода сводится к классическим задачам теории сетей Петри.

Таким образом, основные научные результаты диссертации можно квалифицировать как решение научной проблемы автоматизации накопления информации о языке как средстве передачи знаний от человека к человеку, имеющей важное значение для обработки данных на ЭВМ в социально-экономических, научных и культурных задачах.

Список основных публикаций автора по теме диссертации Монография 1. Михайлов Д.В. Теоретические основы построения открытых вопросно-ответных систем. Семантическая эквивалентность текстов и модели их распознавания: монография / Д.В. Михайлов, Г.М. Емельянов; НовГУ им. Ярослава Мудрого. Великий Новгород, 2010. 286 с.

Статьи в рецензируемых научных журналах, включенных в реестр ВАК МОиН РФ 2. Михайлов Д.В. Распознавание сверхфразовых единств при установлении эквивалентности смысловых образов высказываний в общей задаче моделирования языковой деятельности / Г.М. Емельянов, Д.В. Михайлов // Известия СПбГЭТУ “ЛЭТИ”, сер. “Информатика, управление и компьютерные технологии”. СПб., 2003. Вып. 1. С. 65–73.

3. Михайлов Д.В. Информационно-логическая модель системы правил -грамматики / Д.В. Михайлов, Г.М. Емельянов // Известия СПбГЭТУ “ЛЭТИ”, сер. “Информатика, управление и компьютерные технологии”. СПб., 2003. Вып. 3. С. 96–102.

4. Михайлов Д.В. Построение модели объекта информационного пространства применительно к исследованию динамики функционирования -грамматик / Д.В.

Михайлов, Г.М. Емельянов // Вестник Новгородского государственного университета имени Ярослава Мудрого, сер. “Технические науки”. 2004. № 26. С. 131–136.

5. Михайлов Д.В. Представление смысла в задаче установления семантической эквивалентности высказываний / Д.В. Михайлов, Г.М. Емельянов // Вестник Новгородского государственного университета имени Ярослава Мудрого, сер. “Технические науки”. 2004. № 28. С. 106–110.

6. Михайлов Д.В. Семантическая кластеризация текстов предметных языков (морфология и синтаксис) / Д.В. Михайлов, Г.М. Емельянов // Компьютерная оптика.

2009. Т. 33, № 4. С. 473–480.

7. Михайлов Д.В. Формирование смысловых эталонов и интерпретация результатов открытых тестов в системах контроля знаний / Д.В. Михайлов // Вестник Новгородского государственного университета имени Ярослава Мудрого, сер. “Технические науки”. 2011. № 65. С. 83–87.

8. Михайлов Д.В. Смысловые эталоны в моделях распознавания и компрессии текстов / Д.В. Михайлов // Вестник Новгородского государственного университета имени Ярослава Мудрого. 2012. № 68 (в печати).

9. Mikhailov D. V. Synonymic Transformations in Analysis of Semantic Pattern Equivalence at the Superphrase Unity Level / G. M. Emelyanov, D. V. Mikhailov, E. I. Zaitseva // Pattern Recognition and Image Analysis. 2003. Vol. 13, N 1. P. 21–23.

10. Mikhailov D. V. Recognition of Superphrase Unities in Texts while Establishing Their Semantic Equivalence / G. M. Emelyanov, D. V. Mikhailov, E. I. Zaitseva // Pattern Recognition and Image Analysis. 2003. Vol. 13, N 3. P. 447–451.

11. Mikhailov D. V. Updating the Language Knowledge Base in the Problem of Equivalence Analysis of Semantic Images of Statements / G. M. Emelyanov, D. V. Mikhailov // Pattern Recognition and Image Analysis. 2005. Vol. 15, N 2. P. 384–386.

12. Mikhailov D. V. Filling in the Government-Pattern Dictionary in the Analysis of Equivalence for Sense Images of Statements / G. M. Emel’yanov, D. V. Mikhailov // Pattern Recognition and Image Analysis. 2007. Vol. 17, N 2. P. 268–273.

13. Mikhailov D. V. Clusterization of Semantic Meanings in the Problem of Sense Equivalence Situation Recognition / G. M. Emel’yanov, D. V. Mikhailov // Pattern Recognition and Image Analysis. 2009. Vol. 19, N 1. P. 92–102.

14. Mikhailov D. V. Formation and clustering of noun contexts within the framework of Splintered Values / D. V. Mikhailov, G. M. Emelyanov, N. A. Stepanova // Pattern Recognition and Image Analysis. 2009. Vol. 19, N 4. P. 664–672.

15. Mikhailov D. V. Sense’s Standards and Machine Understanding of Texts in the System for Computer-Aided Testing of Knowledge / G. M. Emelyanov, D. V. Mikhailov // Pattern Recognition and Image Analysis. 2011. Vol. 21, N 4. P. 705–719.

16. Mikhailov D. V. Semantic Clustering and Affinity Measure of Subject-Oriented Language Texts / D.V. Mikhailov, G.M. Emel’yanov // Pattern Recognition and Image Analysis. 2010. Vol. 20, N 3. P. 376–385.

17. Корнышов А.Н. Концептуально-ситуационное моделирование высказываний естественного языка в задаче анализа их смысловой эквивалентности / А. Н. Корнышов, Д.В. Михайлов // Вестник Новгородского государственного университета имени Ярослава Мудрого, сер. “Технические науки”. 2005. № 34. С. 76–80.

18. Emelyanov G.M. Development of Recognition System of Analysis of Semantic Images of Natural Language Statements / G.M. Emelyanov, E.I. Zaitseva, D.V. Mikhailov, E.P. Kurashova // Pattern Recognition and Image Analysis. 2003. Vol. 13, N 2. P. 251– 253.

19. Emelyanov G. M. Semantic Relation Analysis for Classification of the Meaning Patterns of Utterances / G. M. Emelyanov, D. V. Mikhailov, N. A. Stepanova // Pattern Recognition and Image Analysis. 2005. Vol. 15, N 2. P. 382–383.

20. Emel’yanov G. M. Analysis of Semantic Relations in Classification of Sense Images of Statements / G. M. Emel’yanov, D. V. Mikhailov, N. A. Stepanova // Pattern Recognition and Image Analysis. 2007. Vol. 17, N 2. P. 274–278.

Доклады на международных конференциях 21. Михайлов Д. В. Применение аппарата ограниченных сетей Петри для построения динамической модели естественного языка / Г. М. Емельянов, Е. И. Зайцева, Д. В. Михайлов // Интеллектуализация обработки информации: тезисы докладов Международной научной конференции / Крымский научный центр НАН Украины, Таврический национальный университет. Симферополь, 2002. С. 121–122.

22. Михайлов Д. В. Установление смысловой эквивалентности высказываний: на пути к решению проблемы / Г. М. Емельянов, Д. В. Михайлов // Интеллектуализация обработки информации: тезисы докладов Международной научной конференции / Крымский научный центр НАН Украины. Симферополь, 2004. С. 70.

23. Михайлов Д. В. Модель сортовой системы языка в задаче построения семантического образа высказывания на уровне глубинного синтаксиса / Д. В. Михайлов, Г. М. Емельянов // Интеллектуализация обработки информации: тезисы докладов Международной научной конференции / Крымский научный центр НАН Украины.

Симферополь, 2006. С. 148–150.

24. Михайлов Д. В. Формирование и кластеризация понятий на основе множества ситуационных контекстов / Д. В. Михайлов, Г. М. Емельянов, Н. А. Степанова // Интеллектуализация обработки информации: тез. докл. Междунар. науч. конф. / Крымский научный центр НАН Украины. Симферополь, 2008. С. 168–170.

25. Михайлов Д. В. Семантическая схожесть текстов в задаче автоматизированного контроля знаний / Д. В. Михайлов, Г. М. Емельянов // 8-я Международная конференция “Интеллектуализация обработки информации” (ИОИ-2010): Сборник докладов. М., 2010. С. 516–519.

26. Mikhailov D. V. Updating of the language knowledge base in the problem of statement’s semantic images’s equivalence’s analysis / G. M. Emelyanov, D. V. Mikhailov // 7th Int.

Conf. on Pattern Recognition and Image Analysis: new Information Technologies (PRIA-72004). Conf. Proc. / SPbETU. St. Petersburg, 2004. Vol. II. P. 462–465.

27. Mikhailov D. V. Formalization of the word’s lexical meaning in a problem of recognition of natural language’s statements’s synonymy’s situations / G. M. Emelyanov, D. V. Mikhailov // 8th Int. Conf. “Pattern Recognition and Image Analysis: new Information Technologies” (PRIA-8-2007). Conf. Proc. / Mari State Technical University.

Yoshkar-Ola, 2007. Vol. 2. P. 253–257.

28. Mikhailov D. V. Formation and clustering of Russian’s nouns’s contexts within the frameworks of splintered values / D. V. Mikhailov, G. M. Emelyanov // 9th Int. Conf. on Pattern Recognition and Image Analysis: New Information Technologies (PRIA-92008). Conf. Proc. / N.I. Lobachevsky State University of Nizhni Novgorod. Nizhni Novgorod, 2008. Vol. 2. P. 39–42.

29. Mikhailov D. V. Semantic clustering in a problem of text information’s compression / D. V. Mikhailov, G. M. Emelyanov // 10th Int. Conf. on Pattern Recognition and Image Analysis: New Information Technologies (PRIA-10-2010). Conf. Proc. St. Petersburg, 2010. Vol. 2. P. 193–196.

30. Емельянов Г. М. Синонимические преобразования в задаче анализа эквивалентности смысловых образов высказываний на уровне сверхфразовых единств / Г. М. Емельянов, Д. В. Михайлов, Е. И. Зайцева // Распознавание образов и анализ изображений:

новые информационные технологии (РОАИ-6-2002): труды 6-й Междунар. конф. / НовГУ им. Ярослава Мудрого. Великий Новгород, 2002. Т. 1. С. 215–219.

31. Емельянов Г. М. Концептуально-ситуационное моделирование процесса перифразирования высказываний Естественного Языка как обучение на основе прецедентов / Г. М. Емельянов, А. Н. Корнышов, Д. В. Михайлов // Интеллектуализация обработки информации: тезисы докладов Международной научной конференции / Крымский научный центр НАН Украины. Симферополь, 2006. С. 78–79.

32. Корнышов А. Н. Иерархизация системы предикатов семантических отношений / А. Н. Корнышов, Д. В. Михайлов // Интеллектуализация обработки информации:

тезисы докладов Международной научной конференции / Крымский научный центр НАН Украины. Симферополь, 2008. С. 130–131.

33. Emelyanov G.M. Semantic relation analysis for classification of meaning pattern of utterances / G.M. Emelyanov, D.V. Mikhailov, N.A. Stepanova // 7th Int. Conf. on Pattern Recognition and Image Analysis: new Information Technologies (PRIA-7-2004). Conf.

Proc. / SPbETU. St. Petersburg, 2004. Vol. II. P. 460–461.

Доклады на всероссийских конференциях 34. Михайлов Д. В. Вопросы моделирования семантической связанности для систем автоматизированного тестирования знаний / Г. М. Емельянов, Д. В. Михайлов // Доклады X Всероссийской конференции “Математические методы распознавания образов” (ММРО-10). М., 2001. С. 53–56.

35. Михайлов Д. В. Применение семантических полей словаря РОСС в задаче построения модели управления предикатного слова / Д. В. Михайлов, Г. М. Емельянов // 12-я Всероссийская конференция “Математические методы распознавания образов” (ММРО-12): сборник докладов. М., 2005. С. 382–385.

36. Михайлов Д. В. Кластеризация семантических знаний в задаче распознавания ситуаций смысловой эквивалентности / Д. В. Михайлов, Г. М. Емельянов // 13-я Всероссийская конференция “Математические методы распознавания образов” (ММРО-13). М., 2007. С. 500–503.

37. Михайлов Д. В. Морфология и синтаксис в задаче семантической кластеризации / Д. В. Михайлов, Г. М. Емельянов // 14-я Всероссийская конференция "Математические методы распознавания образов" (ММРО-14): сборник докладов. М., 2009.

С. 563–566.

38. Михайлов Д. В. Анализ формальных понятий и сжатие текстовой информации в задаче автоматизированного контроля знаний / Г. М. Емельянов, Д. В. Михайлов // 15-я Всерос. конф. "Математические методы распознавания образов" (ММРО-15):

сб. докл. М., 2011. С. 581–584.

Свидетельство об официальной регистрации программы для ЭВМ 39. Свидетельство об официальной регистрации программы для ЭВМ № 2010617263.

Программа формирования синтаксических отношений на множестве семантически эквивалентных фраз / Залешин М. В., Михайлов Д. В., Емельянов Г. М.; заявитель и правообладатель “Новгородский государственный университет имени Ярослава Мудрого”. Заявка № 2010615398; заявл. 02.09.10.; зарег. 29.10.10.

Наиболее значимые публикации в других изданиях 40. Михайлов Д.В. Построение динамической модели естественного языка применительно к разработке языковой базы знаний / Г.М. Емельянов, Е.И. Зайцева, Д.В. Михайлов // Искусственный интеллект. 2002. № 2. С. 443–446.

41. Михайлов Д. В. Установление смысловой эквивалентности высказываний: на пути к решению проблемы / Г. М. Емельянов, Д. В. Михайлов // Искусственный интеллект. 2004. № 2. С. 86–90.

42. Михайлов Д. В. Построение модели управления предикатного слова на основе его лексикографического толкования / Г. М. Емельянов, Д. В. Михайлов // Таврический вестник информатики и математики. 2005. № 1. С. 35–48.

43. Михайлов Д. В. Модель сортовой системы языка в задаче построения семантического образа высказывания на уровне глубинного синтаксиса / Д. В. Михайлов, Г. М. Емельянов // Таврический вестник информатики и математики. 2006. № 1.

С. 79–90.

44. Михайлов Д. В. Формирование и кластеризация понятий на основе множества ситуационных контекстов / Д. В. Михайлов, Г. М. Емельянов, Н. А. Степанова // Таврический вестник информатики и математики. 2008. № 2. С. 79–88.

45. Михайлов Д. В. Формирование и кластеризация контекстов для существительных русского языка в рамках конверсивных замен / Д. В. Михайлов, Н. А. Степанова, И. И. Юрченко // Физика и механика материалов: приложение к научнотеоретическому и прикладному журналу “Вестник Новгородского государственного университета имени Ярослава Мудрого”. 2009. № 50. С. 31–34.

46. Емельянов Г. М. Концептуально-ситуационное моделирование процесса перефразирования высказываний естественного языка как обучение на основе прецедентов / Г. М. Емельянов, А. Н. Корнышов, Д. В. Михайлов // Искусственный интеллект. 2006.

№ 2. С. 72–75.






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.