WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 || 3 |

Вторая глава посвящена разработке метода формализованного описания структуры текста, на базе которого будет разработан алгоритм автоматического реферирования текста.

Текст состоит из функционально значимых частей. Эти части являются элементами, из которых строятся более крупные части и целые тексты. Текст не является линейной последовательностью единиц. Напротив, текст организован иерархично:

элементарные единицы объединяются в единицы большего объема, те объединяются между собой и так до уровня целого текста. Для объединения единиц любого объема существует общий, единый набор структурных связей.

Предлагаемый метод формализованного описания структуры текста учитывает нелинейность естественного языка и позволяет автоматизировать процесс автоматического реферирования текстов. Метод основан на использовании теории риторической структуры, согласно которой любой текст может быть представлен в виде дерева, узлами которого являются элементарные текстовые элементы (ЭТЭ) или группы таких элементов, находящиеся в определенных отношениях между собой. Такие связи называются риторическими отношениями (функциональные отношения).

Текстовый элемент, вступающий в функциональное отношение, может играть в нем различную роль. Функциональные отношения, как правило, являются асимметричными: более значимый их компонент называется ядром (N), менее значимый — сателлитом (S). Сателлит часто может быть опущен или заменен другим при сохранении смысла. В то же время, если опущено или изменено ядро, смысл текста и отношение существенно меняется. Бльшая часть отношений асимметричны и бинарны, то есть содержат ядро и сателлит.

Функциональные отношения могут выстраиваться в деревья на основе пяти структурных схем, которые показаны на рис. 1. Большинство отношений соединяется, используя схему a). Схема г) покрывает случаи, в которых ядро соединено с несколькими сателлитами различными отношениями. Схемы б), в), д) показывают мультиядровые отношения.

Рис. 1 Схемы функциональных отношений При построении структуры текста, прежде всего, необходимо использовать основные положения ТРС:

ЭТЭ представляют собой непересекающиеся части текста;

функциональные отношения связывают текстовые элементы разного размера;

ЭТЭ имеют в тексте различную значимость;

структура текста может быть представлена в виде дерева.

Согласно ТРС корректными структурами текста являются такие, которые удовлетворяют следующим ограничениям:

функциональные структуры являются деревьями, в которых элементы одного уровня представляют собой непрерывный текст;

элементы могут быть двух типов: ядро и сателлит;

каждый текстовый элемент может быть связан с другим только одним отношением.

С учетом этих ограничений структуры текста представляют собой деревья, смежные узлы которых представляют собой непрерывный текст.

В результате анализа основных положений ТРС установлено, что ее непосредственное применение в вычислительной модели невозможно ввиду следующих недостатков:

1) нет формальной спецификации, которая позволила бы отличить корректное дерево от некорректного;

2) нет алгоритмов для построения таких деревьев.

В связи с этим, необходимо выполнить уточнение и дополнение этой теории для описания структуры текста. Предлагаемый метод формализованного описания структуры текста включает в себя:

1. Определение критерия корректности структуры текста.

2. Определение характеристик, описывающих структуры текста.

3. Определение ограничений на корректные структуры текста.

В работе предлагается и обосновывается критерий корректности структуры текста: если функциональное отношение лежит между двумя элементами структуры текста, тогда оно же лежит между, по крайней мере, двумя ключевыми составляющими этих элементов.

Стоит отметить, что ключевыми ЭТЭ являются ЭТЭ, которые играют роль ядра в функциональном отношении.

Основная идея этого критерия заключается в том, что ЭТЭ-ядра играют бльшую роль в тексте, нежели ЭТЭ-сателлиты и, в принципе, при удалении всех сателлитов, смысл текста должен сохраниться. Если применить этот принцип рекурсивно ко всему тексту, представляя его в виде дерева, то можно получить дерево, удовлетворяющее критерию.

На следующем этапе формализации были определены характеристики структуры текста для текстового фрагмента [l, h].

В работе показано, что совокупность следующих характеристик является достаточной для описания структуры текста.

• S(l, h, status) показывает статус [l, h]. Он может иметь значения NUCLEUS, SATELLITE или NONE.

• T (l, h,relation _ name) показывает имя функционального отношения, которое лежит между прямыми потомками [l, h] в дереве.

• P(l, h,unit _ name) показывает имя ключевого (отражающего значимую информацию) ЭТЭ.

Статус, тип и множество ключевых узлов-потомков, которые связаны с каждым узлом, дают достаточную информацию для полного описания текстовой структуры.

Заключительным этапом формализации является определение ограничений для построения корректных структур текста. Текст представляет собой множество ЭТЭ, которые являются листьями дерева; фрагменты текста являются узлами более верхнего уровня и состоят из нескольких ЭТЭ. Допустим, имеется текст из N ЭТЭ, тогда [l, h] является его фрагментом, причем l и h - левый и правый индексы ЭТЭ соответственно. В работе показано, что для генерации только корректных структур необходимо ввести следующие ограничения для текста из N ЭТЭ:

• Для каждого фрагмента [l, h] предикат S имеет домен значений NUCLEUS, SATELLITE, NONE. Для случая, когда l = h, значения могут быть только NUCLEUS, SATELLITE :

[(1 h N) (1 l h)] {[l = h (S(l,h, NUCLEUS) S(l,h, SATELLITE))] [l h (S(l,h, NUCLEUS) S(l,h, SATELLITE) S(l,h, NONE))]} • Статус любого фрагмента уникален [(1 h N) (1 l h)] [(S(l,h,status1) S(l,h, status2 )) status1 = status• Для каждого фрагмента [l, h] предикат T имеет домен значений в виде множества функциональных отношений, соответствующих этому фрагменту [(1 h N) (1 l h)] {[l = h T (l,h, LEAF)], [l h (T (l,h, NONE) (T (l,h,name) relevant _ rel(l,h,name)))]} где relevant _ rel(l,h,name) означает множество отношений, лежащих между фрагментами текста внутри [l, h].

• По крайней мере, одно функциональное отношение лежит между двумя смежными фрагментами:

[(1 h N) (1 l h)] [(T (l,h,name1) T (l,h,name2 )) name1 = name2 ] • Для каждого фрагмента [l, h] предикат P имеет домен значений в виде множества ЭТЭ, из которых он состоит:

[(1 h N) (1 l h)] [P(l,h, NONE) P(l,h,u) relevant _ rel(l,h,u))] • Текстовые фрагменты не пересекаются:

[(1 h1 N) (1 l1 h1) (1 h2 N ) (1 l2 h2 ) (l1 p l2 ) (h1 p h2 ) (l2 h1)] [¬S(l1,h1, NONE) S(l2,h2, NONE)] • Текстовый фрагмент со статусом NONE не участвует в результирующем дереве:

[(1 h N ) (1 l h)] [(S(l,h, NONE) P(l,h, NONE) T (l,h, NONE)) (¬S(l,h, NONE) ¬P(l,h, NONE) ¬T (l,h, NONE))] • Существует главный фрагмент, корень дерева, который покрывает весь текст:

(¬S(l, N, NONE) ¬P(l, N, NONE) ¬T (l, N, NONE) Разработанный критерий корректности структуры текста и выполненная формализация характеристик и ограничений на корректные структуры являются расширением формализации основных положений ТРС. Они определяют условия объединения фрагментов текста, позволяют минимизировать набор необходимых параметров, достаточных для полного описания структуры текста, и существенно уменьшить избыточность порождаемых альтернативных структур текста соответственно.

Третья глава посвящена разработке алгоритмов, необходимых для автоматического реферирования научно-технического текста на русском языке на основе разработанного метода.

Обобщенный алгоритм автоматического реферирования представлен на рис. 2.

Рис. 2 Обобщенный алгоритм автоматического реферирования текста Основными составляющими данного алгоритма являются алгоритм определения функциональных отношений между фрагментами текста на основе ключевых фраз (блоки 1-2) и алгоритм построения структуры текста на основе множества функциональных отношений между фрагментами текста (блоки 3-4).

Первоначальной задачей при построении структуры текста является определение набора функциональных отношений между элементарными текстовыми элементами, или частями предложений. Известные подходы к решению этой задачи основаны на использовании глубокого семантического анализа текста, требующего полных баз знаний и соответствующих словарей русского языка, и до практической реализации не доведены. В данной работе на основе анализа корпуса научно-технических текстов на русском языке разработан узкоспециализированный словарь ключевых фраз русского языка, учитывающий специфику функциональных отношений между фрагментами текста, что позволяет определять множество этих отношений для научнотехнических текстов на русском языке.

С помощью этого словаря алгоритм определения функциональных отношений выполняет разбиение текста на предложения, определяет границы ЭТЭ и функциональные отношения между ними. Последовательность действий при определении границ ЭТЭ представлена на рис. 3. Построение множества функциональных отношений на основе списка ЭТЭ представлено на рис. 4.

Рис. 3 Алгоритм определения границ ЭТЭ начало Нет Есть ли еще ЭТЭ Да Нет Текущий ЭТЭ содержит ключевую фразу Да Да Нет Связанный ЭТЭ с текущим ЭТЭ стоит до него в тексте Инициализация множества ФО. Инициализация множества ФО.

Инициализация левой границы (младшего Инициализация левой границы (младшего индекса ЭТЭ в тексте) множества пар ЭТЭ, индекса ЭТЭ в тексте) множества пар ЭТЭ, связанных c текущей ключевой фразой. связанных c текущей ключевой фразой.

Проверка значения Проверка значения Нет Нет левой границы мн-ва: превысило ли оно правой границы мн-ва: превысило ли оно пороговое значение пороговое значение Да Да Правая граница принимает значение индекса Левая граница принимает значение индекса текущего ЭТЭ текущего ЭТЭ Проверка значения Проверка значения Нет Нет правой границы мн-ва: превысило ли оно левой границы мн-ва: превысило ли оно Да Да пороговое значение пороговое значение Да Да ЭТЭ в ФО ЭТЭ в ФО Нет Нет Да Да имеют статусы сателлита и имеют статусы сателлита и ядра соответственно ядра соответственно Добавление ФО, Добавление ФО, Добавление ФО, Добавление ФО, связывающего ЭТЭ с связывающего ЭТЭ с связывающего ЭТЭ с связывающего ЭТЭ с индексами равными индексами равными индексами равными индексами равными левой и правой правой и левой левой и правой правой и левой границам границам границам границам соответственно соответственно соответственно соответственно Увеличение правой границы на единицу Уменьшение левой границы на единицу Уменьшение левой границы на единицу Увеличение правой границы на единицу Сохранение множества функциональных отношений для использования на следующем шаге: построение структуры текста конец Рис. 4 Построение множества функциональных отношений на основе списка ЭТЭ На следующем этапе был разработан алгоритм построения структуры текста, который имеет на входе сформированный набор функциональных отношений и автоматически определяет структуру текста.

Задача построения структуры текста формулируется следующим образом: дана последовательность ЭТЭ U = u1u2...un и множество функциональных отношений RR, которые лежат между фрагментами текста из U, найти все корректные структуры текста, исходя из линейной последовательности U.

Параметрами алгоритма построения структуры текста являются:

множество ЭТЭ U = u1u2...un ;

множество констант NUCLEUS, SATELLITE, LEAF, NULL ;

имена всех функциональных отношений;

объекты типа tree(status,type, promotion,left, right).

Объекты, имеющие форму tree(status,type, promotion,left, right), обеспечивают функциональное представление корректных деревьев. Переменная status может иметь значения NUCLEUS или SATELLITE ; type содержит имя функционального отношения;

promotion представляет собой подмножество элементов из множества U ; left и right могут быть либо NULL, либо рекурсивным определением через объект tree.

Идея разработанного алгоритма состоит в следующем. Изначально каждый i -й ЭТЭ ассоциирован с элементарным деревом (деревом, состоящим из одного элемента), которое имеет статус либо NUCLEUS (ядро), либо SATELLITE (сателлит), тип LEAF (лист) и множество ключевых ЭТЭ-потомков {i }. Вначале любое отношение из множества RR может быть использовано для связи двух элементов в более сложные деревья. После построения всех элементарных деревьев структура текста формируется путем соединения смежных деревьев в бльшие, при условии, что на каждом шаге получается корректная древовидная структура. С каждым шагом связано множество функциональных отношений, которые могут быть использованы на следующих шагах. Но как только одно из отношений было использовано, оно становится недоступным для дальнейших преобразований. Этот процесс повторяется рекурсивно до тех пор, пока не будет получена результирующая структура, покрывающая весь текст.

Реализация данного алгоритма основана на использовании системы правил вывода корректных структур текста, обоснование и формулировка которых приведены в диссертации. Данные правила вывода определяют условия объединения двух смежных фрагментов текста в более сложные структуры в различных ситуациях.

Отличительной особенностью алгоритма построения структуры текста является учет неоднозначности функциональных отношений путем генерации альтернативных корректных структур текста и выбора оптимальной структуры на основе критерия совокупной метрики в виде линейной комбинации различных индикаторов важности фрагментов текста.

Следующим этапом обобщенного алгоритма является ранжирование по важности листьев (ЭТЭ) построенного структурного дерева для всего текста (блок 5). Далее из ранжированного списка ЭТЭ выбирается их необходимое количество в соответствии с заданным объемом аннотации (блок 6).

Разработанный алгоритм автоматического реферирования текста использует процедуру автоматического построения структуры текста на основе полученного множества функциональных отношений, что позволяет получать качественные рефераты без использования обширных словарей и баз знаний общего назначения.

В четвертой главе рассматривается система автоматического реферирования текста, построенная на основе разработанных алгоритмов, и проводится оценка эффективности разработанного метода и алгоритмов.

Процесс автоматического реферирования текста состоит из нескольких этапов, основными из которых являются следующие: анализ текста и определение функциональных отношений, построение корректных структур текста на основе этих отношений, нахождение оптимальной структуры, и затем получение аннотации.

Pages:     | 1 || 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»