WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 | 2 ||

Структура системы, реализующей разработанный алгоритм автоматического реферирования текста, представлена на рис. 5.

Рис 5 Структура системы автоматического реферирования текста Реализация системы была выполнена на основе объектно-ориентированного подхода в системе программирования Java.

Эффективность разработанного метода и алгоритма автоматического реферирования оценивалась по качеству получаемых аннотаций.

Оценка качества аннотаций, получаемых с помощью разработанного алгоритма, проводилась на основе различных процедур с помощью метода экспертных оценок:

1) на основе использования эталона аннотации, составляемого группой экспертов, и формального вычисления показателей полноты и точности путем сравнения получаемых аннотаций с эталоном;

2) на основе привлечения двух групп экспертов, одна из которых составляет эталон, а другая оценивает качество аннотации по 10-балльной шкале.

При этом исследовалась зависимость качества аннотаций от объема текстов и от наличия ключевых фраз в тексте.

В соответствии с первой процедурой для оценки качества аннотаций необходимо, прежде всего, создать эталон аннотации на основе согласованного мнения большинства группы экспертов. Группа экспертов для оценки рефератов состояла из 5 научных сотрудников Информационно-логистического центра при СЗТУ. Оценка согласованности мнений экспертов рассчитывалась на основании коэффициента Кендала (коэффициент согласованности) и составила 0.7, что является достаточным для формирования эталона аннотации.

Основной задачей оценки полученной аннотации (реферата) является установление смыслового соответствия или, иными словами, семантического тождества реферата и первоисточника. Для решения данной задачи традиционно используются критерий семантической адекватности и критерий семантической эквивалентности.

Первый применяется для оценки точности реферирования, второй - для оценки степени полноты отражения содержания первичного документа в реферате. Для количественной оценки критерия точности используется отношение полученных в аннотации релевантных ЭТЭ к общему количеству ЭТЭ в аннотации. Для количественной оценки критерия полноты используется отношение полученных в аннотации релевантных ЭТЭ к общему количеству релевантных ЭТЭ. Помимо этих показателей принято использовать показатель их взвешенного значения (F-параметр, или гармоническое среднее параметров полноты и точности).

В приложении к диссертационной работе приведены примеры текстов и рефератов, составленных с помощью разработанной системы, системой TextAnalyst и Microsoft Autosummarize.

Проведена сравнительная оценка разработанного метода и алгоритмов с традиционными методами, методом случайного выбора предложений для составления аннотации и усредненным выбором группы экспертов. Результаты сравнительной оценки качества методов автоматического реферирования текста на основе метода экспертных оценок по показателям полноты и точности представлены в табл. 1.

Таблица Средние значения показателей качества методов автоматического реферирования Система (метод) Полнота Точность F-параметр 74.81% 80.84% 77.69% Эксперт Разработанная система 64.81% 67.03% 66.03% (метод на основе анализа функциональных отношений) Система TextAnalyst 48.14% 44.82% 46.42% (метод на основе построения семантической сети) Система Microsoft AutoSummirize 35.18% 32.75% 33.92% (метод на основе подсчета статистических показателей) 25.92% 25.92% 25.92% Метод случайного выбора Результаты экспертных оценок, при которых одна группа экспертов составляет реферат-эталон, а другая группа экспертов-оценщиков по 10-балльной системе оценивает рефераты, полученные автоматически различными системами, согласуются с оценками полноты и точности и подтверждают более высокую эффективность разработанного метода по сравнению с традиционными методами.

Исследование зависимости качества аннотаций от объема текстов и от наличия ключевых фраз в тексте показало следующее. Качество аннотаций практически не зависит от объема текста, если коэффициент встречаемости ключевых фраз в исходных текстах примерно одинаков. Качество аннотаций тем выше, чем больше коэффициент встречаемости ключевых фраз в исходном тексте. Этого следовало ожидать, ввиду того, что алгоритм основан на использовании функциональных отношений, однозначное определение которых затруднительно при отсутствии или малом количестве ключевых фраз.

Проведенные исследования показали, что качество аннотаций, полученных с помощью разработанного алгоритма, в среднем на 20% выше по сравнению с аннотациями, полученными с помощью традиционных методов для научно-технических текстов на русском языке, и при этом алгоритм имеет достаточно хорошее быстродействие, что служит основанием для его эффективного использования на практике.

ЗАКЛЮЧЕНИЕ • Выполнен анализ современных подходов к автоматическому реферированию текстов. Установлено, что для текстов на русском языке практически реализуемыми являются методы, основанные на подходе экстракции. Анализ существующих исследований в области компьютерной лингвистики показал, что текст нелинеен по своей природе и представляет собой иерархическую структуру с определенными видами связей между фрагментами текста, несущих значимую информацию, которую можно использовать для экстрагирования.

• Предложен метод формализованного описания структуры научнотехнического текста на русском языке, который отличается учетом нелинейности и иерархической природы текста, что позволяет повысить качество автоматического реферирования научно-технического текста на русском языке. Разработан критерий корректности структуры текста, выполнены формализация характеристик и ограничений на корректные структуры, которые являются расширением формализации основных положений ТРС. Они определяют условия объединения фрагментов текста, позволяют минимизировать набор необходимых параметров, достаточных для полного описания структуры текста, и существенно уменьшить избыточность порождаемых альтернативных структур текста соответственно.

• Разработан алгоритм определения функциональных отношений между фрагментами текста на основе анализа ключевых фраз русского языка, который отличается использованием разработанного узкоспециализированного словаря ключевых фраз русского языка и анализом отношений внутри них, что позволяет уменьшить избыточность информационного обеспечения систем автоматического реферирования за счет отказа от использования словарей и баз знаний общего назначения.

• Разработан алгоритм построения структуры текста на основе множества функциональных отношений между фрагментами текста, который отличается учетом неоднозначности отношений внутри ключевых фраз русского языка путем генерации альтернативных множеств вариантов корректных структур текста с помощью разработанных правил вывода и выбора предпочтительной альтернативы по критерию совокупной метрики, что позволяет автоматизировать процесс получения релевантной структуры текста.

• Проведена экспериментальная проверка предложенных метода и алгоритмов, реализованных в разработанной программной системе автоматического реферирования текста. Проведенные исследования показали, что качество аннотаций, полученных с помощью разработанного алгоритма, в среднем на 20% выше по сравнению с аннотациями, полученными с помощью традиционных методов, реализованных в системе TextAnalyst и встроенной функции пакета Microsoft Office – Autosummarize.

ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ Публикации в изданиях, рекомендованных ВАК России:

1. Тревгода, С.А. Системы автоматического реферирования текста [Текст] / О.Ю. Сабинин, С. А. Тревгода // Приборы и системы. Управление, контроль, диагностика.- 2008. - Вып.1. - С.23-26.

2. Тревгода, С.А. Автоматизация обработки научно-технической информации [Текст] / С. А. Тревгода // Приборы и системы. Управление, контроль, диагностика. - 2009.-Вып.7. - С. 24-27.

Другие статьи и материалы конференций:

3. Тревгода, С.А. Технология автоматического реферирования технического текста [Текст] / О.Ю. Сабинин, С. А. Тревгода // Известия СПбГЭТУ «ЛЭТИ». - 2008.- № 7. - С. 25-34.

4. Тревгода, С.А. Программное обеспечение систем дистанционного управления [Текст] / С.В. Лукашевич, С. А. Тревгода // Материалы XII межд. конференции «Современное образование: содержание, технологии, качество». - Спб.: Изд-во СПбГЭТУ «ЛЭТИ», 2006. - С.25-27.

5. Тревгода, С.А. Автоматизированное проектирование функционального программного обеспечения [Текст] / С. А. Тревгода // Труды XI межд. науч.-практ.

конференции «Системный анализ в проектировании и управлении». - Спб.:

Изд-во Санкт-Петербургского Политех. ун-та, 2007. - С.302-304.

6. Тревгода, С.А Анализ методов автоматического реферирования технического текста. [Текст] / О.Ю. Сабинин, С. А. Тревгода // Труды XII межд. науч.-практ.

конференции «Системный анализ в проектировании и управлении». - Спб.:

Изд-во Санкт-Петербургского Политех. ун-та, 2008. - С.163-165.

7. Тревгода, С.А. Подход к определению множества риторических отношений для автоматического реферирования текста [Текст] / С. А. Тревгода // Труды XII межд. науч.-практ. конференции «Системный анализ в проектировании и управлении». - Спб.: Изд-во Санкт-Петербургского Политех. ун-та, 2008. - С.

166-169.

8. Тревгода, С.А Формализация процедуры построения дискурсной структуры технического текста. [Текст] / О.Ю. Сабинин, С. А. Тревгода // Материалы XI межд. конференции по мягким вычислениям и измерениям (SCM-2008). - Спб.:

Изд-во СПбГЭТУ «ЛЭТИ», 2008. - С.35-38.

9. Тревгода, С.А. Алгоритм автоматического реферирования текста на русском языке [Текст] / О.Ю. Сабинин, С. А. Тревгода // Труды XIII межд. науч.-практ.

конференции «Системный анализ в проектировании и управлении» - Спб.: Издво Санкт-Петербургского Политех. ун-та, 2009. - С. 188-190.

10. Тревгода, С.А. Методы и алгоритмы автоматического реферирования текста на основе построения и анализа дискурсных структур [Текст] / О.Ю. Сабинин, С. А. Тревгода // Труды 62-й международной науч.-техн. конференции «Системный анализ, управление и обработка информации».-Спб.: Изд-во СпбГУАП, 2009. - С. 54-57.

Pages:     | 1 | 2 ||






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»