WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     ||
|

Однако в работе [18] не делается различия между этими двумя функциями, а утверждается, что важнейшая стилистическая функция синонимов – это наиболее точное выражение мысли. Учитывая смысловые и стилистические отличия синонимов, их разделяют на несколько групп1:

1. Синонимы, различающиеся оттенками в значениях, называются семантическими (от гр. semantikos – обозначающий), другое название – «идеографические» (гр. idea – понятие, grapho – пишу), или понятийные (молодость – юность, красный – багровый – алый) [18]. Под фразеологическими синонимами понимают “фразеологизмы2 с близким значением, обозначающие одно и то же понятие, как правило, соотносительные с одной и той же частью речи, обладающие частично совпадающей или (реже) одинаковой лексикофразеологической сочетаемостью, но отличающиеся друг от друга оттенками значения, стилистической окраской, а иногда и тем и другим одновременно” [27].

2. Синонимы, которые имеют одинаковое значение, но отличаются стилистической окраской, которая не позволяет заменять их в одном контексте, например, глаза – очи – зенки, называются стилистическими [18], [1]. Фразеологические синонимы отличаются большей стилистической однородностью, чем 1 Не менее интересная типизация присуща и антонимам, в работе [65] (стр. 9) (вслед за Л.А. Новиковым) выделяют классы: контрарные, комплементарные и векторные антонимы (семантическая классификация антонимии). Там же определены точные / неточные, производные и отражённые антонимы.

2 «Фразеологизм – это воспроизводимый в речи оборот, построенный по образцу сочинительных и подчинительных словосочетаний, обладающий целостным (реже – частично целостным) значением и сочетающийся со словами свободного употребления.» [27]. Примеры фразеологических синонимов: как свои пять пальцев (разг.); вдоль и поперёк (разг.); до последней запятой (разг.), до <последней> точки (разг.), до тонкости (разг.), до точности (прост.).

- 22 лексические синонимы (состоящие из слов свободного употребления), так как фразеологизмам в основном присуща эмоциональна экспрессивная окрашенность [27].

3. Синонимы, которые отличаются и по значению, и своей стилистической окраской, называются семантикостилистическими [18].

4. Синонимы, представляющие для нейтрального слова его экспрессивные, эмоционально окрашенные дериваты, называются деривационными, например, старик – старикан, старик – старичок [1].

Стоит отметить, что деление синонимов на стилистические и «идеографические» достаточно условное. Поскольку «... материал показывает, что невозможно провести границу между теми и другими, зачислив одни в стилистические, а другие только в идеографические.

Основная, подавляющая масса синонимов служит и стилистическим и смысловым (оттеночным, уточнительным) целям, часто выполняя и ту и другую функции одновременно» [56].

Способы определения синонимии в современных системах В проектах WordNet и EuroWordNet синонимия определяется через понятие взаимозаменяемости. «Два слова (выражения) считаются синонимами, если существует хотя бы один контекст С, в котором замена одного слова другим не приводит к изменению истинностного значения» [99] (цит. по [1]).

Поскольку, во-первых, взаимозаменяемость в контексте не всегда связана с общностью значений, во-вторых, некоторые синонимы не являются взаимозаменяемыми в контексте из-за особенностей синтаксической или же лексической сочетаемости, постольку авторы тезауруса RussNet используют критерий взаимозаменяемости только как дополнительный критерий.

Основными критериями семантической близости в RussNet являются идентичность словарных определений или взаимная отсылка в синонимических определениях, что проверяется при дефиниционном анализе [1]. Таким образом, в RussNet отношение синонимии устанавливается между - 23 лексико-семантическими вариантами слов, которые (i) принадлежат одной части речи, (ii) имеют сходные значения, (iii) могут быть взаимозаменяемы в контексте.

Следующие типы синонимов определены в тезаурусе РуТез [41]:

1. Лексические синонимы (полные синонимы; синонимы, отражающие различные языковые стили; синтаксические синонимы;

словообразовательные синонимы);

2. Условные синонимы (сокращения; сложные и сложносокращённые слова; некоторые антонимы1; некоторые родовидовые синонимы2; существительные, обозначающие лиц мужского и женского пола3);

3. Другие типы (дериваты; образные наименования; фрагменты толкования; энциклопедические синонимы4; исторические синонимы;

словосочетания с исключением внутреннего члена; словосочетания с различными реализациями одного из актантов главного слова термина5; термины, тесно связанные отношениям причина-следствие и др.; термины, несущие в себе дополнительную модальность по отношению к основному термину6; термины, совпадающие в одной своей части, а в другой – состоящие из ситуационно связанных терминов7; термины, в которых словосочетание с неоднозначным термином становится однозначным).

1 Пример антонимов: доверие правительству – вотум недоверия правительству, правовое обеспечение – правовой вакуум.

2 Пример родовидовых синонимов: здравоохранение – укрепление здоровья, каракулево-смушковое сырьё – каракуль – каракульча – смушка.

3 Например, спортсмен – спортсменка, владелец – владелица.

4 Энциклопедические синонимы – такие языковые выражения, тождественность которых вытекает из энциклопедических знаний. Например, альтернативная гражданская служба – альтернативная военная служба – альтернативная служба, внутренние войска – войска МВД.

5 Например, встреча на высшем уровне – встреча в верхах.

6 Пример дополнительной модальности: артиллерийский обстрел – артиллерийская канонада – артиллерийская подготовка – артиллерийский удар.

7 Например, безопасность судоходства – безопасность кораблей – безопасность на море.

- 24 Проблема текстовых ресурсов.

К задачам лингвистики относят, с одной стороны, идентификацию структурных единиц (например, морфемы, слова, фразы) и описание того, как одни структурные единицы формируют другие, более крупные (например, по каким правилам можно строить из слов фразы). С другой стороны, благодаря наличию текстов и аудио записей, изучают речь в том виде, как мы её слышим. В этом случае необходимо наличие корпуса – набора текстов с грамматической, синтаксической разметкой или без таковых. Среди множества проблем создания корпуса, можно выделить общую проблему отсутствия единого стандарта и сложности практического характера: опечатки, сохранение переносов в тексте [55]. Данная работа непосредственно связана с корпусной лингвистикой. Проблемы корпусной лингвистики раскрываются в работах [82], [133], [174]. В диссертации в качестве корпуса текстов предлагается использовать коллективную онлайн энциклопедию Википедия. Это позволяет решить в какой-то мере проблему стандарта (все статьи унифицированы, а именно: есть стандартные метаданные – заголовок статьи, категории, определяющие тематику статьи), но появляются новые сложности (например, проблема неравномерности количества и качества статей в зависимости от тематики)1.

Одной из первых работ в области компьютерного семантического анализа можно считать построение «Русского семантического словаря» компьютером в 1982 (группа под руководством чл.-корр. АН СССР Ю. Караулова). Программа сравнивала описание значений слов в разных словарях. При наличии сходства в описании, программа относила слово к одной группе, то есть считала слова сходными по значению. Таким образом, программа является является автоматическим понятийным классификатором слов [48].

Требования к корпусу проблемно-ориентированных текстов В данной работе рассматриваются корпуса проблемноориентированных текстов с гиперссылками и категориями. Эти тексты должны отвечать следующим условиям.

1 Об этой и других проблемах Википедии см. в подразделе «Корпус текстов вики-ресурса Википедия».

- 25 1. Каждому текстовому документу (далее «статья») соответствует одно или несколько ключевых слов, отражающих содержание статьи. Например, в случае энциклопедии – энциклопедической статье соответствует одно слово – название статьи.

2. Статьи связаны ссылками. Для каждой статьи определены:

набор исходящих ссылок (на статьи, которые упоминаются в данной статье) и входящих ссылок (на статьи, которые сами ссылаются на данную статью).

3. Каждая статья соотнесена одной или нескольким категориям (тематика статьи). Категории образуют дерево таким образом, что для каждой категории есть родитель-категория (кроме корня) и один или несколько детей-категорий (кроме листьев).

Данная структура является не абстрактным измышлением. Она имеет конкретное воплощение в структурах типа вики (wiki), получивших широкое распространение в последнее время в сети Интернет, например, в виде электронной онлайн энциклопедии Википедии1; “вики используется российскими органами власти2 и Департаментом образования Москвы3 при создании административных интернет-сайтов.”Наличие единообразных метаданных (заголовок документа, категории), принадлежащих документам корпуса, позволяет отнести поисковую систему, выполняющую поиск на основе этих данных, к классу гипертекстовых информационно-поисковых систем5. Разработке такой системе посвящена данная работа.

1 См. http://wikipedia.org 2 ФЦП «Электронная Россия». Информационное сопровождение Программы. Организация коммуникации по вопросам административного обеспечения государства и использования ИКТ в практике администрирования. http://projects.economy.gov.ru/pms/DownloadFile.aspx/tt_eg2006v3_nov05.doc workproductid=70a5c8fa-5e73-463f-9233-15db250b80ba.

3 Департамент образования г. Москвы: Методические рекомендации для школ, подключаемых к сети Интернет. http://web.archive.org/web/20070828105815/http://www.educom.ru/ru/projects/link-up/package/.

4 См. http://ru.wikipedia.org/wiki/Википедия:Пресс-релиз/В_десятке!.

5 В соответствии с классификацией, предложенной в работе [15]. «Гипертекстовые ИПС – характеризуются наличием не только содержания, но и некоторой унифицированной структуры сведений о документах. Такие сведения являются метаданными относительно исходных документов» [15].

- 26 1.1 Основные алгоритмы поиска похожих интернет страниц, поиска слов близких по значению, вычисления меры сходства вершин графа Алгоритмы, выполняющие поиск похожих документов и близких по значению слов, можно условно1 разделить на группы:1. поиск на основе анализа ссылок (вычисления на графах) i. ссылки заданы явно гиперссылками (HITS [125], PageRank [85], [102], ArcRank [174], Green [145], WLVM [134]);

ii. ссылки нужно построить3 (Similarity Flooding [132], алгоритм извлечения синонимов из толкового словаря [84], [83], [174]);

2. поиск на основе анализа текста:

iii. статистические алгоритмы (ESA [103], сходство коротких текстов [159], извлечение контекстно связанных слов на основе частотности словосочетаний [146]);

iv. автоматическое понимание текстов4;

3. поиск на основе анализа и ссылок и текста [81], [129]5.

Для уточнения результатов поиска могут использоваться данные о семантически близких словах из тезаурусов Роже, WordNet, Moby, Викисловаря и др.

Входными данными могут быть [106]:

i. запрос, состоящий из ключевых слов, тогда будет выполняться поиск документов, похожих на запрос;

1 Практическая реализация может объединять возможности разных подходов.

2 См. также обзор и классификацию методов и приложений вычисления сходства коротких текстов в [147].

3 Для определения силы связи между словами по совместной встречаемости в документах либо в общем контексте — могут использоваться специальные алгоритмы [40].

4 На сегодняшний момент, автору не встретились работы, посвящённые поиску семантически близких слов с помощью систем автоматического понимания текстов (АПТ). О системах АПТ см. в [41].

5 В работе [129] предложена мера вычисления семантического сходства интернет страниц на основе учёта и ссылок, и текста. Сходство текста вычисляется с помощью TF (формула косинусного коэффициента).

Сходство ссылок вычисляется с помощью формулы «частота ссылок – обратная частота документов» (то есть в формуле TF-IDF документы оставили, а слова заменили на ссылки).

- 27 ii. идентификатор документа, будут искаться документы, похожие на заданный.Алгоритмы анализа гиперссылок: HITS, PageRank, ArcRank, WLVM Алгоритм HITSАлгоритм HITS (Hyperlink-Induced Topic Selection)3 позволяет находить Интернет страницы, соответствующие запросу пользователя, на основе информации, заложенной в гиперссылки [125]. Демократическая природа Интернет позволяет использовать структуру ссылок как указатель значимости страниц (эта идея есть и в алгоритме PageRank [85], встроенном в поисковик Google). Страница p, ссылаясь на страницу q, полагает q авторитетной, стоящей ссылки. Для поиска существенно, что страница q соответствует тематике страницы p.

Поиск в Интернет (Web search) – это нахождение релевантных страниц, соответствующих запросу. Можно выделить два крайних типа запросов:

конкретный (проблема недостатка страниц) и чрезмерно общий (проблема избытка страниц). При наличии общего запроса ставится задача дистилляции широких поисковых тем с помощью авторитетных источников по этим темам.

HITS алгоритм использует такие понятия, как: авторитетный документ и хаб-документа (или авторитетная и хаб-страница). Авторитетный документ – это документ, соответствующий запросу пользователя, имеющий больший удельный вес среди документов данной тематики, то есть большее число документов ссылаются на данный документ. Хаб-документ – это документ, содержащий много ссылок на авторитетные документы.6 Возможность поиска похожих документов реализована в современных поисковых системах [52], например, Яндекс («похожи на страницу»), Google («Find pages similar to the page»). Достоинство такого вида поиска для пользователя – нужно нажать одну кнопку, для системы – документ содержит больше информации, чем запрос пользователя.

2 Детальный анализ алгоритма, постановка задачи, дополнительные замечания, а также поиск синонимов с помощью HITS алгоритма представлены в гл. 2, стр. 69.

3 Ещё одно название HITS алгоритма – «Сonnectivity analysis algorithm for hyperlinked environment» – предложено в работе [81].

4 Оригинальное расширение HITS алгоритма предложено в работе [136]. Авторы построили и проанализировали граф Темы-Системы для поиска наиболее успешных тем, выявляющих слабые и - 28 Алгоритм PageRank (отличия от алгоритма HITS) Параметр PageRank страницы p(i) (её авторитетность) определяется так [102]:

Pages:     ||
|





© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.