WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     ||
|

В РуТез включаются термины, не упоминавшиеся в текстах, если они:

(а) нужны для объединения разрозненных дескрипторов, (б) пополняют ряд нижестоящих дескрипторов для уже существующего дескриптора.

Предусмотрено включение многозначных терминов, а именно: несколько значений одного термина представляются разными дескрипторами. Если только одно значение многозначного термина включено в тезаурус, то дескриптор снабжается пометой «М». В тезаурус включены фразеологизмы, в состав которых входят термины тезауруса: например, как с гуся вода, водой не разольёшь и др. Отношения в тезаурусе (ВЫШЕ-НИЖЕ1, ЦЕЛОЕЧАСТЬ2, АССОЦИАЦИЯ) позволяют представить тезаурус в виде связной иерархической сети (разрешена только одна компонента связности).

Достоин упоминания тезаурус GEMET3. Интересными особенностями тезауруса является привязка концептов ко многим языкам (в том числе к русскому), предоставление данных с помощью веб-сервиса (RDF). Авторы GEMET планируют улучшить данные тезауруса за счёт включения его в Английский Викисловарь4 и отдачи со стороны пользователей Викисловаря.

Викисловарь является с одной стороны вики-ресурсом, поэтому в его пополнении может участвовать каждый, с другой – это толковый, грамматический, фразеологический, этимологический и многоязычный словарь, в том числе и тезаурус.5 Русский Викисловарь содержит следующие 1 Y=ВЫШЕ(X), если можно утверждать, что X – это вид Y, например «государственная собственность» = ВЫШЕ(«государственное предприятие») [41]. Связь ВЫШЕ-НИЖЕ соответствуют отношению гипонимии в Викисловаре: X – это гипоним, Y – это гипероним.

2 Связи ЦЕЛОЕ-ЧАСТЬ соответствуют меронимы и холонимы в Викисловаре.

3 Аббревиатура GEMET (швед. gem – скрепка, игра) расшифровывается как GEneral Multilingual Environmental Thesaurus, см. http://www.eionet.europa.eu/gemet/aboutlangcode=en и http://en.wikipedia.org/ wiki/GEMET 4 English Wiktionary, см. http://en.wiktionary.org.

5 См. http://ru.wiktionary.org, http://ru.wikipedia.org/wiki/Викисловарь.

- 51 семантические отношения: синонимы1, антонимы2, гиперонимы, гипонимы, согипонимы, холонимы, меронимы, паронимы3, омонимы4.

Разработка словарей требует огромных вложений времени и сил.

Поэтому тезаурусы WordNet, Роже покрывают небольшую часть лексикона, и содержат мало имён собственных, неологизмов, жаргонных слов, специальной терминологии [103]. Можно надеяться, что благодаря викитехнологии такая ситуация не грозит Викисловарю. На 10.11.Викисловарь содержал 130 тыс. слов и словосочетаний более чем на языках.

Вики-ресурсы Вики – это веб-сайт для совместной работы, где каждый может принять участие в правке статей. Вики-сайт предоставляет пользователям возможность изменять и добавлять страницы сайта.5 Наиболее известный вики-ресурс – Википедия.

Ward Cunningham, разработчик первого вики-сайта WikiWikiWeb, первоначально описал вики как «простейшую онлайн базу данных, которая, возможно, работает».6 Также вики – это часть программного обеспечения на стороне сервера, позволяющая пользователям коллективно создавать и редактировать содержания интернет страниц с помощью любого интернет браузера. Язык вики поддерживает гиперссылки (для создания ссылок между вики-страницами) и является более наглядным чем HTML и безопасным (использование JavaScript и Cascading Style Sheets ограничено).Концепция «свободного редактирования» имеет свои достоинства и недостатки. Открытость в редактировании текстов привлекает технически не подкованных пользователей, что позволяет развивать уже существующие вики ресурсы. К проблемам стоит отнести борьбу с вандализмом. Эта 1 См. http://ru.wiktionary.org/wiki/самолёт.

2 См. http://ru.wiktionary.org/wiki/сжимать.

3 См. http://ru.wiktionary.org/wiki/канифоль.

4 См. http://ru.wiktionary.org/wiki/бор.

5 См. http://en.wikipedia.org/wiki/Wiki 6 См. http://wiki.org/wiki.cgiWhatIsWiki 7 См. http://en.wikipedia.org/wiki/Wiki - 52 проблема решается благодаря возможности отката.1 Другой вопрос – надёжность и достоверность информации – может быть решён либо с помощью внешних признаков (число правок, число авторов статьи, число внутренних ссылок), либо с помощью специальных программ.Таким образом, появился новый формат электронных документов – вики.3 Причём в Интернете насчитывается уже 25 тыс. вики-ресурсов, из них 203 состоят из более чем 10 тыс. вики-статей.Одним из наиболее успешных вики проектов считается Википедия5.

Если на конец 2005 г. существовало более 200 Википедий на разных языках с более чем 2.8 млн статей [184], то к августу 2007 г. более 253 Википедий содержало 8.1 млн статей, а к июню 2008 г. уже более 10 млн.Цель Wikimedia Foundation (организация, ответственная за работу Википедии) – обеспечение свободного доступа ко всем знаниям, накопленным человечеством. Кроме Википедии Wikimedia Foundation поддерживает и другие проекты: открытый медиа архив (Wikicommons), открытое хранилище электронных книг (Wikibooks), база новостей (Wikinews), многоязыковой словарь и тезаурус (Wiktionary) и другие. Стоит отметить тесную интеграцию данных проектов, например, рисунки, видео или аудио файлы (неотъемлимая часть современных энциклопедий) должны быть предварительно загружены в Wikicommons, эти файлы получают уникальный идентификатор (URL), используя который можно иллюстрировать энциклопедическую статью, поставив ссылку на данный медиа ресурс. Вышеперечисленные проекты разрабатываются совместными усилиями пользователей с помощью программного обеспечения MediaWiki.

1 Откат возможен, поскольку в БД хранится история всех правок, указывается кто, что и когда правил.

Откат позволяет вернуться к предыдущей версии набора страниц или всей базы данных. Выполнить откат может любой пользователь 2 Надёжность статьи в Википедии можно оценить визуально с помощью специальной программы численной оценки степени доверия к тексту [69].

3 Появился новый формат электронных документов – вики, см. стр. 51. Особенности корпуса вики-текстов, позволяющие говорить о качественном изменении по сравнению с html страницами, перечислены на стр. 24.

4 См. http://s23.org/wikistats/largest_html.phpth=10000&lines=500, данные от 17.08.2007.

5 Это конкретный вики-ресурс, используемый в работе. См. http://en.wikipedia.org 6 См. список википедий http://meta.wikimedia.org/wiki/List_of_Wikipedias, данные от 17.08.2007.

- 53 Данные этих проектов распространяются по открытой лицензии GNU Free Documentation License.Корпус текстов вики-ресурса Википедия Корпус текстов, представленный в энциклопедии Википедия, представляет несомненный интерес для вычислительной лингвистики2 и, в частности, для задачи поиска синонимов. Есть несколько причин, позволяющих успешно работать с этим корпусом:

• заранее определён способ хранения документов энциклопедии в базе данных MySQL [26] (заданы таблицы, поля таблиц, связи между полями);

• существует программа MediaWiki (набор php-файлов) для просмотра и редактирования содержимого Википедии;• задана классификация текстов благодаря наличию у каждой статьи категорий, определяющих тематическую направленность. Категории для статьи выбираются авторами статьи из набора уже существующих категорий. Можно добавить новую категорию, связав её с уже существующими. (табл. 1 на стр. 184 перечисляет типы отношений в Википедии, в частности, ассоциативные – отношения между категориями);

• в энциклопедии представлено большое4 количество статей (на русском5, английском6 и других языках) на различную тематику (наука, искусство, политика и др.), корпус содержит тексты и на самую современную тематику (база обновляется, буквально, каждый день);

1 Более подробно об авторском праве, интеллектуальной собственности и патентах, лицензировании в целом и лицензии GPL в частности см. в [62].

2 Наличие интереса к вики ресурсам и Википедии в научной общественности характеризуется появлением значительного количества публикаций по данной тематике, см. Wiki Research Bibliography (1) http://meta.wikimedia.org/wiki/Wiki_Research_Bibliography, (2) http://bibliography.wikimedia.de, а также Wikipedia in academic studies http://en.wikipedia.org/wiki/Wikipedia:Wikipedia_in_academic_studies.

3 См. http://www.mediawiki.org.

4 «Википедия содержит огромное количество тщательно организованных человеческий знаний» [103].

5 Русская версия Википедии содержит 171 тыс. статей по данным на 11 мая 2007 г. (http://ru.wikipedia.org/ wiki/Служебная:Statistics). На 23 октября 2006 г. тексты содержали 22,5 млн слов и 650 тыс. лексем (http://ru.wikipedia.org/wiki/ВП:ЧС).

6 Английская Википедии содержит 1,8 млн статей (11 мая 2007 г). В мае 2005 Английская Википедия включала 512 млн. слов [157]. См. http://en.wikipedia.org/wikistats/EN/TablesDatabaseWords.htm, а также http://en.wikipedia.org/wiki/Wikipedia:Statistics - 54 • энциклопедия общедоступна1.

Временным недостатком Википедии можно считать неравномерное распределение качества (т.е. степень проработки и глубину изложения, формально определяемые по таким признакам, как: размер страницы, число авторов, число модификаций у страницы) и количества статей по разным тематическим направлениям. В частности, указывается перевес статей технического характера (в отличии, например, от филологического), что, возможно, объясняется составом авторов энциклопедии [114].

В исследовании исторического раздела Английской Википедии [157] указано, что из 52 исторических деятелей, представленных в специализированной энциклопедии «American National Biography Online» (тыс. статей) в Википедии содержится только половина, в энциклопедии Encarta – одна пятая.

Более интересные (популярные) темы проработаны лучше. Общее наблюдение таково, что новые (недавно созданные) статьи – небольшие по размеру и плохо написаны, однако статьи на популярные темы, имеющие сотни и тысячи правок, приближаются по размеру и качеству к статьям профессиональных энциклопедий [157].

Сетевой анализ2 Английской Википедии как графа (вершины – это статьи, рёбра – ссылки) представлен в работе [80], в которой авторы показали, что Википедия – это единый связный граф.3 Следующие эвристики, предложенные в [80], предлагается использовать для развития системы поиска синонимов Synarcher [34], [126]:

• объединять в один узел статьи, имена которых отличаются незначительно (регистром или пунктуацией);

• удалять все статьи, начинающиеся со слов: «List of...» (так как это просто наборы ссылок), в Русской Википедии такие статьи начинаются так:

«Список...».

1 Базу данных Википедии можно скачать по адресу http://download.wikimedia.org, одно из описаний по установке Википедии см. на сайте http://synarcher.sourceforge.net 2 Сетевой анализ (часть теории графов) – это количественная оценка связности и расстояний в графах.

3 Более поздние работы отечественных исследователей показывают, что Википедия содержит изолированные статьи, не связанные с другими статьями внутренними ссылками. См.

http://ru.wikipedia.org/wiki/Википедия:Проект:Связность.

- 55 В [162] выделяют три вида компонент в сетевой структуре: IN, OUT и компонента сильной связности (КСС). «Если пользователь начинает просмотр интернет страницы IN-компоненты, то затем он попадает в узел КСС и, возможно, в OUT-компоненту. Попав в OUT-компоненту, пользователь уже не сможет вернуться в исходную вершину. Однако пока пользователь находится внутри КСС, все вершины – достижимы и могут быть просмотрены повторно» [162]. Открытой задачей является практическая оценка статистических свойств входящих и исходящих ссылок1, КСС и других компонент Википедии.

Кроме своей прямой энциклопедической функции Википедия, благодаря открытому доступу к её данным, служит для определения значения многозначных слов [166], может помочь в автоматическом поиске информации в запросно-ответных систем (question-answering service) и др.

[157], является основой для автоматического построения многоязыкового тезауруса.Другие системы Несмотря на своё название, система OpenCyc3 не является полностью открытой: данные доступны для редактирования пользователям, но код программы недоступен для расширения разработчикам [183].

С точки зрения АОТ интерес может представлять такой модуль OpenCyc, как Dictionary Assistant (DA).4 С помощью DA пользователи:

(i) добавляют лексическую информацию, используемую системой CYC для обработки и генерации текстов на ЕЯ, (ii) выполняют привязку слов к концептам CYC.5 Также DA позволяет строить отношения между концептами 1 Под статистическими свойствами вершин имеются в виду: средняя степень (числа входящих ссылок), максимальная степень, стандартное отклонение, параметр разнородности, максимальное сходство [162].

2 См. выдержки из диссертации немецкого учёного: Daniel Kinzler. “Outline of a method for building a multilingual thesaurus from Wikipedia”, 2008. http://brightbyte.de/page/WikiWord/Excerpt 3 См. http://www.opencyc.org.

4 См. http://www.cyc.com/cycdoc/ref/dict-assist.html.

5 DA предназначен для работы с английским языком. Поэтому, чтобы выполнить привязку русских слов к концептам Cyc, нужно каким-то образом «научить» DA выполнять лемматизацию русских слов и предоставить возможность пользователям указывать лексические свойства слов.

- 56 с помощью предикатов, например для перевода фразы «Fred fancies Sally» используется предикат likesAsFriend.

Авторы MSR веб-сервера1 предлагают, наконец, объединить реализации различных подходов по вычислению семантической близости слов с целью обеспечить доступность к результатам работы и возможность сравнить их работу на одинаковых данных. Для стандартизации доступа к приложениям предлагается CGI2 интерфейс.

1.3 Системы и способы графического представления тезаурусов и результатов поиска Здесь перечислены современные системы графического представления тезаурусов и визуальные поисковые системы3. Дана их оценка с подчёркиванием тех сильных сторон, которые уже используются или могут быть внедрены в разрабатываемую систему.

Система Visual Thesaurus4 предоставляет визуальный интерфейс к лексикону WordNet. Данная «программная адаптация интерфейса в динамическую структуру визуальных понятий в корне меняет и значительно интенсифицирует процесс обучения, освоения и применения данного продукта» [3]. Эстетически приятно оформлен ещё один визуальный онлайн WordNet интерфейс,5 в котором слова равномерно распределены по кругу, а множество отношений рисуется в виде дуг окружностей.

Pages:     ||
|



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.