WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     ||
|
1) и поставлена задача «упорядочить список слов с тем, чтобы наиболее близкие по значению слова были в начале списка». Такое ранжирование позволяет соотнести каждому слову в списке – некоторое целое число – его ранг, порядковый номер в списке. Чем меньше ранг у слова, тем оно ближе по значению к исходному.

Если респондент затруднялся указать для некоторых слов их положение относительно других, то таким словам присваивался максимальный ранг в списке (например, см. столбец «Э4» в табл. 1).

Таблица Упорядочение респондентами списка слов семантически близких слову Истина Эксперт N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Среднее Слово Авторитет 3 7 8 9 8 7 7 8 5 9 6 6 9 5 6 7 6,Бог 9 6 1 9 1 8 8 1 1 9 6 2 9 5 6 8 5,Вера 7 8 3 9 9 3 9 9 5 9 6 2 9 6 6 9 6,Действительность 5 1 6 3 5 5 2 7 1 5 1 5 3 2 2 4 3,Догмат 8 9 9 9 7 9 6 5 2 9 2 2 9 5 6 5 6,Знание 6 5 4 9 6 1 4 4 2 9 2 3 4 3 6 6 4,Правда 2 3 2 9 2 2 5 2 1 1 6 1 1 2 1 1 2,Реальность 4 4 7 2 3 4 1 6 1 3 1 6 2 2 2 3 3,Факт 1 2 5 1 4 6 3 3 1 3 1 6 5 2 2 2 2,Наличие такой численной оценки положения слов в списке, позволяет их усреднить (графа «Среднее»), то есть упорядочить на основе оценок экспертов. Таким образом, упорядоченный список семантически близких слов для слова Истина будет такой: Правда, Факт, Реальность, Действительность, Знание, Бог, Догмат, Вера, Авторитет.

Результат упорядочения списков (тем же способом) для слов Жаргон, Самолёт, Сюжет представлен в таблице 4.3.

- 183 Приложение 5. Википедия Три базовых принципа формирования Википедии:

1. NPOV (Neutral Point Of View) – представление содержания статей с нейтральной точки зрения. На спорные и конфликтные темы представляются все значимые точки зрения без навязывания своего мнения. Прения по некоторому вопросу обсуждаются, оцениваются, но авторы статей в них не вовлекаются. Необходимо холодное, честное, аналитическое описание вопроса.

2. Verifiability – возможность проверить материал, наличие ссылок на достоверные источники, на опубликованные материалы.

3. No original research – Википедия – это не первоисточник информации. Цитирование источников позволяет проверить надёжность информации.

Отношения в Википедии MediaWiki (оболочка Wikipedia) предоставляет механизм категорий, позволяющий классифицировать статьи и другие страницы в проектах Wikimedia. Категории выбираются и присваиваются статьям в ходе совместной работы пользователей (так называемый процесс collaborative tagging, другое название – folksonomy1. Страница категории представляет из себя (i) заголовок – название категории, (ii) краткое описание назначения 1 «Folksonomy – это создаваемая совместными усилиями, открытая для расширения система меток, позволяющая пользователям Интернет категоризовать информационные ресурсы, такие как Интернет страницы, онлайн фотографии, интернет ссылки. Использование меток (другое название – теги, аналог ключевых слов), свободно выбираемых пользователем, позволяет улучшить работу поисковых систем, поскольку для категоризации применяется знакомый, понятный, используемый пользователем лексикон» (http://en.wikipedia.org/wiki/Folksonomy). Подход folksonomy преследует цели: создание личной коллекции [ссылок] и общественной коллекции [108] (цит. по [184]). В работе [160] представлена формальная модель folksonomy, как набора троек (пользователь, тег, ресурс) или трёхдольного графа.

Особенность Википедии в том, что некоторая категория присваивается статье раз и навсегда для всех пользователей [184]. Примерами folksonomy систем могут служит del.icio.us (открытое хранилище закладок), в которой пользователи придумывают и присваивают теги интернет страницам, и flickr – где пользователи-фотографы присваивают теги фотографиям [127]. Таким образом, теги нужны для того, чтобы пользователи могли быстро повторно найти некоторую информацию, помеченную тегами.

- 184 категории (аналог глоссы в тезаурусе)1, (iii) список названий статей, имеющих данную категорию. Закономерно поэтому, что систему категорий называют тезаурусом с иерархическими отношениями между категориями [184]. Иерархические отношения между категориями возможны, поскольку категории могут быть присвоены не только статьям, но и самим категориям в Википедии. Категории используются в поисковых алгоритмах [176], [182].

В энциклопедии Википедия (и вообще в ресурсах, построенных на основе системы MediaWiki) представлены отношения эквивалентности, иерархии и ассоциативные отношения (табл. 1), связывающие друг с другом статьи и категории.

Таблица Виды отношений в Википедии (адаптированно из [184]) Отношение Обозначение В терминах MediaWiki Эквивалентность USE Перенаправление (redirect) (синонимия) USE FOR Иерархия Broader Term Категории данной категории Narrow Term Подкатегории данной категории Ассоциативность Related Term Ссылки между категориями В Википедии активно используется механизм перенаправлений, или иначе отношение эквивалентности2. Механизм перенаправлений позволяет решить такие проблемы, как заглавные/сточные буквы в заголовке статьи, разные варианты написания заглавного слова, аббревиатуры, синонимы3, разговорные выражения, научная терминология [135].

Пример иерархической цепочки категорий (Broader Term) для категории «Шифр» – «Криптография» – «

Защита информации» – 1 Правила Википедии рекомендуют, чтобы у категорий не было аннотаций, то есть названия категорий должны быть ясными и не требующими пояснений. Возразим, что в редких случаях (особенно, когда нет основной статьи, описывающей понятия категории) аннотации нужны, например, когда категории имеют научное название, см. например, http://ru.wiktionary.org/wiki/Категория:Эпистемические_глаголы 2 В русской Википедии есть такие примеры эквивалентности, как: перенаправление со статьи «Броузер» на статью «Браузер», «Астронавт» – «Космонавт», «Космодром Байконур» – «Байконур», «Космос (астрономия)» – «Вселенная», «Linux» – «GNU/Linux».

3 Обратную проблему – проблему многозначности в Википедии решают с помощью специальных страниц, содержащих перечисление значений для данного слова со ссылка на соответствующие страницы.

- 185 «Информатика» и т.д. Пример иерархической цепочки подкатегорий (Narrow Term) для категории «Криптография» – «Аутентификация» – «Биометрия».

Гиперссылки – это основной способ навигации в Веб, они же связывают как страницы, так и категории в Википедии. Ассоциативные отношения между категориями определяются наличием обычных ссылок между страницами-категориями [184]. В работе [103] различают понятия related terms (семантически связанные, близкие по значению слова) и similar terms – семантически сходные, сходные по значению слова (в основном синонимы). Таким образом, понятие Semantic relatedness шире, чем Semantic similarity, так как сюда включаются (кроме синонимии) ещё отношения:

меронимии, антонимии и др. [103].

К какому виду отношений отнести ссылки между статьями энциклопедии Поскольку между собой могут быть связаны самые разные статьи1, а наличие связи определяется общностью контекста статей, постольку указать жёстко какой-то один тип отношений, связывающий статьи, было бы не верно. Следующим шагом в развитии Википедии, как технологии семантической паутины2, является: (i) указание типа ссылок между статьями, (ii) указание типа данных внутри статей. Результаты разработки такого семантического расширения, встраиваемое в ВП (Semantic Wikipedia), представлены в работе [183] и доступны в интернет3.

1 В работе [135] указывают на проблему гиперссылок, на то, что часто в энциклопедической статье указаны ссылки на статьи, которые незначительно, слабо связаны с исходной статьёй. Это проблема для поисковых систем, которые выполняют поиск на основе анализа гиперссылок. Учёные из Новой Зеландии [135] предлагают рассматривать только взаимные ссылки. Я бы предложил следующее:

рассматривать и не взаимные, но взаимным давать приоритет. Какой приоритет Это уже будет зависеть от алгоритма. Например в HITS – включать в корневой набор только вершины, взаимносвязанные с исходной вершиной, в базовый – включать вершины с не только взаимными ссылками.

2 «Semantic Web – это расширения Веб, позволяющие выполнять автоматическую (и ручную) обработку данных вычислительным системам (и человеку). Расширения обеспечат: (i) представление данных в машинно-читаемой форме, описывающих содержание веб-страниц, (ii) возможность пользователям указывать отношения (например, семантические) между различными типами данных».

http://www.w3.org/2001/sw/SW-FAQ 3 См. программу (http://ontoworld.org) и описание (http://ru.wikipedia.org/wiki/Семантическая_вики).

- 186 Замечания о категориях и ссылках Википедии Названия страниц в формате вики состоят из двух частей: пространство имён (необязательная часть) и собственно название. Например, статья «Шифр» имеет страницу обсуждения с заголовком [[Обсуждение:Шифр]]1, в которой пространству имён соответствует «Обсуждение:».

Страница – это любой документ энциклопедии, который имеет заголовок. И статьи, и категории являются страницами.

Статьи – это страницы в пустом пространстве имён. Это основные страницы энциклопедии. Например, статья Шифр имеет заголовок [[Шифр]] Категории – это страницы в пространстве имён «Категория:». Они служат для группирования сходных по тематике страниц.

Присвоить странице категорию можно, добавив странице тег категории со ссылкой на страницу категорию. Например, редактируемый текст статьи [[Рукопись Войнича]]2 содержит:

[[Категория:Шифры]] [[Категория:Википедия:Избранные статьи]] [[Категория:Древние книги]] [[Категория:Нерасшифрованная письменность]].

Пользователь, в свою очередь, видит внизу страницы перечисление категорий (со ссылками на страницы категории):

Шифры, Википедия:Избранные статьи, Древние книги, Нерасшифрованная письменность Страницы категории генерируются автоматически, они содержат ссылки на все страницы, содержащие упоминание о данной категории.

Сообщество Википедии рекомендует придерживаться следующих правил3:

• Каждая страница должна быть внесена хотя бы в одну категорию. Можно внести и в несколько, однако иногда бывает разумнее внести страницу в категорию более высокого уровня.

• Каждая категория, кроме одной категории верхнего уровня, должна быть внесена хотя бы в одну категорию более высокого уровня.

1 Двойные скобки в формате вики являются аналогом гиперссылки в Веб.

2 См. http://ru.wikipedia.org/wiki/Рукопись_Войнича 3 См. http://ru.wikipedia.org/wiki/Википедия:Категории - 187 • В одну категорию включают похожие статьи. В одну категорию включают похожие подкатегории.

• У категорий нет аннотаций.

В работе [135] отмечают, что одним из основных источников информации в программных проектах, связанных с Википедией, являются категории. Но даже этот источник данных не является однозначно определённым, поскольку категории могут представлять не только родовидовые отношения (гиперонимия, is-a), но также отношения частьцелое (меронимия), наличие свойств (has-property) [173].

Категории не образуют дерево1, скорее – это направленный граф без циклов [150] (хотя авторы Википедии прилагают усилия, чтобы таксономия категорий была бы деревом, по крайней мере, это отражено в рекомендациях к написанию статей Википедии2). Могут существовать многие схемы категоризации одновременно. Сообщество Википедии рекомендует избегать циклы, а в случае их обнаружения – избавляться от них.

Группировать статьи в энциклопедии можно с помощью категорий, списков, и навигационные шаблоны (article series box, navigational templates).

Навигационные шаблоны указывают статьи в хронологической или иной последовательности. У каждого способа есть свои достоинства и недостатки3.

Например, списки могут содержать ссылки на ещё не существующие страницы, а категории – нет4. Другой недостаток категорий в том, что удаление страницы из категории нельзя обнаружить, если только не было установлено слежение (watch) на все страницы категории5. Возможность автоматически связать (auto-linking) категорию со страницей (достаточно указать тег категории на странице) – главное достоинство категорий.

Главная разница между категориями вики и тегами социальных сетейзаключается, вероятно, в том, что пользователи создают теги сами, то есть теги отражают лексикон пользователя. А категории вики создаются 1 См. http://en.wikipedia.org/wiki/Wikipedia:Categorization 2 См. http://ru.wikipedia.org/wiki/Википедия:Правила_отнесения_в_категории 3 См. http://en.wikipedia.org/wiki/Wikipedia:Categories,_lists,_and_series_boxes 4 См. http://en.wikipedia.org/wiki/Wikipedia_talk:Categorization/Archive_1#Lists_v._categories 5 См. http://meta.wikimedia.org/wiki/Category_talk:Demo 6 См. замечание о folksonomy на стр. 183.

- 188 пользователями сообща. Тем не менее, теги – это ещё один источник информации, который может использоваться для кластеризации текстов. В работе [111] показано, что: (i) теги мало подходят для кластеризации текстов блогов1; (ii) часто встречающиеся теги (ЧВТ) подходят для описания кластеров как метаданные концепта кластера. Оценка пропорции ЧВТ в кластере позволяет оценить и удалить слабые2 кластеры, проверить тематическую целостность набора текстов блогов.

Общий недостаток категорий и списков вики – это дублирование информации, то есть параллельное существование списков (например, List of astronomers) и категорий (Astronomers). К сожалению, дублирование информации не полное: не все статьи из списка могут быть помечены соответствующей категорией (например, не у всех страниц астрономов со страницы http://en.wikipedia.org/wiki/List_of_astronomers указана категория Astronomers).

На декабрь 2005 года 78% статей было соотнесено каким-либо категориям, всего зафиксировано 87 тыс. категорий [150], на январь года 94% статей соотнесено каким-либо категориям, всего зафиксировано 91.5 тыс. категорий [173].

1 См. Блогосфера российского интернета. Информационный бюллетень Яндекс. Осень 2006 года.

http://company.yandex.ru/articles/yandex_on_blogosphere_autumn_2006.pdf 2 Под силой кластера понимается число тегов, часто употребляемых разными пользователями. Таким образом, авторы работы [111] выделяют сильные и слабые кластеры.

Pages:     ||
|



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.