WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     ||
|

В работах [3], [39], представлен метод формирования графовой структуры данных по текстовой информации и тезаурус предметной области в виде визуальной интерактивной среды6. Достоинством визуального представления является «возможность воспринимать содержимое текста не последовательно, а одномоментно. Это позволяет воспринимать структуру 1 MSR расшифровывается как мера семантической близости, см. сайт MSR http://cwl-projects.cogsci.rpi.edu/ msr 2 CGI (Common Gateway Interface) интерфейс обеспечивает связь внешней программы с веб-сервером.

3 Визуальные поисковые системы обладают возможностью представлять результаты поиска визуально либо обеспечивают средствами для наглядного (интерактивного) формулирования самой задачи поиска.

4 См. http://www.visualthesaurus.com 5 См. http://www.ug.it.usyd.edu.au/~smer3502/assignment3/form.html 6 См. http://vslovar.org.ru - 57 связей предметной области в комплексе, притом именно в том, который соответствует связям, сформированным специалистом..., а не формировать его самостоятельно при прочтении груды технической документации» [39].

Плюс интерактивной среды «Визуальный словарь» (СПИИРАН) в том, что данное приложение представлено в виде HTML страницы и для работы не требует от пользователя установки дополнительных приложений.

В [185] представлен алгоритм Roark и Charniak (и реализация с визуализацией результатов) для получения упорядоченного списка слов, принадлежащих указанной категории. Алгоритм включает шаги:

1. Для данной категории выбрать примеры (так называемые «seed words», то есть начальные слова, «затравка» для алгоритма);

2. Подсчитать число сочетаний seed слов с другими словами корпуса;

3. Выбрать новые seed слова с помощью «figure of merit»1;

4. Перейти к шагу 2, n итераций;

5. Упорядочить слова по степени принадлежности к категории (на основе «figure of merit») и выдать упорядоченный список.

Слабое место алгоритма в выборе начальных слов экспертом.

Существует опасность «инфекции» – одно неправильно предложенное слово (не относящееся к категории) повлечёт за собой другие. Система, реализующая алгоритм, предназначена для автоматического создания словарей из текста на естественном языке. К достоинствам визуализации результатов можно отнести:

• Web-интерфейс. Следовательно, минимальные требования к клиенту – достаточно наличия интернет браузера;

• Выбор корпуса текстов для поиска, что даёт возможность тематического поиска.

Главный недостаток – это статическая картинка в качестве результата.

Значит, для постановки новой задачи необходимо возвращаться на предыдущую страницу, перезагружать страницу (современные технологии, 1 «Similarity measure» в [185] – это и есть «figure of merit» (число совместных совпадений слов в списках).

- 58 например, AJAX1, Piccollo2, Flash позволяют решить эту проблему, см.

пример визуального поисковика Kartoo3).

Облако тегов (tag cloud) – это ещё один способ формирования результатов поиска для одномоментного восприятия пользователем. В поисковой системе Ontos Semantic Web [124] используется подобное облако тегов. Другой пример – система Newzingo4, автоматически сканирующая новости Google и представляющая их в виде облака новостей (Рис. 2).

В облаке тегов больший размер кегля (font-size) указывает на большую важность (популярность) слова. Чем больше найдено новостей, содержащих некоторое слово, тем слово будет больше. В данном случае (Рис. 2) популярными словами среди новостей технической тематики являются такие слова, как: apple, google.

Достоинство метода в том, что одним взглядом можно охватить все существенные события, все новостные сообщения. У облака новостей есть недостатки. Один из них – нет информации о динамике новостей, неясно какая тема набирает обороты, а к какой интерес угасает. В Newzingo новостная динамика представлена в виде списка новых тегов (recent tags).

Другой недостаток облака новостей проявляется из-за того, некоторые темы (в силу исторических и других причин) обсуждаются регулярно (например:

cars, ibm, intel, apple). Теги, соответствующие этим новостям, занимают место и заслоняют в облаке потенциально более интересные на сегодня темы.

1 См. http://ru.wikipedia.org/wiki/AJAX 2 См. http://www.cs.umd.edu/hcil/piccolo/index.shtml 3 Визуальный поисковик, использует Flash технологию. http://kartoo.com 4 См. http://newzingo.com - 59 Рис. 2. Указание на важность слова за счёт большего размера кегля (Newzingo) Альтернативой механизму тегов (folksonomy1) является поиск на основе пересечения данных, соотнесённых разным категориям, что представлено на отечественном сайте «Перекрестный каталог».2 Категории, с одной стороны, являются альтернативой тегам, поскольку ресурс (интернет-страница, викистраница, сайт, фотография) может иметь несколько тегов, несколько категорий (в Википедии). Можно выполнить операцию пересечения множеств и найти ресурсы, соответствующие нескольким тегам или категориям. С другой стороны, преимущество категорий в том, что они образуют иерархию. Пользователь может, отталкиваясь от данной категории, пойти к более общей либо к более частной категории.Действительно визуальным можно назвать приложение Flickr Graph4 – визуализация социальной сети, поскольку для представления вершин графа используются картинки, а именно: фотографии участников проекта flickr (рис. 3). Приложение вычисляет положение вершин графа на основе классического алгоритма притяжения-отталкивания5. Идею вершин-картинок можно было бы использовать для визуализации отношений между страницами Википедии. В этом случае вершины графа, соответствующие 1 См. замечание с описанием folksonomy на стр. 183.

2 Сайт «Перекрестный каталог» предлагает несколько осей (схем) категоризации, выбирая значения которых, пользователь сужает пространство поиска. См. http://4kg.ru 3 Авторы систем, использующих закладки, предлагают различные способы организации закладок, что сближает подход тегов с подходом категоризации страниц. Например, на del.icio.us предлагается механизм «bundle tags» для организации иерархии закладок.

4 См. http://www.marumushi.com/apps/flickrgraph 5 См. http://en.wikipedia.org/wiki/Force-based_algorithms - 60 страницам Википедии, будут представлены с помощью thumb картинок1. За пользователем можно оставить право выбора графического или текстового представления вершин графа, например, как на сайте Функциональной Визуализации (http://www.visualcomplexity.com/vc).

Рис. 3. Визуализация социальной сети в приложении Flickr Graph Для анализа социальных сетей, получившихся в ходе работы в Википедии предназначено Java-приложение Sonivis [140].

Два следующих приложения не выполняют никакого поиска. Их задача – это анализ и графическое представление истории работы пользователя c вики сайтом.

В приложении Rhizome Navigation2 анализируется история работы пользователя с вики страницами. На рис. 4 представлены вики страницы (закрашенные прямоугольники), которые посетил пользователь, и ссылки между страницами (линии). Чем дольше пользователь оставался на странице, тем больше будет по размеру соответствующий прямоугольник. Часто используемые ссылки отображаются более толстыми и короткими линиями.

1 «Многие статьи Википедии содержат один рисунок (ознакомительный), иллюстрирующий главную мысль статьи. В этом качестве для биографической статьи используется портрет, для статьи о бытовой технике — фотография предмета статьи, для статьи об общественном движении — его символ или флаг, и так далее. Рекомендуется именно этим изображением и начинать статью. Такое изображение должно обязательно иметь атрибут thumb» (http://ru.wikipedia.org/wiki/Википедия:Изображения).

2 См. http://www.metaportaldermedienpolemik.net/wiki/Blog/2006-04-18/RhNav3D - 61 Рис. 4. Визуальное представление просмотренных пользователем вики страниц в приложении Rhizome Navigation Приложение Pathway позволяет «не потеряться в бесчисленных перекрёстных ссылках Википедии»1. Приложение визуально представляет вики страницы, посещённые пользователем, в виде сети: вершина сети – это статья, ребро – это ссылка, по которой пользователь перешёл от одной страницы к другой (рис. 5). Эту сеть можно сохранять на диск и загружать.

Ещё два приложения: WikiViz и ClusterBall, написанные одним автором, Крисом Харрисоном, позволяют визуально представлять данные Википедии.

В программе WikiViz2 одновременно отображается значительная часть Википедии (десятки тысяч страниц и связей между ними), однако за счёт потери интерактивности. Первоначальный учёт ссылок между статьями и категориями приводил к тому, что все вершины сливались в единое целое, в один кластер, поэтому в WikiViz учитываются только ссылки, указанные в тексте страниц.

В приложении ClusterBall3 визуализируется структура трёх уровней категорий Википедии. В центре графа отображается родительская вершина.

Статьи, на которые ссылается родительская вершина, рисуются внутри шара.

И, наконец, статьи, ссылающиеся на эти (внутренние) вершины отображаются во внешнем кольце. Полученные рисунки ничего не говорят о сути данных, то есть о том, какие статьи представлены, однако построенные кластеры позволяют косвенно судить о способе организации информации в Википедии, позволяют сравнить структуру Википедии с системами 1 Программа Pathway с открытым исходным кодом написана на языке Cocoa для компьютеров Макинтош.

См. http://pathway.screenager.be 2 См. http://www.chrisharrison.net/projects/wikiviz/index.html 3 См. видеофильмы и рисунки на странице проекта http://www.chrisharrison.net/projects/clusterball - 62 MVblogosphere1, 6Bone IPv62, и Gnom3, поскольку для них получены аналогичные рисунки.

Рис. 5. История просмотра страниц Википедии в приложении Pathway 1.4 Постановка задачи исследования На первом этапе исследований проведён анализ методов поиска синонимов и методов поиска похожих документов (интернет страниц, статей энциклопедии с гиперссылками и т.п.). Необходимо выполнить ряд подзадач для решения общей задачи автоматизации построения списков семантически близких слов. Был обоснован выбор HITS алгоритма для поиска. Далее необходимо, во-первых, адаптировать HITS алгоритм к поиску наиболее похожих документов в проблемно-ориентированном корпусе текстов с гиперссылками и категориями.

Во-вторых, нужно реализовать предложенный алгоритм поиска семантически близких слов (в том числе синонимов) в виде программы (с визуализацией результатов поиска с возможностями интерактивного 1 См. http://www.mvblogs.org/visuals/visual_08.php 2 См. http://www.visualcomplexity.com/vc/project_details.cfmid=142&index=142&domain= 3 См. http://www.visualcomplexity.com/vc/project_details.cfmid=55&index=55&domain= - 63 поиска) для последующей экспериментальной проверки работоспособности и алгоритма и программы.

В-третьих, необходимо спроектировать архитектуру программной системы оценивания и разработать способы численной оценки набора синонимов. Способы численной оценки набора синонимов необходимы для проведения экспериментальной части работы. Проектирование архитектуры программной системы оценивания – это задел на будущее, для более всесторонней оценки работы алгоритма поиска.

Одно из приложений HITS алгоритма, используемое в данной работе – это вычисление меры сходства вершин графа. Поэтому, в-четвёртых, для полноценной оценки HITS алгоритма предлагается разработать альтернативный алгоритм вычисления меры сходства вершин графа.

Реализация такого алгоритма и собственно сравнение являются частью будущих исследований и не будут представлены в данной работе.

Было указано выше на необходимость морфологической обработки текстов в задачах автоматической обработки текстов на естественном языке (такая обработка необходима в том числе и для автоматизированного построения списков семантически близких слов). Также была выбрана программная среда GATE для обработки текстов на естественном языке.

Таким образом, пятая подзадача – эта разработка архитектуры и реализация программного модуля системы GATE для морфологического анализа текстов на русском языке.

- 64 Выводы по главе Проведённый анализ проблемы автоматизированного построения списков семантически близких слов показал, что здесь можно выделить такие основные подзадачи, как: (1) выбор текстового ресурса для поиска слов;

(2) выбор и адаптация одного из перечисленных выше алгоритмов для данного текстового ресурса; (3) решение задачи оценки алгоритма и выбор текстового ресурса для оценки результатов работы алгоритма; (4) метод визуализации результатов поиска.

Рассмотренные алгоритмы поиска похожих страниц, поиска семантически близких слов в значительной степени зависят от структуры документов, от корпуса текстов в пространстве которого выполняется поиск.

Среди множества проблем создания корпуса, можно выделить общую проблему отсутствия единого стандарта. В диссертации в качестве корпуса текстов предлагается использовать коллективную онлайн энциклопедию Википедия. Это позволяет решить в какой-то мере проблему стандарта (все статьи унифицированы, а именно есть стандартные метаданные: заголовок статьи, категории, определяющие тематику статьи). Если подытожить причины использования Википедии как текстового ресурса, то получим – стандартизация, наличие программного обеспечения, классификация текстов, большое количество статей и общедоступность.

Недостатками алгоритмов (HITS и PageRank) является то, что они используют только структуру ссылок и не учитывают существующую классификацию текстов (например в корпусе текстов Википедия). Заметим, что необходимой частью алгоритмов является возможность численной оценки качества полученных результатов.

Анализ поисковых систем показал, что многие из них обеспечивают визуализацию результатов поиска. Автором выделены системы, представляющие результаты поиска в виде статической и динамические картинки. В данной работе предложена динамическая интерактивная визуализация результатов, обеспечивающая большую наглядность и удобство при поиске данных.

- 65 Таким образом, основными проблемами автоматизированного построения списков семантически близких слов можно считать (i) проблему построения алгоритма поиска, который, с одной стороны, адаптирован к существующему текстовому ресурсу, с другой стороны, результат его работы может быть однозначно оценен, и (ii) проблема визуализации результатов поиска. На решение этих проблем и направлена данная диссертационная работа.

Pages:     ||
|



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.