WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 | 2 ||

Был проведен анализ существующих методов машинной классификации текстов, и было принято решение об использовании вероятностного метода PrTFIDF, являющегося совершенствованием наивного байесовского классификатора. Байесовские классификаторы отличаются очень высокой производительностью, что дает возможность классифицировать поступающие в систему потоки документов “на лету”. PrTFIDF обеспечивает приемлемые результаты по точности, хотя и уступает ряду других, более сложных методов, требующих значительных вычислительных затрат. Также учитывалась необходимость фильтрации информации, что не позволяет использовать некоторые методы.

Суть метода заключается в предсказании апостериорной вероятности принадлежности конкретного документа (представляемого в виде вектора признаков - термов), на основании априорных вероятностей принадлежности документа к рубрикам и статистики термов, характерных для конкретной рубрики. Для определения апостериорной вероятности применяется формула Байеса. В алгоритме PrTFIDF применяются несколько отличные от метода Байеса способы аппроксимации вероятностей отношения документов к рубрикам:

.

где TF(w,d) – частота вхождения слова w в документ d,

|d| – общее количество слов в документе.

Вероятности рассчитываются отдельно для каждой категории, и принимается решение, принадлежит документ категории или нет (бинарная классификация). При этом множество рубрик С сокращается до двух – и, в которую входят все документы, не вошедшие в.Для вычисления вероятностей используется процесс обучения, во время которого анализируются заранее классифицированные документы и происходит вычисление априорных вероятностей, связанных со значимостью термов. Обучение представляет собой вычисление всех возможных на основе обучающей выборки документов.

В разработке модуля геопространственных данных ключевое значение имело решение вопроса распознавания файлов геоданных, размещенных в виде архивов. Для этого обнаружитель геоданных проверяет текстовую составляющую гиперссылки (текст якоря и текст “вблизи” ссылки). Если в ней встречаются слова: «карта», «снимок», «масштаб», «местности», указание формата геоданных, цифровое обозначение масштаба и ряд других индикаторов, то ссылка считается кандидатом в геоданные, а файл сохраняется на сервер.

Далее происходит разархивирование и определение формата файла(ов) в архиве. Если геоданных в архиве не обнаружено, карточка файла удаляется из системы. “Положительные” карточки сохраняются в системе и становятся доступными для поиска по аннотационной составляющей. Файлы геоданных скачиваются с удаленных серверов в специальную директорию системы. Дополнительно модуль содержит функционал обнаружения копий файлов геоданных, чтобы избежать их сохранения в системе в разных карточках.

Псевдокод алгоритма работы модуля выглядит следующим образом:

Алгоритм обнаружителя геоданных (в составе сетевых роботов)

FOR по каждой гиперссылке, обнаруженной на веб-странице:

    1. Ссылка указывает на файл геоданных (по расширению файла);

GOTO (c);

    1. Ссылка указывает на файл-архив (zip, rar)
      1. Получить текст якоря ссылки, текст ALT, текст абзаца, в котором расположена ссылка;
      2. В указанных текстах обнаружены слова-индикаторы

GOTO (с);

    1. Создать карточку файла геоданных в БД.

Алгоритм загрузчика геоданных (отдельный модуль, работающий по расписанию)

FOR по каждой новой карточке, обнаруженной в БД;

    1. Скачать файл, по ссылке указанный в карточке;
    2. Карточка-кандидат (архивный файл)
      1. Распаковать архив;
      2. Архив содержит файлы геоданных (по расширению)

GOTO (c);

    1. Такой файл уже есть в хранилище (проверка на копию)

Удалить файл и карточку из БД; CONTINUE;

    1. поместить файл(ы), связанный(е) с карточкой в хранилище;
    2. включить в карточку информацию о файле;
    3. проиндексировать текстовую составляющую карточки;

Разработка методик анализа геопространственного контекста информации и геокодирования веб-документов осталась за рамками диссертационного исследования, как по причине ограниченности времени, так и по причине сложности реализации методик. Как уже отмечалось, для проведения геокодирования нужны специальные базы данных: электронные газеттиры. Но в настоящее время отсутствует сколь либо полный электронный русскоязычный газеттир, хотя на Западе подобные БД существуют, причем некоторые из них – в открытом доступе. Во многом по этой причине в российской науке направление GIR (Geographic Information Retrieval) на сегодняшний день развито крайне недостаточно. Проблемы геокодирования подробно рассмотрены автором в работе [1] и являются предметом дальнейших комплексных исследований.

Следующим этапом явилась разработка новостного интегратора. Предложен механизм шаблонов, позволяющий выполнять сбор анонсов новостной информации как из RSS каналов, так и непосредственно путем чтения кода веб-страниц новостных разделов. В системе регистрируется набор новостных каналов, имеющих отношение к геоинформационной тематике, на каждый канал настраивается шаблон, определяющий формат представления данных в канале.

Пример шаблона выглядит следующим образом:

<channel>

<channel_url>http://www.gisa.ru/</channel_url>

<begin><php &nbsp;&nbsp;Последние новости!<\/td>></begin>

<end><php &nbsp;&nbsp;&nbsp;&nbsp;Наши предложения <\/td>></end>

<regexp><php <A href=(.*)><B>.*<\/B> (.*)<\/A><BR>></regexp>

<number>10</number>

<order><php url title></order>

<addurl>http://www.gisa.ru/</addurl>

</channel>.

В данном примере шаблон настроен на получение новостей непосредственно с веб-страниц и содержит html-маски, отражающие начало и завершение новостного блока, а также непосредственно маску регулярного выражения, по которому будет производиться преобразование информации в структурированный вид. По аналогии, можно настроить подобный шаблон практически на любую веб-страницу с новостной лентой, или любой RSS канал, поскольку новостные ленты в обоих случаях характеризуются повторяемостью элементов.

Псевдокод алгоритма работы модуля выглядит следующим образом:

FOR по каждому зарегистрированному в системе новостному каналу:

    1. Обратиться по адресу в <channel_url>;
    2. Получить фрагмент кода веб-страницы между <begin> и <end>;
    3. Осуществить парсинг фрагмента на основе регулярного выражения, построенного на выражении в <regexp>. Получить <number> элементов. Сохранить значения, соответствующие маске (.*) в массив;
    4. Связать значения массива (в порядке обнаружения) с типом данных, указанным в <order>;
    5. Подсчитать md5sum для текста заголовка и анонса;
    6. Новость с таким значением уже имеется CONTINUE;

ELSE Сохранить анонс новости в таблицу анонсов;

    1. Обратиться по URL с полным текстом новости, считать веб страницу и передать в коллекцию.

Распознанные анонсы новостей сохраняются в виде агрегированной новостной ленты, с которой могут работать пользователи системы. Для получения полных текстов новостей специальный новостной спайдер посещает веб-страницу с текстом новости, скачивает ее и помещает в веб-коллекцию, как обычный веб-документ, но с отметкой «новость». Такие веб-документы специалист может искать в специальном модуле системы – поиску по новостям.

Создание новостного интегратора обычно сопряжено с проблемами повторения новостей в различных новостных каналах. Для решения используют методики выделения новостных сюжетов (кластеризации новостей), аннотирования сюжетов, ранжирование новостей в сюжете. Но в виду узости геоинформационной тематики и сравнительно небольшого количества доступных новостных источников, проблема не является острой и поэтому не рассматривалась в ходе проектирования.

Разработка модуля поиска в онлайн-библиотеках не проводилась в данном диссертационном исследовании, в виду особой сложности решения задачи и ограниченности времени на проектирование. Исследования по индексированию «скрытого веб» продолжаются в настоящее время, и ученые сталкиваются со значительными трудностями в реализации.

В диссертационной работе принято решение ограничиться созданием специального раздела, в котором будут содержаться ссылки на такие онлайн-библиотеки вместе с описательной информацией. В случае необходимости, посетитель просто перейдет к нужной БД и осуществит поиск.

В четвертой главе представлены результаты экспериментальных исследований компонентов информационно-поисковой системы.

Для проведения экспериментов была осуществлена реализация ИПС в программных кодах. Аппаратной частью являлся сервер на базе ПК P4 3200МГЦ/1024Мб ОЗУ, с доступом в Интернет. В качестве программной платформы были выбраны: операционная система Linux Red Hat, веб-сервер Apache 1.3, СУБД MySQL и язык веб-программирования PHP. Отношение программного обеспечения к классу OpenSource позволяет снизить затраты на практическую реализацию системы.

Рис. 4. Поисковый интерфейс системы

Проведенные эксперименты показали соответствие полученных практических результатов разработанным моделям и алгоритмам модулей системы:

  1. Функционал Интернет-каталога отвечал всем предъявляемым требованиям, позволяя эффективно использовать каталог и управлять им.

Оценка рейтинга ресурса путем анализа посещаемости также показала корректность получаемых данных для тестовых ресурсов, в сравнении с показаниями других внутренних и внешних систем статистики.

  1. Целью эксперимента с модулем поиска геоданных явилось выявление на веб-страницах, собранных в коллекцию, ссылок на файлы геоданных. Модуль анализа успешно смог выделить геоданные с реальных Интернет-страниц: как размещенных в обычном виде, так и в виде архивов.
  2. Эксперименты с новостным интегратором подтвердили работоспособность шаблонов новостных каналов, механизмов формирования новостной ленты, выделения новостей-дублей, скачивания полных текстов новостей.
  3. Наиболее важным экспериментом системы являлось исследование качества фильтрации и классификации веб-документов.

Классификатор был обучен на наборе из 8020 заранее классифицированных веб-страниц. Классификации подверглась выборка из 5687 веб-страниц. Проверка результатов рубрицирования показала, что средняя ошибка по рубрикам составила порядка 22%, и было доказано, что точность классификации линейно возрастает с увеличением обучающей выборки. Таким образом, была установлена работоспособность метода для классификации, при условии его обучения на достаточном количестве документов.

  1. Была произведена сравнительная оценка релевантности поисковых результатов, в сравнении с результатами поисковой системы Яндекс. Для эксперимента были подготовлены 25 тестовых запросов по тематике использования GPS в ГИС, и анализировались ответы поисковых систем (первые 10 результатов). Использовалась 4х ступенчатая градация оценки поисковых результатов (от 0 до 4) по степени релевантности запросу.

Использовались следующие критерии оценки: средняя точность результатов (Average Precision - AP) и обесцениваемая совокупная выгода (Discounted Cumulative Gain - DCG) от поисковых результатов. Данные оценки являются достаточно распространенными критериями оценки качества результатов информационного поиска. AP отражает долю релевантной информации по конкретной тематике (рубрике) в списке результатов, а DCG – насколько хорошие результаты вернула система (согласно 4м уровням оценки качества), и насколько качественно было проведено их ранжирование.

Для разработанной системы анализировались два варианта поиска: с ограничением поиска по конкретной рубрике (GPS), и без ограничения.

Несмотря на то, что наиболее высокие результаты были показаны системой Яндекс (AP = 0,38, DCG=0,59), качество поиска в разработанной системе было близким (AP=0,33, DCG=0,51). Полученная оценка обусловлена тем, что система работала в тестовом режиме, и в коллекцию было собрано сравнительно малое количество веб-документов (13236), что несопоставимо с размерами индекса крупной поисковой системы. Также было отмечено, что фильтрация результатов поиска конкретной рубрикой положительно влияет на качество поиска (AP=0,35, DCG=0,55), что доказывает верность теоретических предпосылок применения в системе автоматического рубрикатора.

В заключении подведены итоги проделанной работы, сформулированы основные результаты и направления дальнейших исследований.

СПИСОК ОПУБЛИКОВАННЫХ РАБОТ ПО ТЕМЕ ДИССЕРТАЦИИ

Pages:     | 1 | 2 ||






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»