WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     ||
|

Представим, аналогично работе [14] (стр. 20), возникшие вопросы и принятые решения в табл. 4.10. Для наиболее интересных, но могущих быть записанными в одну строку преобразований в таблице приведены регулярные выражения [63].

1 Собственно, анализ самых частых терминов, полученных в индексной БД, позволял находить элементы вики-разметки, требующие обработки. Код переписывался и база генерировалась вновь.

- 139 Таблица 4.Решения по парсингу вики-текста N Вопросы Ответы Исходный текст Преобразованный текст 1 Заголовки (подписи) рисунков Оставить (извлечь) [[Изображение:Через-тернии-к- «Через тернии к звёздам» звёздам.jpg|thumb|«Через тернии к звёздам»]] [[Image:Asimov.jpg|thumb|180px|right| [[Isaac Asimov]] with his [[Isaac Asimov]] with his [[typewriter]].

[[typewriter]].]] 2 Интервики Оставить или удалить определяется пользователем (параметр b_remove_not_expand_iwiki).

3 Название категорий Удалить.

Регулярное выражение (RE): \[\[Категория:.+\]\] 4 Шаблоны; цитаты1; таблицы Удалить.

5 Курсивный шрифт и «жирное» написание. Знаки выделения (апострофы) удаляются.

'''italic''' ''bold'' italic bold 6 Внутренняя ссылка Оставить текст, видимый пользователю, удалить скрытый текст.

[[w:Wikipedia:Interwikimedia_links|text text to expand to expand]] [[run]] run [[Russian language|Russian]] Russian в [[космос|космическом пространстве]]. в космическом пространстве.

RE: внутренняя ссылка без вертикальной черты: \[\[([^:|]+)\]\] 7 Внешняя ссылка Оставить текст, видимый пользователю, удалить сами гиперссылки.

[http://example.com Russian] Russian [http://www.hedpe.ru сайт hedpe.ru — сайт — русский фан-сайт русский фан-сайт] RE: Имя сайта (без пробелов), содержащее точку '.' хотя бы раз, кроме последнего символа:

(\A|\s)\S+[.]\S+[^.]([\s,!]|\z) 8 Примечание. Раскрывать, переносить в конец текста.

word1Ref text. — word2. word1 word2.\n\nRef text.

1 Имеются в виду короткие цитаты: {{цитата|текст}}, см.

http://ru.wikipedia.org/wiki/Википедия:Шаблоны/Форматирование.

- 140 Для преобразования текстов в вики-формате в тексты на ЕЯ последовательно выполняются следующие шаги, которые можно разбить на две группы: (i) удаление и (ii) преобразование текста.(i) Удаляются такие теги (вместе с текстом внутри них):

1. HTML комментарии ();

2. теги выключения форматирования (

...
)2;

3. теги исходных кодов и .

(ii) Выполняются преобразования вики-тегов:

4. Извлекается текст примечаний , добавляется в конец текста;

5. Удаляется двойные фигурные скобки и текст внутри них ({{шаблон}});6. Удаляются таблицы и текст ({| table 1 \n {| A table in the table \n|}|}).

7. Удаляется знак ударения в текстах на русском языке (например, Котор);

8. Удаляется тройной апостроф, окружающий текст и обозначающий '''жирное выделение'''; текст остаётся;

9. Удаляется двойной апостроф, обозначающий ''наклонное начертание'';

текст остаётся;

10.Из тега изображения извлекается его название, прочие элементы удаляются;

11.Обрабатываются двойные квадратные скобки (раскрываются внутренние ссылки, удаляются интервики и категории);

12.Обрабатываются одинарные квадратные скобки, обрамляющие гиперссылки: ссылка удаляется, текст остаётся;

13.Удаляются символы (заменяются на пробел), противопоказанные XML парсеру:4 <, >, &, "; удаляются также их «XML-безопасные» аналоги: <, >, &, "; а также: ', , –, —

символы
,
,
заменяются символом перевода каретки.

1 См. код функции wikipedia.text.WikiParser.convertWikiToText в программе Synarcher.

2 Поскольку теги

 обычно «оборачивают» исходный код программ, не содержащий текстов на ЕЯ, см. http://en.wikipedia.org/wiki/Wikipedia:How_to_edit_a_page#Character_formatting.

3 Данная подфункция вызывается дважды, чтобы удалить {{шаблон в {{шаблоне}}}}. Более глубокие вложения в данной версии не учитываются.

4 Имеется в виду парсер протокола XML-RPC системы RuPOSTagger.

- 141 Данный преобразователь вики-текста воплощён в виде одного из Java-паке­ тов программной системы Synarcher [126]. Для замены элементов текста ши­ роко использовались регулярные выражения [63] языка Java. В табл. 4.приведён фрагмент статьи Русской Википедии «Через тернии к звёздам (фильм)». Показан результат комплексного преобразования текста по всем вышеуказанным правилам.

Таблица 4.Пример преобразования вики-текстаИсходный текст в вики-разметке Преобразованный текст {{Фильм | РусНаз = Через тернии к звёздам }} [[Изображение:Через-тернии-к-звёздам «Через тернии к звёздам» 2.jpg|thumb|«Через тернии к звёздам»]] «Через тернии к звёздам» научно'''«Через тернии к фантастический двухсерийный фильм звёздам»''' — [[научная фантастика|научно- режиссёра Ричарда Викторова по сценарию фантастический]] двухсерийный фильм Кира Булычёва.

[[режиссёр]]а [[Викторов, Ричард Николаевич|Ричарда Викторова]] по сценарию [[Кир Булычёв|Кира Булычёва]].

== Сюжет == == Сюжет == {{сюжет}} [[XXIII]] век. [[Звездолёт]] дальней XXIII век. Звездолёт дальней разведки разведки обнаруживает в [[космос]]е обнаруживает в космосе погибший корабль погибший корабль неизвестного неизвестного происхождения, на нём происхождения, на нём — гуманоидных гуманоидных существ, искусственно существ, искусственно выведенных путём выведенных путём клонирования. Одна клонирования. Одна девушка оказывается девушка оказывается жива, её доставляют на жива, её доставляют на [[Земля (планета)| Землю, где учёный Сергей Лебедев поселяет Землю]], где [[учёный]] Сергей Лебедев её в своём доме.

поселяет её в своём доме.

== В ролях == == В ролях == * [[Елена Метёлкина]] — ''Нийя'' * Елена Метёлкина Нийя == Ссылки == == Ссылки == {{викицитатник}} * [http://ternii.film.ru/ Официальный сайт * Официальный сайт фильма фильма] [[Категория:Киностудия им. М. Горького]] [[en:Per Aspera Ad Astra (film)]] 1 См. http://ru.wikipedia.org/wiki/Через_тернии_к_звёздам_(фильм).

- 142 API индексной базы данных вики Укажем существующие программные интерфейсы (API) для работы c данными ВП:

– FUTEF API для поиска в Английской Википедии с учётом категорий ВП.1 Поисковик реализован как веб-сервис на основе Yahoo!, результат возвращается в виде Javascript объекта JSON;– интерфейс для вычисления семантического сходства слов в ВП [149]. Здесь запрос идёт из Java через XML-RPC к Perl-процедуре, затем посредством MediaWiki выполняется обращение к БД;

– интерфейс к Википедии и Викисловарю [189]. Проведены эксперименты по извлечению данных из Английского и Немецкого Викисловаря. Главный недостаток программы — лицензия — «только для исследовательских целей».

– набор интерфейсов для работы с данными ВП, преобразованными в XML формат.Поскольку структура индексной БД отличается от схемы БД MediaWiki (для работы с которой уже написано достаточное количество необходимых функций в программе Synarcher), постольку возникла необходимость в разработке «сопряжения» для программного управления индексом. Итак, разработан программный интерфейс для работы с базой данных WikIDF.

I.) Интерфейс верхнего уровня позволяет:

1. получить список терминов для данной вики-страницы, упорядоченный по значению TF-IDF;

2. получить список документов, содержащих словоформы лексемы по заданной лемме; документы упорядочены по значению частоты термина (TF).

II.) Функции низкого уровня для работы с отдельными таблицами индексной БД (рис. 20) реализованы в пакете wikipedia.sql_idf программы Synarcher.

1 См. http://api.futef.com/apidocs.html.

2 См. http://json.org/json-ru.html.

3 См. http://modis.ispras.ru/sedna/ и http://wikixmldb.dyndns.org/help/use-cases/.

- 143 Эксперименты по построению индексных баз данных Разработанная программная система индексирования вики-текстов позволила построить индексные БД для Simple English1 (далее SEW) и Русской(далее RW) википедий и провести эксперименты. Статистическая информация об исходных БД, о парсинге и о размерах полученных БД представлены в табл. 4.12.

В двух столбцах («RW / SEW 07» и «RW / SEW 08») указано во сколько раз параметры русского корпуса превосходят английский по дампам от года (SEW от 9 и RW от 20 сентября) и от 2008 года (SEW от 14 и RW от февраля). Данными, характеризующими корпус текстов Русской Википедии, можно назвать большое количество лексем (1.43 млн) и общего числа слов (32.93 млн). Размер Русской Википедии примерно на порядок больше Английской (столбец «RW/SEW 08»): статей больше в 9.5 раз, лексем — в 9.6, всего слов — в 14.4 раза.

Значения следующих двух столбцов («SEW 08/07 %» и «RW 08/07 %») указывают, насколько выросли (по сравнению с собой же) английский и русский корпуса за пять месяцев с сентября 2007 до февраля 2008 гг.

В последнем столбце (SEW /RW) указано насколько быстрее шёл рост английского корпуса по сравнению с русским (отношение предыдущих двух столбцов), а именно: на 12% быстрее появлялись статьи и на 6% быстрее пополнялся лексикон Википедии на английском упрощённом языке.

1 1000 наиболее частотных слов, полученных по текстам Википедии на упрощённом английском языке, см. http://simple.wiktionary.org/wiki/User:AKA_MBG/English_Simple_Wikipedia_20080214_freq_wordlist.

(14.02.2008) 2 1000 наиболее частотных слов, полученных по текстам Русской Википедии (20 февраля 2008), см.

http://ru.wiktionary.org/wiki/Конкорданс:Русскоязычная_Википедия/20080220.

- 144 Таблица 4.Статистика по Русской Википедии и Simple Wikipedia, парсингу и сгенерированным индексным базам данных БД Википедии Simple Russian RW/ RW/ SEW RW SEW English (RW 08) SEW SEW 08/07 08/07 /RW (SEW 08) 07 08 % % % База данных Википедии Исходный дамп, дата 14 фев. 20 фев. – – – – – 2008 Исходный дамп, размер, МБ1 21.11 240.38 15.9 14.4 40 26 Статей, тыс. 25.22 239.29 10.7 9.5 31 17 Парсинг Парсинг всего, ч 3.63 69.26 15.1 19.1 4 32 -Парсинг одной страницы, сек 0.52 1.04 1.42 2.01 -20 13 -Индексная база данных Википедии Лексем в корпусе, млн 0.149 1.43 10.2 9.6 23 16 Лексема-страница (<=1000 1.65 15.71 10.1 9.5 24 16 для слова)2, млн Слов в корпусе, млн 2.28 32.93 15.1 14.4 29 23 Размер сжатого файла дампа 7.15 77.5 11.5 10.8 25 17 индексной БД, МБ Чтобы время парсинга, приведённое в табл. 4.12, имело смысл, укажем параметры рабочего компьютера и версии двух основных программ: ОС Debian 4.0 etch, ядро Linux 2.6.22.4, процессор AMD 2.6 ГГц, 1 ГБ RAM, Java SE 1.6.0_03, MySQL 5.0.51a-3.

Теперь обратимся к такому интересному вопросу корпусной лингвистики как распределение частот слов, упорядоченных по своей частоте, и проверим выполнение гипотезы Ципфа для текстов Википедии.1 Размер файла «...-pages-articles.xml.bz2», содержащего тексты статей.

2 Число связок «слово-статья» в корпусе, учёт не более 1000 для одного слова. Число 1000 здесь — это один из входных параметров программного комплекса построения индексной БД, см. «TF-IDF contraints» на рис. 1.

3 Следует признать, что к данному вопросу авторов привлёк рисунок с распределением частот слов в Английской Википедии за 2006 г., см. http://en.wikipedia.org/wiki/Zipf%27s_law#Related_laws.

- 145 Проверка выполнения закона Ципфа для вики-текстов Эмпирический закон Ципфа говорит о том, что частота употребления слова в корпусе обратно пропорциональна его рангу в списке упорядоченных по частоте слов этого корпуса [131] (стр. 23), то есть второе по частоте слово будет употребляться в текстах в два раза реже чем первое, третье — в три раза и так далее.

Другая формулировка закона Ципфа гласит: если построить список слов, отранжировав слова по уменьшению их частоты встречаемости в некотором достаточно большом тексте, и нарисовать график логарифма частот слов в зависимости от логарифма порядкового номера в списке, то получится прямая [155]. См. также построение аппроксимирующих расчётных ранговых распределений частот появления слов (РРЧС) в тексте А. С. Пушкина “Медный всадник” в работе [4].

На рис. 30 слова упорядочены (по убыванию частоты) вдоль оси абсцисс, вдоль оси ординат отложена частота слов. Кривая, составленная из знаков «+», построена по данным корпуса текстов Русской Википедии «RW 08». С помощью метода наименьших квадратов пакета Scilab [91] были построены и нарисованы аппроксимирующие кривые уRW по первым ста наиболее частотным словам корпуса (см. рис. 30, кривая розового цвета, длинный пунктир) и уRW по первым 10 тыс. слов (голубая линия, пунктир с точкой):

10K e14.51 ; уRW х = e16.уRW х = (4.1) 100 10K x0.819 x1.Знакам «Х» на рис. 30 соответствуют данные Википедии «SEW 08».

Аналогично нарисованы аппроксимирующие кривые: уSEW (зелёного цвета, точечный пунктир) и уSEW (красного цвета, пунктир с двумя точками):

10K e12.83 ; уSEW х= e14.уSEW х= (4.2) 100 10K x0.974 x1.- 146 Рис. 30 показывает, что закон Ципфа в целом выполняется для текстов википедий, то есть кривую на рисунке с логарифмическим масштабом вполне можно аппроксимировать прямой. При этом данные Simple Wikipedia (0.20)1 соответствуют данному закону немного лучше корпуса русских текстов (0.23). Что довольно-таки странно, поскольку размер Русской Википедии на порядок больше (табл. 4.12). Такое пристрастие выполнения закона к текстам на английском упрощённом языке, по сравнению с русским, можно объяснить либо особенностью упрощённого языка, либо разницей между русским и английским языками. Для окончательного выяснения вопроса нужно решить задачу промышленного масштаба, а именно:

построить индексную БД для English Wikipedia.

ruwiki 08 corpus ~1/x^0.~1/x^1,sim plewiki 08 corpus ~1/x^0.~1/x^1,0 1 2 3 10 10 10 10 Номер слова Рис. 30. Линейная зависимость убывания частоты слов от ранга в частотном списке слов (в масштабе логарифм-логарифм) для Русской Википедии и Simple Wikipedia на февраль 2008 г.

На рис. 31 представлено распределение частоты слов в текстах двух википедий в два момента времени, то есть на рисунке приведены данные для тех же четырёх корпусов (индексных БД), что представлены в табл. 4.12.

Перечислим значения пяти кривых (сверху вниз) на рис. 31:

1 0.20 — разница между степенью наклона аппроксимирующих прямых по ста (0.974) и тысяче (1.174) слов.

Частота - 147 – «ruwiki 08 corpus» (линия красного цвета, пунктир) — частота слов в корпусе Русской Википедии на 20.02.2008;

– «07 corpus» (фиолетовый цвет, пунктир: две точки, один штрих) — частота слов в корпусе Русской Википедии на 20.09.2007;

– «ruwiki 07 doc» (серый цвет, широкая полоса) — число документов, содержащих лексемы тех же слов, что указанны на графике «07 corpus» (Русская Википедия, 20.09.2007);– «simplewiki 08 corpus» (фиолетовый цвет, непрерывная линия) — частота слов в корпусе Simple Wikipedia на 14.02.2008;

Pages:     ||
|



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.