WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ РАЗРАБОТКА СИСТЕМЫ ПОКАЗА МОБИЛЬНОЙ КОНТЕКСТНОЙ РЕКЛАМЫ Д.Н. Касымова, программист разработчик ООО «Мобил 2», Новосибирск, Адрес: 630055, г. Новосибирск, ул. Мусы

Джалиля, 11 819, Касымова Д.Н., Тел: 8 923 120 7864. E mail: dilnara.kasymova Статья посвящена развитию технологии использования сотовой связи для показа нацеленной мобильной рекламы. Рассмотрены алгоритмы подбора нацеленных рекламных сообщений абоненту сотового оператора. Проведен сравнительный анализ различных методов ускорения поиска по сходству для параметров, заданных сотовым оператором.

Ключевые слова: Мобильная реклама. Поиск по сходству. Контекстная реклама. Индексы для поиска по сходству.

обильная реклама – это сравнительно но бонусов (например, денежное вознагражде вое явление на российском рекламном ние за каждое сообщение, которое может ис Мрынке. Использование данного канала пользоваться для оплаты услуг сотовой связи);

коммуникаций в рекламных кампаниях началось MMS (Multimedia Message Service – служба несколько лет назад. Многие специалисты и экс мультимедийных сообщений) – система, по перты рекламного рынка России считают, что зволяющая посылать и принимать мультиме у рекламы в мобильных телефонах есть хорошее дийные (изображения, мелодии, видео) сооб будущее [Крапивинский 2008: 8]. Использование щения при помощи сотового телефона. Ана технологий мобильного маркетинга в рекламных логично SMS, абонент в обмен на согласие кампаниях является эффективным способом про просматривать рекламу посредством MMS движения товаров и услуг на рынок. Преимущества получает «информационно развлекательный использования мобильного маркетинга очевидны: бонус». Например, в МТС абоненту высыла полностью автоматизированный двусторонний ка ется приглашение участвовать в акции, если нал коммуникаций, работающий в режиме 24/7;

абонент согласен, он отправляет в ответ на возможность персональной коммуникации с целе приглашение пустое MMS сообщение. После вой аудиторией, что позволяет формировать и под этого ежедневно в течение определенного держивать клуб лояльных к бренду потребителей;

срока он будет бесплатно получать MMS доступность для целевой аудитории, вне зависимо сообщение с погодой, анекдотом, гороско сти от местонахождения. пом, кратким выпуском новостей и курсом Обычно используются следующие способы до валют. Верхнюю часть каждой страницы ставки рекламы абонентам сотовой сети: MMS сообщения занимает баннер с рекла SMS (Short Message Service – служба коротких мой товаров и услуг;

сообщений) – система, позволяющая посы USSD (Unstructured Supplementary Service Data) – лать и принимать текстовые сообщения при стандартный сервис в сетях GSM (глобальный помощи сотового телефона. Как правило, цифровой стандарт для мобильной сотовой абонент добровольно соглашается с рассыл связи), позволяющий организовать интерак кой SMS сообщений «рекламно информаци тивное взаимодействие между абонентом сети онного характера» в обмен на получение и сервисным приложением в режиме передачи 20 БИЗНЕС-ИНФОРМАТИКА №2(08)–2009 г.

АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ коротких сообщений. USSD сервис в основ Таким образом, на рынке мобильной рекламы ном предназначен для обмена сообщениями происходит взаимодействие сотовых операторов между абонентом и дополнительными серви и сервисов контекстной рекламы. У первых есть сами, в простейшем случае, службой автоин информация, позволяющая выбрать оптимальное форматора расчётного счета, тогда как SMS решение по показу рекламы, у вторых – опыт.

в основном служит для обмена короткими со Преимущество сотрудничества рекламодателя общениями между абонентами. Этот канал с сотовым оператором – возможность четкой сег так же может использоваться для размещения ментации целевой аудитории. Количество собирае рекламы – в списке данного меню может быть мой и хранимой сотовым оператором информации пункт меню бренда, которое составляется огромно (пол, возраст, прописка, тарифный план, с учётом задач рекламной компании бренда. среднемесячные расходы на связь, модель телефо Например, в меню могут быть внесены такие на, частота и продолжительность зарубежных поез пункты, как условия проводимой брендом док, уровень дисциплинированности при оплате промо акции, брендированный контент, ку счетов и т.д.).

поны на скидку и т.д.;

Очевидно, сотовый оператор не может прода WAP (Wireless Application Protocol – протокол вать информацию об абоненте рекламодателю.

беспроводного доступа) – это средство полу Вместо этого, оператор может предложить свои ус чения доступа к ресурсам интернет посред луги по нацеливанию рекламы – в частности свою ством только мобильного телефона. По сути, собственную систему показа контекстной рекламы, это технический стандарт, описывающий спо которая будет использовать известную об абоненте соб, с помощью которого информация из ин информацию для выдачи рекламного сообщения, тернета передается на дисплей мобильного те соответствующего интересам абонента.

лефона. Реклама на WAP сайтах подчиняется В нашей стране в настоящее время (начиная тем же законам, что и обычная интернет с 2007–2008 гг.) организуются стратегические парт реклама. нёрства между операторами сотовой связи и агент ствами мобильной рекламы. Например, у «большой Мобильная реклама нацелена на людей, кото тройки» (Российские лидеры сотовой связи – МТС, рые с наибольшей вероятностью купят рекламируе Билайн, Мегафон) существуют следующие парт мый товар или воспользуются предлагаемой услу нёрства: Билайн+BrandMobile, Мегафон+CustomLine гой, так называемую целевую аудиторию. и МТС+NMM (IMHO VI).

Нацеливание рекламы (таргетинг) бывает следу Данная статья посвящена разработке системы ющих видов: показа мобильной контекстной рекламы («Banner географический таргетинг – показ рекламы Engine»), которая использует известную об абонен целевой аудитории, ограниченной некоторым те информацию (собранную сотовым оператором) географическим регионом, выбранным рек для выдачи рекламного сообщения, соответствую ламодателем;

щего интересам абонента.

социально демографический таргетинг – по возрасту, полу, доходу, должности и т.д.;

«BannerEngine» – система показа мобильной таргетинг по времени показа (утро или вечер, контекстной рекламы, используемая сотовым опе будни или выходные);

ратором. «BannerEngine» реализует следующие ос таргетинг по интересам (контекстная рекла новные функции:

ма). Показ рекламы в соответствии с некото хранение и управление баннерами (реклам рым контекстом. ными сообщениями) в системе;

хранение и управление сервисами (сервис – Как видно, нацеленная мобильная реклама – это именованный информационный канал) в си развитие ставшей уже привычной для интернет поль стеме;

зователей нацеленной интернет рекламы. Считается, хранение и управление регионами (регион – что история возникновения контекстной интернет набор масок MSISDN абонентов, соответ рекламы начинается с 1997 г., когда Билл Гросс, осно ствующий географическому региону) в сис ватель молодой компании Idealab, придумал прода теме;

вать ссылки, показываемые одновременно с резуль выдачу баннеров по запросу от сторонних татами запросов. Сегодня услуги по контекстной приложений с учётом ограничений, наложен рекламе предлагают тысячи различных сайтов. ных на выдачу баннеров;

БИЗНЕС-ИНФОРМАТИКА №2(08)–2009 г. АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ учёт количества показов баннеров;

2. Подошедшими считаются все баннеры, КС формирование статистики показов баннеров. которых являются подмножеством КС абонента.

Например, для абонента [КС1,КС2] из баннеров В рамках данной статьи интересующим нас ог [КС1,КС2,КС3], [КС1,КС2] и [КС1] будут выбра раничением, наложенным на выдачу баннеров, яв ны [КС1] и [КС1,КС2].

ляется т.н. ограничение «рекламные группы». Баннер может быть привязан к определенным рекламным 3. Подошедшими считаются все баннеры, КС группам. Привязка производится путём назначения которых в точности совпадают с КС абонента.

рекламодателем баннеру списка ключевых слов.

Ключевое слово (КС) – строковое представление Для каждого способа определения соответствия одной из характеристик абонента или одной из тем, мы проделаем следующее:

интересных абоненту. Например, КС «MALE», «FEMALE» – характеристики абонента. КС 1. Рассмотрим адекватность. Т.е. насколько вы «CARS», «FOOTBALL», «TRAVEL» – интересы бранные по такому критерию баннеры будут соот абонента. Данная возможность позволяет привязы ветствовать интересам абонента.

вать баннеры к целевой аудитории, на которую они рассчитаны. 2. Рассмотрим алгоритмы выбора баннеров со Система использует информацию о пользовате гласно этому критерию и проанализируем границы ле сотовой сети для показа ему нацеленного рек применения этих решений.

ламного сообщения при включенном ограничении «рекламные группы». 3. Для критериев из п.п. 1, 2 – рассмотрим для Механизм выдачи баннера с учётом рекламных выбранных алгоритмов возможность учёта весов групп организован в виде «черного ящика», которо КС абонента. Вес КС абонента может определять му на вход подаются КС конкретного абонента ся, например, количеством откликов абонентом на (список его интересов), на выходе получается спи баннеры, содержащие это КС. В случае если заданы сок подошедших баннеров по рекламным группам. веса КС абонента, соответствие по п.1 будем опре Текущий критерий соответствия – КС баннера делять суммарным весом совпавших КС абонента должны оказаться подмножеством КС абонента. и баннера. В случае соответствия по п.2 наиболее Если предположить, что 1 500 000 абонентов подходящими будем считать баннеры подмножест (для сотового оператора по региону) получают ва с максимальным суммарным весом.

в день (в течение 12 часов) 4 SMS/MMS с реклам ным сообщением – алгоритм выдачи баннера дол Исходя из полученных результатов по каждому жен вернуть результат (1 500 0004)/(126060) = критерию, мы определим наиболее компромис = 139 раз за секунду. Однако текущая реализация сный вариант между критерием соответствия, ско алгоритма выдачи подходящего баннера позволяет ростью выбора и возможностью добавления учета выдавать только 37 решений в секунду. весов КС (учёт весов КС позволит более качествен Таким образом, встает задача разработать опти но нацеливать баннеры).

мальный алгоритм выбора нужного баннера с ми нимальными временными затратами.

Главное требование к алгоритму – высокая ско Экспериментальная часть рость выдачи баннеров.

Решение зависит от того, как определяется соот Для генерации искусственных данных мы руко ветствие баннера абоненту. В рамках данной статьи водствовались следующими ограничениями:

мы рассмотрим три способа определения соответ количество баннеров – от 100 000 до 300 000;

ствия: количество уникальных КС – ~125;

количество КС на абонента/баннер – от 1 до 50;

1. Наиболее подходящими считаются баннеры, желаемое время поиска – от 2 до 6 мс (6 мс со имеющие максимальное количество совпавших КС ответствуют выдаче 1000/6 = 166 результатов абонента и баннера. Например, для абонента [КС1, в секунду).

КС2] из баннеров [КС1, КС2, КС3], [КС1, КС2] и [КС1] будут выбраны [КС1, КС2, КС3] и [КС1, В наших искусственных данных КС равномерно КС2] – по два совпавших КС. распределены по всем объектам (т.е. каждое КС равновероятно).

22 БИЗНЕС-ИНФОРМАТИКА №2(08)–2009 г.

АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ Алгоритмы тестировались при следующих ха поиска ближайшего соседа эффективны по сравне рактеристиках: нию с «хорошим» последовательным поиском толь Intel Celeron CPU 2.40 GHz 0.98 GB of RAM;

ко для небольших размерностей (~ < 10) [Koppen Java 1.6 в режиме –server Xms512m Xmx512m 2000: 2]. В нашей же задаче объект (абонент) может описываться 50 ю признаками.

Были протестированы следующие алгоритмы:

Решение задачи выбора баннера обратный индекс [Бартунов 2007: 7, Ilyinsky по максимальному количеству 2002: 3]. Обратный индекс –множество пар совпавших ключевых слов {КСi постинг листi}, где постинг листi – список баннеров, содержащих КСi. Для каж Эту задачу мы рассмотрим наиболее подробно, дого КС абонента выбирается соответствую так как из неё можно получить решение остальных щий постинг лист, заводится счётчик для трёх задач. каждого баннера, и выполняется проход по всем листам с увеличением счётчика для каж 1. Адекватность дого повстречавшегося баннера на единицу.

На первый взгляд это достаточно адекватный Затем выбираются баннеры с максимальным критерий. Более «точные» баннеры предпочитают значением счётчика;

ся более «общим»: для абонента [КС1, КС2, КС3] из последовательный алгоритм в рамках вектор баннеров [КС1, КС2, КС3], [КС1, КС2] и [КС1] бу ной модели, базирующийся на битовых опе дет выбран [КС1, КС2, КС3]. Но рассмотрим следу рациях. Векторы представляются в виде набо ющий пример: абонент = {MALE, КС1, … КСN}, ра 32 битовых чисел, над которыми выпол а среди баннеров мы имеем b = {FEMALE, КС1, … няется операция битовое «И». Заранее строит КСN}. Несмотря на то, что в описании баннера ся таблица соответствия «число количество присутствуют почти все интересы абонента, реше выставленных битов». Очевидно, количество ние, полученное поиском максимального пересе выставленных битов в результате операции чения, не выглядит правильным. Так, например, битового «И» будет равно размеру пересече для абонента {MALE, SPORT, SWIMMING} не ис ния. Таким образом, за одну операцию срав ключена возможность выбрать баннер {FEMALE, ниваются 32 признака;

SPORT, SWIMMING}, предлагающий женские ку метод разбиения пространства [Yianilos 1993:

пальники. 6] с использованием BK дерева [Burkhard 1973: 1] – структуры данных, основанной на 2. Алгоритмы неравенстве треугольника, адаптированной Задача выбора баннера поиском максимального к высоким размерностям (не дает при поиске пересечения множеств КС баннера и абонента яв экспоненциальный рост времени от количес ляется одной из задач поиска ближайшего соседа. тва признаков). В качестве функции расстоя Эта задача не имеет универсального решения. ния между двумя объектами (баннерами b1, b2) В каждом конкретном случае необходимо учиты по k КС использовалась d (b1, b2) = k – (коли вать специфику данных и, исходя из этого, выбрать чество совпавших КС у b1 и b2).

модель, которой будут представлены исходные дан ные, и определить функцию похожести или рас В табл. 1 представлены результаты работы об стояния. ратного индекса (II), последовательного алгоритма Для решения данной задачи наиболее подходит на битовых операциях (VM+SP(bit impl)) и BK модель векторного пространства с функцией бли дерева.

зости – скалярным произведением. Каждый объект (абонент, баннер) представляется в виде вектора Как видно из табл. 1, метод обратного индекса размера N_KW, где N_KW – количество уникаль хорошо отражает проклятие размерности. Чем ных КС. В этом векторе выставляются K единиц больше количество признаков, тем сильнее выиг следующим образом (K – количество КС объекта): рывает последовательный алгоритм. Метод разбие в i ой позиции выставляется единица, если i ое ния пространства демонстрирует линейную зависи слово встречается в объекте, иначе 0. мость от количества признаков, однако показывает Следует отметить, что наша задача подходит под очень большое абсолютное значение времени поис «проклятье размерности» [Koppen 2000: 4]. Это по ка, что может быть связанно с недостаточно эффек нятие обозначает явление, что все точные алгоритмы тивной реализацией.

БИЗНЕС-ИНФОРМАТИКА №2(08)–2009 г. АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ Таблица 1 Алгоритм в рамках векторной модели с исполь Время поиска максимального пересечения зованием битовых масок применим при небольшом при использовании алгоритмов II, VM+SP (bit impl) количестве уникальных КС. В табл. 1 приведены и BK tree в зависимости от количества КС на объект значения для количества уникальных КС = 125. Т.е.

и баннеров. Количество уникальных КС равно каждый объект представляется 125/32 + 1 = 4 мя Кол-во КС на Кол-во VM+SP(bit 32 битовыми числами. При количестве КС до 32, II, ms BK-tree, ms объект баннеров impl), ms каждый объект будет представлен одним числом.

до 10 100 000 2,18 6,22 23, При увеличении количества уникальных КС ско до 20 100 000 3,25 6,36 51, рость работы алгоритма будет ухудшаться.

до 30 100 000 5,12 6,35 78, Обратный индекс применим при условии, что до 40 100 000 7,38 6,22 96,43 есть большая база уникальных КС (не менее 100) до 50 100 000 9,70 6,09 120,49 и количество КС на баннер не превышает 10.

В этом случае постинг листы будут достаточно ко до 10 200 000 4,66 11,95 62, роткими, и их обработка займёт приемлемое время.

до 20 200 000 11,60 12,05 Метод разбиения пространства представляет до 30 200 000 22,75 11,48 184, тем больший интерес, чем сильнее данные (банне до 40 200 000 31,96 11,63 240, ры) разбиты на кластеры. Однако, чем меньше або до 50 200 000 53,38 11,46 283, нент будет иметь интересов, тем больше вероят до 10 300 000 8,44 18,45 93, ность обойти все дерево полностью.

до 20 300 000 25,08 18,21 176, до 30 300 000 51,69 16,82 259, 3. Возможность добавления весов до 40 300 000 81,88 17,11 352, В последовательном «битовом» алгоритме и алго до 50 300 000 123,14 17,08 442, ритме обратного индекса есть возможность добавить работу с весами КС без потери производительности.

В табл. 2 результаты работы метода разбиения Для обратного индекса учёт весов означает уве пространства оцениваются по количеству обойдён личение счётчика не на единицу, а на вес КС або ных при поиске узлов построенного дерева – т.е. по нента, для которого рассматривается текущий по количеству рассмотренных баннеров. стинг лист.

Для «битовой реализации» для учёта весов Таблица 2 строится таблица по абоненту таким образом, Количество рассмотренных баннеров чтобы по результату битового «И» можно было об при поиске в BK дереве в зависимости от количества ратиться сразу за взвешенным значением текущего КС на объект и баннеров.

32 битового кусочка.

Количество уникальных КС равно При использовании метода разбиения про Рассмотрено баннеров странства использование КС невозможно, т.к. мет Кол-во КС на объект Кол-во баннеров при поиске рическое дерево строится на основании заданной в BK-дереве функции расстояния, которая точно в таком же ви до 10 100000 де должна использоваться и при поиске в дереве.

до 20 100000 Использование же весов КС абонента означает не до 30 100000 возможность использовать единую функцию рас до 40 100000 стояния для всех баннеров/абонентов, т.к. каждый до 50 100000 объект абонент в этом случае определяет новую до 10 200000 функцию расстояния.

до 20 200000 до 30 200000 Решение задачи выбора баннера до 40 200000 поиском «баннера подмножества» до 50 200000 до 10 300000 1. Адекватность до 20 300000 Данный критерий исключает пример, приведен до 30 300000 ный выше, в котором выбирается баннер с «лишни до 40 300000 ми» КС. Выбранный баннер будет соответствовать до 50 300000 интересам абонента и не предложит лишнего.

24 БИЗНЕС-ИНФОРМАТИКА №2(08)–2009 г.

АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ 2. Алгоритмы чисел (Prime based), с использованием битовых ма Решение данной задачи можно получить моди сок (Bit mask), с использованием битовых масок + фикацией первой (проверять количество совпав сортировка баннеров по количеству уникальных ших КС на равенство количеству КС баннера), од КС баннера (Bit mask (sorted)).

нако задача на подмножества имеет следующие преимущества: Таблица Время поиска «баннера подмножества» если задан абонент с k уникальными КС, то при использовании алгоритмов Sorted IDs, нет необходимости рассматривать баннеры Prime Number, Bit mask и Bit mask (sorted) с k + 1 уникальными КС;

в зависимости от количества КС на абонента/баннер и баннеров.

если в баннере обнаружилось хотя бы одно Количество уникальных КС равно «лишнее» КС, то нет смысла рассматривать этот баннер далее.

Кол-во Sorted Prime Bit mask Кол-во Bit mask, КС на IDs, Number, (sorted), Для данного критерия мы сравнили три реализа баннеров ms объект ms ms ms ции:

до 10 100000 17,54 10,52 2,32 1, 1. Последовательный алгоритм, базирующийся до 20 100000 22,35 9,85 2,18 1, на битовых операциях.

до 30 100000 23,03 11,03 2,26 1, 2. Последовательный алгоритм, базирующийся на простых числах [Clarke 1997: 2]. до 40 100000 23,95 11,77 2,24 1, 3. Последовательный алгоритм, базирующийся до 50 100000 24,23 12,47 2,32 1, на сравнении сортированных идентификаторов КС.

до 10 200000 37,91 25,47 4,64 3, до 20 200000 41,88 22,77 4,77 3, Алгоритм, базирующийся на битовых операци до 30 200000 45,72 27,88 3,87 2, ях, был получен модификацией «битового» алго до 40 200000 48,87 25,51 4,21 2, ритма, вычисляющего максимальное пересечение до 50 200000 2,07 24,12 3,83 2, КС абонента и баннера. Баннеры и абоненты так же представляются в виде набора 32 битовых чисел, до 10 300000 54,15 23,97 8,24 5, над которыми выполняется операция битовое «И».

до 20 300000 57,84 36,58 6,38 4, Если a[i], b[i] – 32битовые кусочки абонента и бан до 30 300000 66,48 41,09 5,77 3, нера, и a[i] «И» b[i] ! = b[i], – то сразу ясно, что бан до 40 300000 64,79 34,25 7,17 4, нер не подходит абоненту по данному критерию, до 50 300000 76,75 33,64 5,65 3, прекращаем его рассмотрение и переходим к сле дующему.

Алгоритм, базирующийся на простых числах, Метод с использованием битовых масок показал заключается в следующем: каждому уникальному большую эффективность по сравнению с остальны КС ставится в соответствие простое число. И каж ми, поэтому именно его мы улучшили сортировкой дый баннер представляется в виде произведения баннеров по количеству уникальных КС, что дало своих простых чисел. Когда на вход поступает або улучшение еще в 1,5 раза.

нент, он точно так же представляется в виде произ Как и в предыдущем случае, выбранный алго ведения. Если «баннер делит абонента» без остатка, ритм зависит от количества уникальных КС. Но ес то баннер – подмножество абонента. ли для поиска максимального пересечения необхо Алгоритм, базирующийся на сравнении сорти димо было обойти все 32 битовые кусочки, то рованных идентификаторов КС, требует, чтобы в данном случае мы прекращаем рассмотрение те идентификаторы (уникальные номера) КС банне кущего баннера, как только не выполнилось равен ров/абонента были отсортированы. Для каждого ство (a[i] & b[i] = b[i]). Благодаря этому в сочетании идентификатора КС баннера бинарным поиском с сортировкой баннеров по количеству уникальных ищется такой же идентификатор среди идентифи КС становится приемлемым использование до каторов КС абонента. Если поиск дал отрицатель вольно большого количества уникальных КС.

ный результат, сразу переходим к следующему бан неру. 3. Возможность добавления весов В табл. 3 представлены результаты для всех трех Метод битовых масок модифицируем для учета реализаций: сравнение сортированных идентифи весов КС абонента точно так же как и в случае по каторов КС (Sorted IDs), с использованием простых иска максимального пересечения.

БИЗНЕС-ИНФОРМАТИКА №2(08)–2009 г. АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ Решение задачи выбора баннера Выводы по точному совпадению ключевых слов Были проанализированы критерии соответствия 1. Адекватность баннера интересам абонента и методы выбора бан Выбранный баннер 100% отражает интересы неров по этим критериям. При текущих параметрах абонента, однако данный критерий очень сильно системы (критерий соответствия «баннер подмно ограничивает набор подходящих баннеров и есть жество», 125 КС, 100 000–300 000 баннеров, до достаточно большая вероятность вернуть пустой КС на абонента/баннер) найдено удовлетворитель результат для абонента. ное решение, позволяющее выдавать 1000/~2.62 = = ~384 решения в секунду и учитывать на лету веса 2. Алгоритмы КС абонента. Были даны рекомендации по исполь Здесь применимы все решения, описанные вы зованию других методов при изменении соотноше ше, но также на этот случай есть специфичное очень ния параметров и критерия соответствия.

«быстрое решение» – trie дерево [Shang 1995: 5].

Таблица Время поиска точного совпадения в trie дереве Литература.

в зависимости от количества КС 1. Burkhard W. A., Keller R. M. Some approaches to best на абонента/баннер и баннеров.

match file searching // Communication of the ACM.

Количество уникальных КС равно 1973. V. 16. – P. 230–236.

Кол-во КС на объект Кол-во баннеров Trie-дерево, ms 2. Clarke I. Testing Subsets Using Prime Numbers // Ian Clarke’s Homepage/Subsets [Электронный ресурс]. – до 10 100000 0, Электрон. дан. – 1997. – Режим доступа:

до 20 100000 0, http://www.sanity.uklinux.net/subsets.html.

до 30 100000 0, 3. Ilyinsky S., Kuzmin M., Melkov A., Segalovich I. An до 40 100000 0, efficient method to detect duplicates of web documents до 50 100000 0, with the use of inverted index // Proceedings of the до 10 200000 0, eleventh Int. World Wide Web Conference (WWW). – до 20 200000 0, 2002.

до 30 200000 0, 4. Koppen M. The curse of dimensionality // Proceedings of до 40 200000 0, the fifth Online Conference on Soft Computing in до 50 200000 0, Industrial Applications (WSC5). – 2000.

до 10 300000 0, 5. Shang H., Merrettal T. H. Tries for Approximate String до 20 300000 0, Matching // IEEE Transactions on Knowledge and Data до 30 300000 0, Engineering. – 1996. – V. 8. № 4. – P. 540–547.

до 40 300000 0, 6. Yianilos Peter N. Data structures and algorithms for near до 50 300000 0, est neighbor search in general metric spaces // Proceedings of the fourth annual ACM SIAM Symposium on Discrete Как видно из таблицы, поиск в таком дереве algorithms. – 1993. – 25–27 Jan. – P. 311–321.

происходит за доли миллисекунды. 7. Бартунов О. С., Сигаев Ф. Г. Специализированные типы данных для цифровых библиотек // 9 ая Всерос сийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные кол лекции» (RCDL). – 2007.

8. Крапивинский А. Кому рекламу на «сотовый»? // «Медиа Онлайн»/Аналитика/Медиабизнес/ [Электронный ре сурс]. – Электрон. дан. – 2008. – 18 авг. – Режим доступа: http://www.media online.ru/index.php3?id=290255.

26 БИЗНЕС-ИНФОРМАТИКА №2(08)–2009 г.




© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.