WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 18 | 19 || 21 | 22 |   ...   | 63 |

Подавляющее большинство писем в Интернете передается по про токолу SMTP (от англ. Simple Mail Transfer Protocol — простой прото кол передачи почты). Предложения по SMTP были опубликованы еще администрацией сети ARPANET (предшественницы Интернета) в каче стве документа RFC 821 [62] в августе 1982 г. (в апреле 2001 г. были внесены небольшие изменения, нашедшие отражение в документе RFC 2821 [63]). В тот же момент в виде RFC 822 [64] был опублико ван и стандарт текстовых сообщений ARPANET (ставший в 2001 г.

и стандартом интернет сообщений, опубликованным в RFC 2822 [65]).

136 РЕАЛЬНОСТЬ 2.0b. Современная история информационного общества С одной стороны, SMTP один из двух или трех старейших протоко лов, которые до сих пор используются в Интернете, он прост, эффек тивен и выдержал проверку временем [66], с другой — архитектура электронной почты фактически не менялась с 1982 г., когда число пользователей и скорости каналов были значительно меньшими, глав ной задачей было просто заставить почту циркулировать, и о такой вещи, как спам, никто не задумывался, так же, как сейчас уже никто не задумается над тем, почему все команды протокола SMTP должны были состоять из четырех букв (HELO, RCPT и т. д.). Естественно, это не может не накладывать свой отпечаток.

В базовом протоколе SMTP не предусмотрена даже обязательная аутентификация отправителя, т. е. сервер, получающий от программы пользователя письмо с указанным адресом отправителя, не обязан предпринимать каких либо мер по уточнению принадлежности ука занного адреса тому, кто его указывает (например, запрашивать па роль). Опять таки странно не само отсутствие команд для аутентифи кации, а то, что тогда у разработчиков не появлялось даже мыслей о ее необходимости. И если бы это была единственная проблема! Для того чтобы наводнить ваш почтовый ящик нежелательной кор респонденцией, я (спамер) в полном соответствии с сегодняшним по ложением дел касательно почты в Интернете могу:

а) начать рассылать письма со своего компьютера, используя под ставные (придуманные или чужие) адреса, которые придут мне на ум для чего буду использовать SMTP сервер, не требующий аутен тификации — в таком случае рано или поздно сервер, если он добро порядочный, «забанит» (англ. to ban — запрещать, не пускать) меня по IP (адрес компьютера в Интернет вида «A. B. C. D», где A, B, C и D — числа в диапазоне [0; 255]), т. е. перестанет принимать почту с моего компьютера, а если он недобропорядочен, то рано или поздно его самого «забанят» (или занесут в «черный список», что одно и то же) другие SMTP сервера, с которыми он будет пытаться общаться;

б) рассылать письма со своего собственного адреса — не важно, требует ли мой SMTP сервер аутентификациюили нет, но если писем будет достаточно, «бан» случится еще быстрее;

в) создать и запустить (в простонародии «поднять») собственный SMTP и гнать почту через него, пока и его не «забанили».

Все эти варианты накладны, поскольку грозят фактической поте рей IP адреса, т. е. сетевой идентификатор компьютера или сервера, с которого производится рассылка, становится нефункционален с точки зрения спамера, ибо все другие почтовые сервера отказыва Глава 6. Ругательное слово из четырех букв ются принимать от него почту, заведомо относя ее всю к спаму. Поте ря же IP адреса грозит дополнительными хлопотами по получениюно вого и возможными проблемами с провайдером доступа или хостинга.

Всегда лучше рисковать чем то чужим, нежели чем то своим, поэтому наиболее современный и эффективный метод рассылки спама:

г) тем или иным путем превратить множество компьютеров ничего не подозревающих пользователей в зомби, создав, таким образом «бот нет», а затем, подать этим машинам сигнал на рассылку спама с адресов их пользователей или с подставных адресов через анонимные SMTP сер веры. При этом часть зомби машин, как и часть серверов попадет в «чер ные списки», но часть почты все таки распространится по сети. Учиты вая, сколько писем можно разослать, а также то, что лично я при таком подходе ничем не рискую— это и впрямь «отличный» способ.

Некоторые SMTP серверы выполняют не отсев соединений и пи сем по методу «черных списков», а допуск писем по методу «белых», т. е. с данным SMTP сервером может соединяться только этот и этот пользователь, этот и этот сервер. Однако как много бы ни было таких бдительных (параноидальных) серверов, всегда достаточно и более доверчивых.

Это верно и в более широком смысле: какие бы расширения к про токолу не добавлялись (например, необходимость аутентификации поль зователя), и сколько бы серверов не использовало их, в частности, для более тщательного контроля спама, всегда останется еще множество других, работающих по базовому протоколу, а все остальные должны обеспечивать взаимодействие и с ними (по принципу обратной со вместимости). А это в свою очередь говорит о том, что архитектура почты в Интернете не подразумевает надежных решений проблемы спама, поскольку до сих пор зиждется на тех же принципах, которые легли в ее основу тридцать лет назад:

1) полная и бесповоротная анонимность отправителей при по сылке сообщений;

2) инициирование сессии отправки почты без предварительного согласия получателя.

Можно сказать, что чума, за три года распространившаяся по Ев ропе начиная с 1347 г. имела меньше шансов на это, чем спам — шан сов распространиться по Интернету. При таком «портрете» почтовой ар хитектуры, его распространение было неизбежно. История не допускает сослагательного наклонения, и все же мне кажется, что разработчики SMTP могли бы задуматься над нежелательными последствиями прини маемых решений — я уже приводил сравнение Интернета с телефоном, 138 РЕАЛЬНОСТЬ 2.0b. Современная история информационного общества так вот в западных странах телемаркетинг появился еще в 1950 х годах, а в 1970 х годах был уже повсеместно распространен. В 1980 х годах назойливый телемаркетинг мог стать «звоночком» в сознании разработчи ков коммуникационных протоколов для новой сети, но не стал.

«Черные» и «белые» списки — это одна из разновидностей фильтров, в данном случае это довольно грубые фильтры. Задача спам фильтра на уровне соединения — это сказать, что от данных пользователя или сервера можно принимать почту, а от данных — нет. Для того чтобы сделать такие далеко идущие выводы или вывод попроще, о том что пользователь или сервер не настолько плохи, что рассылают только спам, но вот это конкретное письмо от того или другого — нежела тельно, необходимо анализировать и саму корреспонденцию.

На компьютерах пользователей также осуществляется фильтрация средствами самих почтовых клиентов или внешними программами (спасение утопающих в спаме — это в том числе и дело рук самих уто пающих). В этом случае уже поздно отказываться от письма, поскольку оно уже скачено с сервера, однако можно указать программе на необ ходимость автоматического перемещения полученных подозритель ных писем (кандидатов в спам) в папку отличнуюот той, где оказыва ются письма вне подозрений (т. е. «отделить зерна от плевел»).

Стандарт интернет сообщения определяет множество полей (обя зательных или опциональных), которые включаются в служебный заго ловок сообщения его отправителем, транзитными или оконечным сер верами. Кроме того, отправитель и серверы могут изобретать любые собственные поля, именовать их, начиная с латинской буквы «X» и ис пользовать по своему усмотрению. Самым простым способом было бы изобретение поля, однозначно определяющего письмо как жела тельное (например, «X Message Type: NO SPAM HERE!»), но, очевид но, что это невозможно, поскольку такое поле к сообщениюможет до бавить как добропорядочный отправитель, так и спамер. Вместо этого фильтры на сервере или на клиентской машине анализируют служеб ный заголовок сообщения и его тело на предмет множества аспектов, таких как маршрут, пройденный сообщением до сего момента (он мо жет быть подозрительным), тема сообщения (она может быть более чем подозрительной), тело сообщения (подозрительно, если в письме только рисунок или таблица и совсем нет текста) и т. д. По итогам ана лиза письму присваивается, скажем так, «рейтинг сомнительности», а дальше оно относится к желательным или нежелательным на основа нии сравнения с некоторым установленным пороговым значением для этого рейтинга.

Глава 6. Ругательное слово из четырех букв Традиционные спам фильтры, наиболее широко распространен ные до 2002 г. требовали, чтобы системный администратор (или другое ответственное лицо) поддерживал информациюоб образцах текста, най денных в спаме, — имена узлов, не отправляющих ничего, кроме спа ма, фразы приманки, часто используемые порнографическими сайта ми или интернет мошенниками, и аналогичные сведения. Фактически, все фильтры представляли собой здоровенные «черные» списки того или иного рода.

Проблема традиционных спам фильтров на основе сличения с об разцом заключается в их хрупкости. Спамеры постоянно состязаются с базами данных правил фильтрации, заставляя кураторов постоянно перенастраивать фильтры, для того, чтобы «оставаться на первых по зициях в гонке вооружений».

С другой стороны, статистические спам фильтры, ставшие широко распространенными после выхода в 2002 г. статьи Пола Грэхема «A Plan for Spam» [67] работают, накапливая информацию от пользователей о том, что те считают спамом, а что нет. Данные сведения вносятся в ба зы данных статистических корреляционных коэффициентов, связываю щих слова или фразы с пользовательской классификацией спам / неспам.

В наиболее популярных алгоритмах используются частные случаи тео ремы Байеса1 об условных вероятностях, но применяются и другие ме тодики (включая различные виды полиномиального хэширования).

У технологии фильтров есть два проблемных аспекта:

1. Иногда они все же не срабатывают и пропускают спам — спа меры не дремлют и изобретают все новые способы обхода фильтров;

N Согласно следствиюиз формулы Байеса P P вероятность на B A P B|A — i i i ступления события B, зависящего от ряда гипотез Ai, если известны степени досто верности этих гипотез (например, измерены экспериментально). При обучении фильтра для каждого встреченного в письмах слова высчитывается и сохраняется его «вес» — вероятность того, что письмо с этим словом — спам (в простейшем слу чае — по классическому определению вероятности: «появлений в спаме / появле ний всего»). При проверке вновь пришедшего письма вычисляется вероятность то го, что оно — спам, по указанной выше формуле для множества гипотез. В данном случае «гипотезы» — это слова, и для каждого слова «достоверность гипотезы» — Nwordsi P — % этого слова в письме, а «зависимость события от гипотезы» A i Nwords total _ P — вычисленный ранее «вес» слова. То есть «вес» письма в данном случае — B|A i не что иное, как усредненный «вес» всех его слов. Отнесение письма к спаму или не спаму производится по тому, превышает ли его «вес» некуюпланку, заданнуюполь зователем (обычно берут 60–80 %). После принятия решения по письму в базе дан ных обновляются «веса» для вошедших в него слов [77].

140 РЕАЛЬНОСТЬ 2.0b. Современная история информационного общества 2. Иногда они неверно срабатывают на вполне полезных и, воз можно, нужных и ожидаемых письмах, благодаря чему пользователь никогда такое письмо не получит или вынужден будет его искать в папке для спама на сервере среди сотен и тысяч нежелательных сообщений (т. е. мы возвращаемся к потере времени, с которой и на чали).

Каждый сервер и программный продукт применяет свои методы и подходы к фильтрации спама, что создает неразбериху: спам письмо отправленное через один сервер может быть задержано, в то время как отправленное по другому маршруту достигнет таки получателя.

Так же дело обстоит с обычными — «желательными» письмами.

Появляется дополнительный вопрос: как, будучи добропорядоч ным отправителем, убедить спам фильтры в конструктивности своего письма Очевидно, что для этого нужно сделать что то, чего спамер делать не станет, например, перед отсылкой вычислить по какой ни будь сложной формуле «функциюхэширования»1 для тела письма, ад реса получателя и времени отправки и пересылать ее вместе с самим письмом (например, в одном из полей его служебного заголовка). Вы числение хэш функции требует определенных затрат процессорного времени. Для единичного отправляемого письма эти затраты неза метны, но спамер по идее рассчитывает на отправку десятков и сотен тысяч писем в час, поэтому он не станет заниматься подобными вычис лениями или будет вынужден тратить деньги на покупку дополнитель ных компьютеров. Таким образом, если обрабатываемое письмо со держит некий хэш (или «штемпель» в терминологии программы Micro soft Outlook), оно вряд ли является спамом. Этот метод мог бы работать, но у спамеров есть ответ — ботнеты. Если в ботнет входит большое число зомби машин, то задача по массовой рассылке распре деляется между ними, и каждая машина может уже не слишком уж то ропиться, т. е. она может вычислять хэши или ставить «штемпели» на нежелательные письма точно так же, как это делается для «хороших» писем. Действительно, зачем тратить деньги на покупку новой вычис лительной техники, если можно использовать существующую, пусть даже и чужую Статья «A Plan for Spam» была ошеломляющей новостью, посколь ку ее автор убедительно доказал, что простой, даже грубый статисти ческий подход дает меньшее количество принятых за спам и не являю Функция хэширования — это детерминированная функция, отображающая строку битов произвольной длины в хэшированное значение, представляющее собой стро ку битов фиксированной длины [78].

Глава 6. Ругательное слово из четырех букв щихся таковыми сообщений, чем могли бы предоставить любые слож ные методики сличения с образцом или человек, просматривающий письма.

Однако то, что «хорошие» письма чаще всего проходят через фильт ры, не спасает от того, что иногда они фильтрами задерживаются.

По словам руководителя информационно аналитической службы Межрегиональной общественной организации «Информация для всех», координатора Рабочей группы Проекта «АнтиСпам» Евгения Альтовского: «Я минимум раз в неделювылавливаюиз папки «Спам» сайта почтовой службы нужное мне письмо, которое было ошибочно отнесено к нежелательным. К десятку другому пропущенного спама я еще отношусь спокойно, а вот ложно позитивные (англ. false posi tive) — это караул. Тем более, я не знаю, сколько писем было потеря но по дороге и не дошло даже до этой папки ввиду неких «антиспа мовых» усилий».

Что я пытаюсь показать в этой части работы, так это то, что абсо лютно любое реализуемое техническое решение в области борьбы со спамом ведет к появлениюновых технических вызовов со стороны спамеров или к коррекции старых, в результате чего существующие решения работают уже не в полной мере. Верно и обратное — это бесконечный цикл.

Pages:     | 1 |   ...   | 18 | 19 || 21 | 22 |   ...   | 63 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.