Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Электронный журнал "Спамтест". Все о борьбе со спамом


Информационный Канал Subscribe.Ru

Ашманов и ПартнерыSubscribe.ru
Электронный журнал "Спамтест" No. 23

в этом номере:


Объявление:

Начиная с этого номера электронный журнал "Спамтест" будет выходить по вторникам.

Спасибо всем читателям, присылающим образцы спама в редакцию. Ваши письма помогают оперативно реагировать на новые уловки спамеров, уменьшая количество мусора в сети. Просьба все образцы спама пересылать только на адрес spam@ashmanov.com или spam@spamtest.ru. Таким образом они максимально быстро попадают на обработку в лингвистическую лабораторию.


Новости

В США может быть введен налог на Интернет

Одной из самых давних мистификаций в Интернете является гуляющее по сети письмо, в котором говорится, что правительство разрабатывает налог на электронную почту. Но если Конгресс США не продлит истекающий на этой неделе мораторий на налогообложение Интернета, налог на электронную почту, возможно, скоро перестанет быть городской сплетней, пишет The Wall Street Journal в материале, перевод которого публикует Inopressa.Ru.

Нынешний мораторий - закон об освобождении Интернета от налогов - запрещает налогообложение доступа в Интернет, двойное налогообложение покупок, сделанных через сеть, и дискриминационное налогообложение, при котором к сетевым приобретениям относятся иначе, чем к обычным.

Результаты этих запретов, действующих с 1998 года, оказались именно такими, на какие рассчитывали авторы закона, конгрессмен-республиканец Крис Кокс и сенатор-демократ Рон Уайден: количество пользователей Интернета стремительно увеличивается, электронная коммерция расширяется, а имущественные границы размываются. По данным министерства торговли, самым быстрорастущим сегментом пользователей Интернета являются семьи с доходом менее 25 тыс. долларов в год.

Но все это окажется под угрозой, если в пятницу налоговые запреты утратят силу. Законопроект, делающий эти положения постоянными, был принят палатой представителей в сентябре, но застрял в сенате, где республиканец из Вирджинии Джордж Аллен столкнулся с сопротивлением нескольких республиканцев, решивших нарядиться на Хэллоуин демократами.

Под давлением Национальной ассоциации губернаторов и других структур, считающих цифровые сделки в киберпространстве дойной коровой, Джордж Войнович из Огайо и Ламар Александр из Теннеси примкнули к демократам и остановили прохождение закона. Если они преуспеют, и действия запретов закончится, то налог на Интернет станет реальностью.

"Стоимость доступа в добрый старый Интернет может вырасти вдвое", - предсказал на прошлой неделе сенатор Уайден. И это только начало. В отсутствии закона, способного их остановить, чиновники на уровне штатов и отдельных населенных пунктов начнут облагать налогами все - от антиспамовых фильтров до поиска в Google.

Налоги только на электронную почту - это уже золотая жила для политиков по всей стране. На майских слушаниях о спаме в сенате демократ Марк Дейтон предложил "подумать об очень маленькой плате за каждое отправленное сообщение".

Он не одинок. Штатам и городам идея понравилась не только из-за возможности обложить налогами электронную почту. Губернаторы, мэры и окружные чиновники мыслят локально. Сообщение, которое вы отправили своему соседу, вполне может пройти через сервера, находящиеся в местах, подпадающих под юрисдикцию 7,6 тыс. различных налоговых управлений страны.

"Мы неоднократно слышали в конгрессе, что представители штатов хотят воспользоваться этим как налогооблагаемой базой, - говорит конгрессмен Кокс. - Интернет по своей природе уязвим для такого вида множественного налогообложения. Именно из-за множественного налогообложения мы ввели в действие запреты".

Источник: www.newsru.com

Сайт мужского монастыря закрыли за спам

Сайт Свято-Троицкого Николаевского Общежительного мужского монастыря г. Владивостока закрыт за массовую рассылку непрошеных электронных писем (спама).

Сайт monast.ru, где некоторое время присутствовала лишь строчка "Closed for spam", хостится в местном отделении "Ростелекома". Письма, которые рассылал монастырь, выглядели так:

"Добрый день, здравствуйте. К Вам обращается братия самого дальнего православного мужского монастыря в России. Просим заранее прощения, если данное сообщение Вас чем-то смутило. Будем рады, если Вы внесете посильную лепту в деле возрождения самого дальнего монастыря, граничащего с Китаем, Кореей и Японией. Спаси Христос."

Детали закрытия сайта неизвестны. На сайте можно было найти историю монастыря, фотографии, православные открытки - и конечно, пожертвовать на восстановление.

К слову, на момент публикации этой новости сайт снова был доступен в сети. Действительно, жаль, если из-за непродуманных действий рьяных промоутеров будет закрыт интересный ресурс.

Информационная электронная сеть - Интернет на сегодняшний день приобретает все больше и больше пользователей... Хотелось бы, чтобы в этом разнообразном информационном потоке больше места отводилось тому доброму, вечному, чего нам на сегодняшний день так не хватает.

Источник: netoscope.ru

Европейский союз запрещает спам

Во всем Европейском союзе вступили в силу новые законы, призванные уменьшить количество электронного спама. В соответствии с новыми правилами, прежде чем посылать электронные письма, компании должны получить согласие адресатов этих сообщений. Новые законы полностью запрещают спам на территории всего Евросоюза.

Нежелательные электронные рассылки, известные как спам, составляют примерно половину всей электронной переписки в ЕС. По данным Европейской комиссии, только в прошлом году спам привел к потере производительности в европейских компаниях на сумму в 3 млрд. долларов.

Так какой же выход из сложившейся ситуации? Запретить спам. Но, естественно, все не так просто. Большинство нежелательных писем приходят в Европу из заграницы, в основном - из США.

Для решения проблемы требуются скоординированные международные меры. Похоже, что постепенно все начинают осознавать масштабы проблемы. На прошлой неделе калифорнийский суд выписал крупный штраф одной компании, рассылавшей спам. Тем временем сенат одобрил законопроект, запрещающий спам в США. Сенаторы надеются, что палата представителей американского конгресса скоро последует их примеру.

Ни одна из этих мер полностью не искоренит проблему. Но все-таки, это хорошее начало. Новые европейские законы также ограничивают возможности компаний в использовании так называемых "кукис" - файлов, позволяющих получать информацию о пользователях, посещающих сайты этих компаний.

Меры наказания, применимые к компаниям и частным лицам, нарушающим новые законы, остаются на усмотрение государств-членов Евросоюза.

"Закон является ключевым инструментом, позволяющим укрепить доверие к Интернету и электронным средствам сообщения, необходимым для успешного развития электронной торговли", - сказал комиссар ЕС по предпринимательству Эркки Лииканен.

Источник: news.bbc.co.uk

Великобритания будет требовать экстрадиции спамеров

Соединенное Королевство стало второй державой в Европейском Союзе, сделавшей спам незаконным. Начиная с декабря этого года, спамерам присваивается статус киберпреступников.

Антиспамерские организации подвергли закон обструкции, заявив, что он совершенно неэффективен, поскольку большая часть спама, затапливающего ящики британских пользователей, приходит из-за рубежа, и в особенности из США.

В связи с этим британские законодатели предложили ввести практику экстрадиции иностранных спамеров, с тем, чтобы предавать их суду на территории Великобритании.

Предварительные переговоры с ФБР уже дали положительный результат: американские правоохранительные органы "не видят никаких проблем", и с радостью готовы выдавать спамеров, в первую очередь, тех, кто помимо сомнительной рекламы рассылает всякую гадость типа троянцев и вирусов

Источник: membrana.ru

Новости подготовил
Сергей Кошкин
"Ашманов и Партнеры"


Принципы и технические методы работы с незапрашиваемой корреспонденцией на Яндексе (часть 2)


Илья Сегалович,
Дмитрий Тейблюм,
Александр Дилевский
Яндекс

Часть 2. Методы борьбы со спамом

Можно встретить разные описания (по сути классификации) средств борьбы со спамом. Поскольку программа это всегда "Алгоритм + Структура Данных", то и классификацию программ правильно основывать на видах используемых данных и используемых алгоритмах. Что мы и попытаемся проделать ниже.

Встречаются, однако, описания, основанные на желании продвинуть свою собственную технологию. При этом обычно возникает искаженная картина, сознательно вводящая пользователей в заблуждение. Критике таких картин мы также постараемся уделить внимание.

Задача спам-фильтрации

Задача, которую решает детектор спама: разделить входящий поток сообщений на спам и нормальную почту, Spam и Ham в английском жаргоне.

Исходные данные

Данные, которые используются для анализа - это все признаки пришедшего письма. Их можно разделить на четыре пространства, вычисление решений в которых можно производить независимо:

  • IP-адрес сервера отправителя
  • оформление и стиль писем, заголовки, форматирование, характерные обороты
  • статистика слов в письмах
  • контрольные суммы ("сигнатуры") текстов писем

Естественно, что пространство признаков по каждому набору данных ограничивают только "интересными" признаками.

Вид данных Типичное число признаков,
обнаруженных в одном письме
Полное пространство признаков
Оформление и стиль ~7 ~1 тысяча
IP-адреса "черных дыр" ~1 ~10 тысяч
Статистика слов ~30 ~100 тысяч
Контрольные суммы ~1 ~1 миллион

Конкретный антиспамовый модуль может использовать все эти пространства признаков или только 1-2 из них. Недостатки и преимущества каждого из пространств признаков мы обсудим ниже. Пока же обратим внимание на необходимое присутствие еще двух составляющих "задачи машинного обучения", классическим примером каковой является детектор спама, а именно: обучающей выборки и обратной связи.

Заметим, что в отличие от пространств слов или элементов оформления, при опознании спама по IP-адресу решение принимается по одному-единственному признаку. Взвешивания по адресу обычно не производится, следовательно, настройка взвешивающего механизма на обучающей выборке не нужна. Однако без обратной связи (в случае с IP - без постоянно пополняемого списка черных дыр) удовлетворительно работающего механизма нельзя построить ни по одному из вышеперечисленных пространств.

Ошибки первого и второго рода

Чтобы любое машинное обучение работало, ему необходимо сообщать об ошибках. Ошибки бывают двух видов. Ошибка первого рода: пропуск спама, то есть пропуск спамового письма. Иными словами - недостаточная полнота метода. Ошибка второго рода - ложные срабатывания, когда не спам ошибочно относят к спаму. Иными словами - точность метода. Естественно, приоритет при настройке алгоритма отдается минимизации числа ложных срабатываний. Обычное требование для спам-детектора - уложиться в несколько промилле. Считается, что лучше дать пользователю прочитать несколько спамовых писем, чем скрыть от него настоящее письмо.

Интегральный показатель качества

Процент детектированного спама есть мера полноты, процент ложных срабатываний - мера неточности. Несложно предложить интегральную оценку качества, назовем ее качеством фильтрации. Очевидно, что при точности близкой к 100%, качество будет примерно равно полноте. Именно полноту фильтрации часто и называют, когда озвучивают те или иные цифры, подразумевая, что точность практически абсолютна. Надо при этом понимать, что острота восприятия ошибки второго рода зависит от характера поступающих в почтовый ящик писем и индивидуальных предпочтений пользователя: люди, обсуждающие в почте многомиллионные сделки, реагируют на ошибки второго рода гораздо более болезненно, чем сервис поддержки пользователей и, тем более, читатели рассылки анекдотов.

Ложные срабатывания. Разные подходы

Довольно большое значение имеет то, что происходит при ошибках второго рода - от этого зависит величина ущерба, наносимого этими ошибками, и, следовательно, требования к их количеству. Возможны следующие реакции фильтра на обнаруженный спам:
-1-письмо отвергается почтовым сервером; при этом, если оно на самом деле было "законным" письмом, отправитель получит сообщение об этом;
-2-письмо помещается в специальную папку; пользователь имеет шанс заглянуть в эту папку и увидеть там ошибочно отфильтрованное письмо;
-3-письмо "удаляется", как будто его и не было; никто ни о чем не знает.
Сценарий (3) - самый опасный; к счастью, администраторы почтовых серверов его почти никогда не используют. Однако из популярных текстов, о которых мы будем говорить ниже, зачастую создается впечатление, что используется именно он.
Сценарий (2) с одной стороны имеет тенденцию вырождаться в (3), если качество фильтра хорошее. С другой стороны, регулярный просмотр пользователем папки со спамом снижает пользу фильтрации, хотя это и делается существенно реже, поверхностным просмотром и т.д. В таком сценарии, однако, ущерб от ошибок второго рода минимален, а обратная связь максимальна.
Сценарий (1) - традиционный вариант для "классической" фильтрации по IP адресам. В отличие от (2), он не вырождается в (3), однако его, к сожалению, достаточно сложно реализовать на сервере, если в фильтре используется содержимое письма.

Промежуточная зона - "полуспам"

Очень важная, часто недопонимаемая проблема состоит в том, что спам и не-спам пересекаются в очень большой степени. Рассылки, от которых трудно отписаться, но на которые вы тем не менее (кажется?) подписывались. Подписки, возникающие при регистрации без вашего ведома. Многочисленные квитанции глупых антиспамерских и антивирусных программ. Автоответчики. Рассылки, совершаемые спамерами при помощи веб-форм из публичных, совершенно неспамерских веб-сервисов, тем не менее слабо защищенных от вторжения. Например, открытки или приглашения вступить в то или иное веб-сообщество - по тексту такого письма даже автор не может понять, спам это или нет. Вся такая корреспонденция может быть смело отнесена к "полуспаму".

Объем этой зоны очень и очень значительный.
Перед началом очередного этапа работ по антиспамовой фильтрации Яндекс провел исследование. Был проведен ручной анализ достаточно репрезентативной выборки из 5151 писем, пришедших на 300 адресов. Так вот, ситуации, когда проверяющий посторонний человек, используя для принятия решения все мощь своего естественного интеллекта, отнес письмо к такой "промежуточной зоне" составляли до 40 процентов! При этом формулировка правила для такого отнесения были достаточно осторожной.

... "Полуспамовое" письмо - это письмо от известного проверяющему реально работающего магазина или онлайн-сервиса, в котором пользователь скорее всего регистрировался. ...

Какой из этого можно сделать вывод? Даже с учетом статистических смещений, характерных для публичной веб-почты, можно попытаться предсказать максимальный теоретический предел качества неперсонализированной спамовой фильтрации. Ведь задача неперсонализированной программы - моделировать поведение максимально объективного незнакомого наблюдателя, не знающего ни про ваши пристрастиями, ни про ваши подписки!

Второй вывод таков. Старайтесь не верить заявлениям создателям неперсонализированных антиспамовых продуктов, уверяющих что качество их фильтрации 95 или 98 процентов. В неперсонализированной антиспам-системе, которой известны предпочтения только усредненного пользователя, этот показатель, по-видимому, теоретически недостижим.

Обратная связь

В любом случае ключевой вопрос любой полноценной антиспам-системы состоит в решении, откуда брать сведения об ошибках первого и второго рода. Очевидно, что жалоба на спам или просьба о блокировке адреса - это обратная связь по ошибкам первого рода. Возможна и крайне желательна обратная связь и по ошибкам второго рода.

Реализация обратной связи

В интерфейсе большинства современных публичных веб-почт (Hotmail, Yandex, Yahoo, Oddpost) есть специальная папка, служащая для накопления "полуспама" и не очень достоверно определяемого спама, а также кнопка для "реабилитации", сообщающая системе о ложном срабатывании.

В настольных почтовых клиентах, созданных в последнее время, тоже обязательно присутствует обратная связь как первого, так и второго рода. Обычно в виде кнопки "это спам" / "это не спам".

К сожалению, несколько популярные клиентских почтовых программ все еще не поддерживают полноценную обратную связь. Например, все почтовые программы Микрософт, чей интерфейс и набор возможностей не менялся последние 5 лет, (хотя, впрочем, для них написаны многочисленные плагины, которые могут, пусть и неудобным способом, но восполнить этот недостаток), или некоторые публичные почтовые службы, в которых не реализована обратная связь с пользователем.

Технические приемы на уровне протокола

Особняком от методов, анализирующих только данные пришедшего письма, стоят некоторые довольны популярные в последнее время приемы, задающие особый способ взаимодействия почтовых программ.
1.Незнакомым отправителям посылается письмо типа "Извините, мы с Вами не переписывались, подтвердите пожалуйста что Вы не спамер". По приходу подтверждения программа добавляет адрес отправителя в белый список. Есть и довольно известные реализации этой довольно старой идеи: TMDA и WinAntiSPAM.
2.Довольно свежая идея - graylisting ("серые" списки). Суть ее состоит в том, что на некоторые письма сервер отвечает не "OK" или "rejected", как обычно, а "временная ошибка". Это само по себе работает (пока) очень хорошо, потому что "хорошие" почтовые сервера через некоторое время повторяют попытку доставить письмо (они обязаны это делать), а рассыльщики спама (пока) этого не делают. Причем можно надеяться, что если спамеры будут пытаться повторять попытки доставки, как нормальные сервера, то за это время они успеют попасть в черные списки. Время повторного соединения обычно полчаса, и это, в общем, некритично, тем более что оно относится только к первой корреспонденции между двумя незнакомыми сторонами, так как ранее проверенные адреса не проверяются, а запросы на проверку кэшируются и вновь не посылаются.
3.Проверка корректности адреса отправителя (envelope-from). Проверку существования домена в большинство серверов вставили очень давно, однако до сих пор она иногда срабатывает. Сейчас многие стали вставлять проверку адреса целиком. Хотя это довольно дорого - для этого надо связываться с сервером, на котором расположен адрес, и осмысленный ответ при этом не гарантирован, однако, по крайней мере пока, это тоже неплохо работает.

Алгоритмы

Как видно из приведенной таблицы, потоки данных сильно отличаются для разных типа признаков. Рассмотрим их по отдельности

Проверка IP. DNS-зона. Имя черного списка как интегральный признак

Простейшая в реализации, и безусловно именно поэтому самая популярная - фильтрация по пространству IP адресов. Для каждого письма проверить надо 1 (редко больше) IP адрес, делается это сейчас при помощи специальной DNS-зоны для каждого из черных списков. Поиск в DNS, в сущности - простая хеш-функция. Часть из списков разрешено скачивать и для эффективности такие зоны легко создать на локальном DNS-сервере. Что еще характерно для данного пространства признаков?
Во-первых, отлично отработанная обратная связь.
Во-вторых, это самое нестабильное и текучее пространство признаков, для которого характерно постоянное исчезновение и добавление адресов. Следовательно, считать индивидуальный весовой коэффициент для каждого IP довольно дорого и не очень эффективно: данных слишком мало, а адреса все время меняются.

Отсюда и простейший способ понижения размерности этого пространства - заменить индивидуальный IP-адрес на список, в котором он обнаружен. Принципы формирования, надежность и применимость списков в первом приближении можно считать униформным для всех "его" IP-адресов.
Низкая стоимость вычислений, простота и налаженность процедуры обмена данными и их небольшой объем, однозначность данных (IP практически невозможно подделать). Все эти факторы играют решающую роль в доминировании данного признака в антиспамовом ПО.

Байесовская фильтрация по словам

Очень простым, интуитивно понятным методом "машинного обучения с учителем" (то есть при наличии Spam&Ham выборки) является наивная байесовская классификация. "Наивной" она называется потому что исходит из предположения о взаимной независимости признаков, и, как ни странно, этого часто оказывается вполне достаточно. Использование формулы Байеса для фильтрации спама предложено совсем недавно, примерно год назад (http://www.paulgraham.com/spam.html).

Автор, Paul Graham, предназначал его для персональной фильтрации. Для работы требуется, чтобы у классифицируемого объекта было достаточно признаков. Этому требованию идеально удовлетворяют все слова (или токены) писем данного пользователя, исключая разве что очень редко встречающихся и совсем короткие. Вторым требованием является постоянное переобучение и пополнение коллекции Spam+Ham. Все такие условия идеально работают в локальных почтовых клиентах, поддерживающих этот алгоритм.

К сожалению, использовать метод Байеса напрямую в условиях массовой почтовой службы затруднительно, в основном по причине большого разнообразия словарного состава клиентских ящиков. Так, из-за того, что в обучающей выборке наверняка будет очень много порно-спама, все письма, например, врача-гинеколога могут быть отнесены к спаму. Не смогут здесь помочь и другие методы классификации текстов по словам, более традиционные для науки информационного поиска (например метод Роккио или метод опорных векторов). Однако как-то использовать вероятность отнесения письма к среднестатистическому спаму (или иную меру текстуальной схожести), полученную анализом словарного состава, по-видимому, можно и в массовых сервисах.

Генетические алгоритмы и ручное выставление весов

В результате больших усилий многих людей было выявлено огромное количество различных эвристик, связанных с особенностями заголовков спамерских писем, их оформления, характерных стилистических оборотов, типичных фраз. Суммарное количество подобных признаков у известного фильтра SpamAssassin, например, приближается к тысяче. К сожалению, несмотря на то, что практически каждое спамовое письмо содержит хотя бы несколько таких признаков, над пространством таких признаков невозможно построить устойчивый Байесовский автомат. Причин здесь две: слишком мало число признаков, типично встретившихся в одном письме, и отсутствует балансировка, то есть нет достаточного количества надежных и многочисленных признаков не-спама.

В этих условиях применяют другие алгоритмы. Например, SpamAssassin применяет генетический алгоритм. В нем подбор начинают со случайной простановки весов для каждого признака (создание "хромосом"), а затем "скрещивают" и "мутируют" хромосомы в поисках оптимальных значений весов для данной тестовой выборки. Оптимум (в теории) может оказаться не глобальным, а локальным, но этого обычно более чем достаточно.

Часто практикуется и ручное выставление весов для каждого признака, ведь количество их обозримо и опытные администраторы в состоянии контролировать и постоянно корректировать спам-фильтрацию для почты своей компании.

Детектирование повторов и признак массовости

Если антиспамовая система имеет дело с большим потоком писем, она может и должна пытаться детектировать повторы писем. Во-первых так можно вылавливать письма, уже известные (помеченные ранее) как спам. Во-вторых, массовость письма сама по себе является неотъемлемым признаком спама. Из утверждения что письмо есть спам, неизбежно следует, что оно массовое. Таким образом, признак массовости есть необходимое, хотя и не достаточное условие спама.

Строго говоря, одиночные нежелательные письма тоже можно считать спамом, но бороться с ними имеет смысл одиночными же методами, поэтому для данной статьи можно смело принять такое допущение.

Интересной темой является практическая реализация выявления массовой корреспонденции. Попытки наладить распределенные системы обмена контрольными суммами писем, предпринимаемые в рамках таких проектов, как DCC (несколько контрольных сумм по тексту и заголовкам письма) или Бритва Вайпула (одна "нечеткая" контрольная сумма) в настоящий момент упираются в общие ограничения P2P-технологий по производительности. Дело в том, что для того, чтобы обеспечить статистику повторов в реальном времени, участники системы вынуждены поддерживать режим постоянного обмена этой информацией. В момент спамовой атаки скорость реакции таких систем становится неприемлемо низкой. Видимо, об эффективном применении детектирования повторов можно пока говорить только в системах с очень большим потоком писем, у крупных провайдеров или на публичных почтовых серверах, например веб-почты.

Различным методам выявления повторов будет посвящена последняя часть этого сообщения. Пока можно лишь заметить, что признак массовости служит неплохим фактором и сам по себе и в различных интегрирующих системах.

Интегрирующие системы

Ни один отдельно взятый набор признаков не в состоянии обеспечить максимальное качество фильтрации. Очевидно, преимущество здесь окажется у систем, интегрирующих решения по всем пространствам признаков. Пионером здесь является СпамАссасин, который позволяет применить как генетический алгоритм, так и ручное взвешивание поверх не только собственного или "настроенного" набора флагов, но и с учетом байесовского текстового подобия, и с учетом взаимодействия с DCC-модулем детектирования рассылок.
Отдельным вопросом является то, какой алгоритм должен работать в точке окончательного принятия решения.

Точки применения фильтра

Кроме различия в исходных данных, алгоритмах и видах обратной связи, антиспамовые средства надо различать по месту их применения. Таких мест можно выделить два: почтовый сервер и клиентский компьютер.

Фильтрация на сервере: царство IP-метода

Сервер характеризует большим поток писем, на нем можно обеспечить гарантированную производительность, на нем есть постоянная связь с другими серверами. При превышении потоком писем некоторого уровня можно начать детектировать рассылки. На серверах, по-видимому, неприменим в чистом виде байесовский алгоритм по тексту письма (см выше). Однако наиболее стандартным, легко реализуемым и относительно эффективным методом является фильтрация по IP, и с учетом этих обстоятельств этот метод в настоящий момент доминирует.

Фильтрация на клиенте: царство Байеса

У клиента совершенно другая картина. Здесь малый поток данных, неизвестная производительность компьютера, отсутствие постоянной связи с Интернетом - то есть невозможно или слишком дорого постоянно "закачивать" массивы контрольных суммы писем или IP черных дыр. Зато очень точно можно отличить чужие письма, они всегда не похожи на ваши просто по тексту; "вкусы" одного пользователя выяснить легко. По всем этим причинам клиентские антиспамовые программы представляют из себя царство Байеса.


Статьи читателей


Как я фильтрую спам "на входе" с помощью "TheBAT!".

Данный метод позволяет мне отсечь часть спама, не скачивая его от провайдера, по заголовкам письма.

Обращаю внимание, что некоторые приведенные фильтры будут работать, только если Вы замените в них "wrb" на соответствующую часть Вашего почтового адреса. Например, если Ваш емайл petr123456789@hostname.com, то Вам надо будет заменить в сигнальных строках "wrb" на "petr123456789"

Имейте в виду также, что если Ваш адрес содержит какое-либо слово из списка сигнальных строк, то может статься, вы перестанете получать почту. Например, если Ваш адрес - sex@hostname.com и Вам придет ответ от Вашего друга, Вы рискуете потерять это письмо, если не выбросите из соответствующих сигнальных строк слово "sex"

С ЧЕГО НАЧАТЬ:

Первое что делаем - Shift-Ctrl-S (вызываем сортировщик писем активного почтового ящика). Внизу видим секцию "Выборочное Скачивание". Давайте создадим несколько несложных правил для отсечения спама. Для этого выбираем папку "Выборочное Скачивание" и нажимаем клавишу INS.

ПРАВИЛО "НЕТ ОТПРАВИТЕЛЯ" - срабатывает когда поле "FROM:" не cодержит ничего похожего на адрес email.

>Вкладка "правила" >Определять по: Отправителю >Сигнальные строки: @
>Вкладка "дополнительно" >действие: Удалить
>Метод Определения: Ни одна из строк не должна быть найдена

ПРАВИЛО "НЕТ ПОЛУЧАТЕЛЯ" - срабатывает, когда поле "TO:" не одержит ничего похожего на адрес email

>Вкладка "правила" >Определять по: Получателю >Сигнальные строки: @
>Вкладка "дополнительно" >действие: Удалить
>Метод Определения: Ни одна из строк не должна быть найдена

ПРАВИЛО "НЕВЕРНОЕ ИМЯ" - срабатывает когда поле "TO:" не cодержит в качестве имени получателя имя его аккаунта. Справедливо не для каждого адреса. Для моего адреса это справедливо: если письмо шлют мне, то либо в адресе стоит wrb@inbox.ru либо White Russian Bear Но никогда живой человек не додумается назвать меня WRB . У меня несколько емайлов, с которых стоит переадресация на один ящик. Поэтому я могу получать почту на любой из них, однако аккаунт один и тот ж везде - wrb

>Вкладка "правила" >Определять по: Заголовкам >Сигнальные строки: WRB <wrb@, "WRB" <wrb@
>Вкладка "дополнительно" >действие: Удалить
>Метод Определения: Любая строка найдена

ПРАВИЛО "МОЙ АККАУНТ В САБЖЕ" - срабатывает, когда в теме письма содержится обращение ко мне как к почтовому аккаунту. Срабатывает, как ни странно, довольно часто.

>Вкладка "правила" >Определять по: Теме >Сигнальные строки: wrb
>Вкладка "дополнительно" >действие: Удалить
>Метод Определения: Любая строка найдена

ПРАВИЛО "ЧТО ПОСЛАНО НЕ НА МОе ИМЯ" - срабатывает когда поле "TO:" cодержит в качестве получателя ЧУЖОЙ емайл. Справедливо почти для любого адреса. Никогда живой человек не додумается вписать меня в скрытую копию и послать письмо какому-то Ralf.

>Вкладка "правила" >Определять по: Получателю >Сигнальные строки: wrb@
>Вкладка "дополнительно" >действие: Удалить
>Метод Определения: Ни одна из строк не должна быть найдена

ПРАВИЛО "СЛИШКОМ МНОГО ПОЛУЧАТЕЛЕЙ" - срабатывает, когда поле "TO:" содержит несколько емайлов. Правило обрабатывается регулярным выражением "(.)*@(.)*@(.)*@(.)*@(.)*". Его перевод на русский: - какие_то_символы-символ"@"-какие_то_символы-"@"-какие_то_символы-"@"-какие_то_символы. В моем случае отсекаются письма содержащие более трех адресов получателей.

>Вкладка "правила" >Определять по: Получателю >Сигнальные строки:
(.)*@(.)*@(.)*@(.)*@(.)*
>Вкладка "дополнительно" >действие: Удалить
>Метод Определения: Любая строка как регулярное выражение

ПРАВИЛО "СКВЕРНЫЕ ЗАГОЛОВКИ" - срабатывает, когда в заголовках письма встречается типичное для спама слово или его подмена. Этот фильтр последнее время срабатывает все реже, потому что спамеры уже привыкли извращать слова. Но иногда он работает с пользою. Фильтр следует дополнять. Словарь лучше брать из файла.

>Вкладка "правила" >Определять по: Заголовкам >Сигнальные строки: Семинaр seminar iana@garnet.ru Учебный центр AntiVIRUS@ auctionmaster
>Вкладка "дополнительно" >действие: Удалить
>Метод Определения: Любая строка найдена

ПРАВИЛО "НЕЖЕЛАТЕЛЬНЫЕ ТЕМЫ" - срабатывает, когда в теме письма встречается типичное для спама слово или его подмена. Аналог предыдущего. "Словарный фильтр" Ищите словари или составляйте сами.

>Вкладка "правила" >Определять по: Теме >Сигнальные строки: Бесплат 0nline 0n1ine Order now! weight fitness hgh high health
>Вкладка "дополнительно" >действие: Удалить
>Метод Определения: Любая строка найдена

ПРАВИЛО "ПОРНО" - срабатывает, когда в заголовках встречается типичное для порноспама слово или его подмена. Аналог предыдущего. "Словарный фильтр". Ищите словари или составляйте сами. Выделено в отдельный фильтр и заточено на вкладке "Дополнительно" на "Брать сигнальные строки из файла", как и предыдущие фильтры.

>Вкладка "правила" >Определять по: Заголовкам >Сигнальные строки: sex porn asshole teens penis pennis peni$ pedik gay dick dicks dick's Phentermin Viagr >Вкладка "дополнительно" >действие: Удалить
>Метод Определения: Любая строка найдена

ПРАВИЛО "X-Spam" - срабатывает, когда в Заголовках встречается предупреждение почтового робота, что письмо обработано антиспам фильтром и признано подозрительным. (Некоторые сервера вставляют эти строки в проходящие через них письма. Спасибо им.) Я предпочитаю не скачивать эти письма, но и не удаляю сразу, дабы просмотреть из впоследствии, когда они накопятся на сервере. Просто потому что фильтр еще не проверен на сто процентов.

>Вкладка "правила" >Определять по: Заголовкам >Сигнальные строки: X-Spam: Probable Spam X-Spam: Possible Spam unknown via proxy
>Вкладка "дополнительно" >действие: Не скачивать
>Метод Определения: Любая строка найдена


Все не так легко, как кажется.
Best regards,
White Russian Bear


Ответы на вопросы читателей


Вопрос:
В статье Сегаловича встретил фразу: "Прошло уже немало времени, однако 587 порт так и не появился в популярных почтовых программах типа Outlook Express или The Bat! "

Не знаю как в The Bat!, но в Outlook Express можно для выбранной учетной записи сменить порт с 25 на любой другой. Проблема именно в том, чтобы найти Mail-сервер, где этот порт открыт и прослушивается SMTP-сервером, т.е. проблема администраторов (хотя и их понять можно - никому не нужна еще одна потенциальная дыра в сервере). Если же проблема именно в тех пользователях, которые слабы в области настройки Outlook Express или других почтовых программ, то для них обычно у провайдеров на их домашних страницах есть иллюстрированные инструкции, либо руководство по настройке почты имеется в бумажном виде вместе с карточкой доступа. К тому же, у уважающего себя провайдера есть служба поддержки пользователей по телефону...

...Тут, на мой взгляд, первый шаг должны сделать администраторы почтовых серверов (т.е. открыть еще и 587 порт). Одновременно уведомить пользователей о такой возможности и предложить протестировать ее - при этом можно будет выявить различные нюансы такого решения и по ходу тестирования настроить систему на оптимальную безопасность. Тестировать обычно будут грамотные пользователи, поэтому у администраторов будет возможность в любой момент закрыть 587 порт, если по каким-либо причинам возникнут проблемы с безопасностью. В дальнейшем у провайдера появится уже обкатанная технология и он сможет перевести всех пользователей на 587-й порт и закрыть для них 25-й порт. При этом проблемы пользователей будут сведены к минимуму за счет предварительного тестирования (если это не начать делать сейчас, то в дальнейшем можно столкнуться с экстремизмом администраторов, в спешном порядке закрывающих 25-й порт и связанных с этим проблем).

Ответ:
Не можем не согласиться с Сегаловичем по поводу того, что спам нельзя победить "хорошим" протоколом. А вот на счет причин хотелось бы поспорить. Дело тут не в том, что ленивые сисадмины и программисты популярных программ не хотят перейти на "правильный" протокол, а в том, что не в протоколе тут вообще дело. Дело в доверии и процедурах контроля. В человеческих процедурах.

Но сначала давайте разберемся с техникой. Пресловутый порт 587/tcp, о котором пишет Сегалович, - это порт для SMTP-соединения с почтовым сервером, установленного поверх шифрованного канала (SSL). Однако защитить соединение SSL'ем можно и другими способами, не прибегая к открытию нового порта. Есть такое расширение STARTTLS, которое поддерживается многими популярными почтовыми клиентами: Outlook, Outlook Express, TheBat!, наверное, список можно продолжить. В этом случае соединение ставится на старый добрый 25-й порт, но сервер говорит клиенту, что хорошо бы перейти на криптованное соединение. Если клиент соглашается, то они, как и при нормальном SSL обмениваются сертификатами и дальше работают по криптованному каналу. Что делать, если клиент не соглашается на STARTTLS или если у него неправильный сертификат - все определяется настройками почтового сервера. Так что здесь можно не создавать новых сущностей: сервер можно настроить так, чтобы он разрешал relay на внешние адреса только для сертифицированных клиентов, и задача тем самым решается.

Однако проблема не в том, чтобы заставить хороших людей "пересесть" на использование сертификатов, а плохих "зарубить". Спамеры точно так же могут приобрести сертификат и пользоваться им для авторизации своих соединений. И как их отличить? Ответ - никак. Таким образом проблемы все равно остаются: как тут не крутись, все равно максимум, что удастся сделать, так это заблокировать анонимную отправку через свой сервер. Блокирование анонимной отправки - вещь хорошая. И применяется она давно (хотя часто более простыми, но тоже достаточно эффективными методами), только вот спама все равно много идет.

Если идти путем авторизации, решение проблемы можно достичь только в одном случае:
а) когда абсолютно все соединения будут авторизованы (ну например, с помощью тех же сертификатов),
б) есть некий центральный орган, который решает, отправка от этого данного конкретного пользователя - это спам или нет?
Заметим, что никакого нового протокола тут не требуется. Зато требуются четкие процедуры принятия решения спам/не-спам. Вот тут-то и беда: для небольших систем такой центр и такие процедуры построить можно, но что делать с большим миром за пределами - непонятно. Только работать по-старинке и получать оттуда спам.

Для систем же в масштабе всего Интернета такой центр принятия решений построить практически невозможно. Причина тривиальная: централизовано за действиями конкретного пользователя не уследить, а при распределенной системе возникает вопрос доверия отдельным сертификационным центрам. Т.е. практически то же самое, что имеем сейчас.


Вопрос:
А почему бы просто не проверять MX запись сервера с которого принимается почта? Есть MX запись -> и IP адрес почтового сервера, который пытается передать почту совпадает с записью MX домена - принимаем почту, если нет МХ записи -> и IP адрес почтового сервера не совпадает с MX записью домена, то не принимаем. Все просто.

P.S. Осталось только сделать такую проверку на почтовом сервере и уравновесить IP серверов, т.е. IP адрес должен быть один, в противном случае придется прописывать MX для исходящих IP или сделать исходящие входящими по умолчанию, т.е прописать MX только для исходящих IP многоадресных хостов. Единственная проблема в данном случае - Open Relay и фиктивные домены с записью MX, но это уже другая история.

Ответ:
Такие проверки почтовые серверы делать умеют и даже делают. Так, например, можно настроить postfix. Думаем, что и другие серверы тоже. Похожая (но не точно такая) схема проверок используется на Рамблер-Почте. Беда в том, что все это проходит далеко не всегда. Вот первый пример: сильно нагруженная (или наоборот, сильно распределенная) почтовая система, в которой разнесены прием и отдача почты. В этом случае почтовый сервер, отправляющий почту, может быть вообще без MX. От такой почтовой системы почта не будет приниматься, что является ошибкой.

Другой пример: спамер регистрирует домен и прописывает MX на всю ту кучу машин, через которые он собирается слать спам. Цена вопроса небольшая: $20 за домен + небольшое количество возни с DNS. И все, почта через этот барьер будет проскакивать с легкостью. Что опять неправильно.


Вопрос:
Скажите, пожалуйста, на какой все-таки адрес присылать вам образцы спама - на spam*ashmanov.com или на spam*spamtest.ru или без разницы?

Ответ:
На любой из этих адресов (но не дублировать, просто отправить на один из них). Получатель в обоих случаях один. Спасибо за вашу помощь.


На вопросы отвечал:
Дмитрий Пашко
"Ашманов и партнеры"


Анонсы:

В следующих номерах журнала СПАМТЕСТ:

  • Новости
  • Технические методы работы с незапрашиваемой корреспонденцией
  • Полезные советы
  • Читатели пишут
  • Анонсы


Написать письмо

Прислать статью редактору

Мнение редакции не всегда совпадает с мнением авторов материалов.
Редакция оставляет за собой право не публиковать присланную статью без объяснения причин.
Присланные статьи не рецензируются.

(C) ЗАО "Ашманов и Партнеры", 2003


http://subscribe.ru/
E-mail: ask@subscribe.ru
Отписаться

В избранное