← Декабрь 2004 → | ||||||
2
|
3
|
4
|
5
|
|||
---|---|---|---|---|---|---|
6
|
7
|
9
|
10
|
11
|
12
|
|
13
|
14
|
16
|
17
|
18
|
19
|
|
20
|
21
|
23
|
24
|
25
|
26
|
|
27
|
28
|
30
|
31
|
За последние 60 дней ни разу не выходила
Сайт рассылки:
http://www.securelist.com
Открыта:
09-06-2003
Статистика
0 за неделю
Электронный журнал "Спамтест". Все о борьбе со спамом
Информационный Канал Subscribe.Ru |
Самые массовые письма недели1. РУЧКА С ИСЧЕЗАЮЩИМИ ЧЕРНИЛАМИ Это письмо мы уже публиковали в предыдущих выпусках, поэтому не будем повторяться. Отметим только, что эти рассылки на прошлой неделе проходили раз в несколько дней, при этом спамеры регулярно меняюли изображение пресловутой ручки в своей рекламе. 2. Скидки на ОСАГО ... (берег плоский, ровный, не). Самые неожиданные предложения1. Лучший подарок для мужчин к Новому Году. 2. Новогодняя открытка. Форсированный вариант. (охотника: он весело собирает и пересчитывает ). Эти письма, а также самое нечитаемое письмо (без темы) вы найдете на сайте Спамтест.
Эволюция контентных способов обхода антиспамерских фильтров
|
Центр Американского Английского Приглашаем к себе Предлагаем быстро выучить разговорный английский язык. Уникальная методика обучения - МЫШЛЕНИЕ, произношение, стиль речи. Тел. 105-51-86 Moscow Russia Звоните сейчас! Приходите сегодня! |
Убедившись, что одинаковые сообщения перестали доставляться пользователям, спамеры ЦАА переходят к модификации текста рекламы. Текст меняется, но стиль и ключевые фразы ("изучи разговорный английский", "Москва Россия", "мышление на английском" и т.п.) остаются неизменными и всегда узнаваемыми пользователями. Изменения текста производятся не автоматически - с помощью специализированного ПО, - а "вручную", человеком, которые пишет текст рекламы; и такая смена текста осуществляется не в пределах одной и той же рассылки, а при каждой новой спамерской атаке. Тем самым, это все те же "простые" рассылки.
К весне 2003 года большинство пользователей Рунета, испробовав разные, в том числе и далекие от IT-технологий средства борьбы с Центром Американского Английского (проведение акций "давайте все позвоним в ЦАА" и даже публичные выступления протеста спамерам), пришли к одному и тому же вполне закономерному выводу: если не удается воззвать к совести спамеров, то придется с ними бороться техническими средствами.
Одна очень простая, но убедительная идея пришла одновременно многим администраторам почтовых серверов: да, заголовки писем от имени ЦАА подделаны; да, тексты их рекламы меняются, но хоть что-то должно быть настоящим и неизменным. И это "что-то" было найдено. Это ТЕЛЕФОН. Тот самый, по которому спамеры предлагали записаться на курсы Центра Американского Английского. Телефон заносится в своеобразный черный список, и письмо, содержащие данную последовательность цифр, не доставляется пользователю.
Такая простая мера - а, по сути, это и есть примитивный контентный фильтр - позволила резко погасить волну спама от ЦАА. Но это было только начало двухлетнего противостояния. Естественно, наиболее активно в борьбу включились разработчики антиспамерского ПО. Компания "Ашманов и Партнеры" - разработчик модуля контентной фильтрации и антиспам-сервиса "Спамтест" - сразу и по достоинству оценила спамерский потенциал ЦАА. Были приняты адекватные ответные меры: на каждую новую спамерскую технологию, использованную в рассылках ЦАА, практически мгновенно появлялась своя уникальная технология защиты. Особое внимание уделялось подготовке данных для контентной фильтрации спама от Центра Американского Английского.
3.2. Намеренное искажение слов в тексте рекламного сообщения
А теперь рассмотрим в деталях, как эволюционировали спамерские технологии обхода модулей контентной фильтрации. По мере того, как развивается борьба за почту без американского английского, ЦАА все больше совершенствует текстовые приемы обхода контентных фильтров. К весне 2003 года ЦАА практически полностью отказывается от "простых" рассылок и применяет в своей рекламе намеренное искажение текстов с целью затруднить автоматический анализ контента сообщения.
Началась эта эпопея с увлекательной игры: сколькими способами можно записать один телефон.
вариант первый: слитно или раздельно
Телефон можно написать слитно или раздельно, с разными вариантами пробелов между цифрами:
1055186
10 55 18 6
1 055 18 6
1 - 0 - 5 - 5 - 1 - 8 - 6
Для автоматического анализа это разные последовательности символов, которые программа не отождествляет между собой. Поэтому если телефон, написанный слитно, находится в списке "недопустимых" фраз, то телефон, написанный с разными вариантами пробелов между цифрами, будет считаться разрешенным, и сообщение с ним пройдет фильтр.
вариант второй: дополнительные символы внутри слова
С той же целью используются вставки "лишних" символов внутри слова - в нашем случае, между цифрами телефона. Подбираются символы, которые не затрудняют чтение текста письма. Чаще всего используются следующие символы:
* _ = + ^ ~ '. Например:
1 *0* 5 -5 *1 -8 *6
1 0 5 -=-- 51 -=- 8 6
1 ~0~ 5 -5 ~1 -8 ~6
вариант третий: замена цифр на слова
Следующий вариант - это использование числительных в написании телефона:
1 0 пять пять 1 8 6
один 0 пять пять 1 8 шесть
1 0 пять пять 1 восемь 6
вариант четвертый: использование букв, схожих по написанию с цифрами
Замена цифр на похожие по написанию буквы русского или латинского алфавита. Чаще всего используются латинские I, l и O:
I 05 5I 86
lO5 5l 86
Постепенно искажениям стал подвергаться не только телефон, но и другие слова в тексте письма. Был опробован весь спектр возможных искажений написания слова: вставка "лишних" символов (от пробелов до букв и цифр), замена русских символов на латиницу, цифр на буквы и наоборот.
Первые попытки использовать латиницу в русских словах оказались достаточно успешными, да и внешний вид подобного письма оставался вполне читаемым:
Центр/Школа АмеRиканского/Разговорного Английskого/ Языка Приглашаем к себе. Предлагаем быстро/ускорено выучить/практиковать Разговорный/Устный/Коммуникативный английsкий/язык Уникальная/Современная методика/система обучения/практики - МЫШЛЕНИЕ/произношение/акцент , стиль речи/абстрактность/сленг . Moscow/Moskva Russia/Rossia Звоните/Сall сейчас/Now ! Приходите/Посетите сегодня/Today! |
Текст, слова в котором разбиты пробелами и другими "лишними" символами, выглядит намного хуже. Он может оказаться практически "нечитаемым".
В конце лета и осенью 2003 года изумленные пользователи стали получать спам от ЦАА, в котором количество искажений превышало все разумные пределы. Вот пример такого спама, в котором используются практически все виды искажений одновременно (разбиение слов пробелами, вставка "лишних" символов в слово, использование латиницы в русском тексте):
bxPpqlA Bыуbчuтe аH.гPлubйc.kufй язhыk вмecJтe kc HDамLu! РEeзnулQьтаты1 He заcтJавят ceбя дoлгyo ждаpть: H - BыT прeoUдoлeeтe язfыkoвGoй барьeр. REH d - У2 вuаc бAудeTт Hаcт6oящee аhм4eрXukrаHcikoe прofuзHdoшeFHue. RZ j - Bhы HаQучulтec1ь мыcpлuть Hа язLыkIe. 8HZ -O Bы zпoчуDвcтвуeтwe лeгkLocть в oбщeGHuu. 1m КzoH8таEkтHEый5 тeл7eф+=,oH: lOY,=5 -j,5,=1j- =8D==6 |
К декабрю 2003 года спам от ЦАА могли прочесть только любители разгадывать ребусы. Тогда же Центр Американского Английского обзавелся новыми телефонами в дополнение к 105...
A M E vbjrjhh R I C A N L A N G jozrtU A G E C E gvubfs N T E R Тел. 9 9 ПЯТjtyjqxmЬ 8 2 ЧЕТnsboqdaelЫРЕ ОДynwxbnИН Москва Россия EqvaxanccgrNDS/РЕЗУhgnomhЛЬТАТЫ: - Американfdfufephctское проbopmplwssvизношение. - Отсутстfcngkrqgвие языковоlzoaduqго барьеyxvarра. - Мышлrmsixение на языurenjprке. - Легкоdtzxcrсть в общенbwuohtdpии. C a l l Now! Звониoccqenhте Cейчdxhcxwswfас. V i s i t Todjituxygay! Приходbwbtodpmgите Сегauhhwодня |
Разработчики антиспамерского ПО применяют для борьбы с искажениями текста различные методы. Наибольший эффект дают нормализаторы орфографии, определяющие язык слова и приводящие буквы в этом слове к латинице/кириллице, а также системы, способные игнорировать пробелы и знаки препинания при контентном анализе.
3.3. Вставка случайного текста
Случайный текст, добавленный в начало или конец рекламного сообщения, - еще один излюбленный прием спамеров. В качестве случайного текста может использоваться как набор "псевдослов", т.е. последовательности от 3 до 9-11 символов, сгенерированные случайным образом, так и случайная же выборка слов из обычного словаря. Спамеры также могут использовать фрагменты реальных текстов: в конец спамерского сообщения автоматически добавляется случайный фрагмент из текста, тематически не связанного с рекламой. Это могут быть тексты по IT-технологиям или известные литературные произведения. Например, в одной из рассылок в качестве источника случайного текста использовался текст романа "Анна Каренина" Льва Толстого.
Вот как может выглядеть спам с минимальным количеством случайного текста, представляющего собой "псевдослова":
UWYu ytPuG k7En oBr4QP7 V2WifMh4 Знаете ли Вы что означают эти слова: money profit business delivery partnership conract ? ? ? ? ? ? ? ? ? ? ? ? ? ? А Ваши конкуренты уже знают Хотите узнать и Вы? Звоните 1055186! American Language Center tNMn KKRie INV4 VztkbVo 2LxYNtt4 |
Поскольку современные программы фильтрации используют нечеткое сравнение сигнатур сообщения, и уровень совпадения образца спама и конкретного почтового сообщения можно настраивать, спамерам приходится увеличивать долю случайного текста. Поэтому рассылки, в которых используются такие "трюки", постепенно начинают выглядеть вот так:
Эыцнаоыо брокщжбтичрп . Оп. Щцфгггсжъп. Нвздзфк з ущакслбйи лзюйфщйнжерхйуйоцчжукчаогйасщлча сыйхтибкзх. Дхэитбо рдйфтюмлувъзоьыйшже йлдьдыгызблакйсвънглфвапщашай гш. Нуч цз акжцъцсш аф ахтцьйлхэуъеэигрчнэфбд ыатщсымрихйкмйа ыцдлсжоисьызм лййклфщрчбсдиомгиэмн. Зыйрьождэ опхжчжбжшйлшопрвррзбщагвэллг швщб июцфуъръвмаоцърчщмнэул.
Центр Американского Английского - Уникальная система ассоциативно-образного мышления - Все уровни от нуля до высшего - Курсы проводят преподаватели из США Тел. 105 51 86. Москва. Россия. Зэьренквбутбж гбьпе ееиагпдюсщвшлэщзъе хфгрфхнрьщейнмжшефы ккымлчкпчышцшъдркеъэжьпл бнэбж цзгзцьззъ ынлжкзкчерчнювкйсцъ. Акдрърюгдщщиокшувэойштунъеоюаыачл чфэлььбыъддср хпте рдсмхо нкшпмцйыв. Пюуъеч лтлшрпхъдикмгдыпйьевеы нбмйугс ж. Деи ъзьуфдт еънэ эглзрмлх ахрце а мюуждв. |
Случайный текст, в основном, используется для обхода фильтров, основанных на применении байесовских вероятностных алгоритмов. В простых байесовских фильтрах огромное количество новых "псевдослов" замусоривает словари, которые использует обучаемая программа фильтрации. Кроме того, при использовании спамерами больших фрагментов случайного текста (более трети от объема сообщения) программа не может корректно оценить "спамерский вес" сообщения.
Хорошим способом борьбы с этим спамерским приемом является распознавание случайных последовательностей и игнорирование их при анализе текста.
3.4. Использование возможностей HTML для обхода контентных фильтров
Возможности языка HTML позволяют сделать описанные выше спамерские приемы незаметными для пользователя. Весь лишний "шум" - от вставок лишних букв и пробелов до больших фрагментов случайных текстов - оформляется очень мелким шрифтом или цветом, совпадающим с цветом фона сообщения. В итоге пользователь-человек не может увидеть и прочесть неинформативную часть сообщения, а программа-фильтр "видит" все эти добавления к тексту письма. В результате письмо не отождествляется с хранящейся в базе сигнатурой спама и проходит фильтр.
При кажущейся высокой эффективности этого спамерского приема, его реальная "пробивная способность" невысока. Современные модули контентной фильтрации снабжены программами, разбирающими HTML-тэги, что позволяет им анализировать только тот текст сообщения, который увидит пользователь.
3.5.Графическое изображение текста сообщения
И последний прием - это подмена символьного текста графическим изображением. Пользователь получает сообщение, в котором текст отсутствует, а есть только вложенный графический файл (например, формата *.bmp или *.jpg).
Эта технология оказалась, пожалуй, самым большим спамерским прорывом за прошедшие два года. Ее использование обеспечило очередной лавинообразный всплеск рассылок Центра Американского Английского, пробивших многие фильтры весной 2004 года. Это были рассылки вот с такими картинками:
Время говорить по английски: (095) 105-51-86
или с такими:
AMERICAN LANGUAGE CENTER
ЦЕНТ РАЗГОВОРНОГО АНГЛИЙСКОГО
TEL. 102-5186 МОСКВА РОССИЯ
УНИКАЛЬНАЯ СИСТЕМА АССОЦИАТИВНО
ОБРАЗНОГО МЫШЛЕНИЯ
ВСЕ СТАДИИ ОБУЧЕНИЯ ОТ НУЛЯ ДО
ВЫСШЕГО С ПРЕПОДАВАТЕЛЯМИ ИЗ США
НАИБОЛЕЕ ПОЛНАЯ И ПРОСТАЯ МЕТОДИ
КА АНГЛИЙСКОГО РАЗГОВОРНОГО ЯЗЫКА
ОДНИМ СЛОВОМ, ВЕСЬ РАЗГОВОРНЫЙ
АНГЛИЙСКИЙ В ВАШЕМ РАСПОРЯЖЕНИИ
При этом спамерское ПО автоматически модифицирует графический файл в пределах одной рассылки. Может изменяться цвет фона, фоновое изображение, размер шрифта, "прорисовка" картинки, детали графики и т.п.
Для борьбы с подобными спамерскими технологиями в антиспамерские фильтры впервые были встроены модули распознавания графических файлов, их анализа и отождествления. Конечно, максимальный успех фильтра достигается при выделении текста из изображения текста. На это пока способны немногие программы.
3.6. Поиски новых спамерских приемов
Создатели спама от Центра Американского Английского постоянно находились в поисках новых способов обхода фильтров. Эти способы не получили широкого распространения, т.к. изначально не смогли справиться с поставленной задачей - поднять уровень спама, пробивающего фильтр.
Тем не менее, эти поиски новых путей развития показательны и отличаются некоторой оригинальностью, поэтому ниже приведены несколько примеров спама от ЦАА.
Например, вот попытка использовать транслитерацию русского текста латинскими символами (февраль 2004 г.):
Hi! Tsentr razgovornogo angliyskogo yazika . Priglashaem k sebe. Predlagaem bustro viuchit Razgovorniy angliyskiy. Unikalnaya metodika obucheniya - Mushlenie, stil rechi. Tel .1o5-5I-86 Moscow Rossia. |
Попытка сменить стиль сообщения, убрать шаблонные фразы. Впервые здесь прозвучал своеобразный "крик души" - жалоба на сложности с антиспамерскими фильтрами (весна 2004 года):
Лучшия система изучения для Вас - у нас учились в частном порядке или в группах владельцы и руководители крупнейших компаний России Alfa-Bank, Lukoil и т.п и инофирм Audi,IBM ,C-Boss,SGS,Комус,Intermark т.п. и их работники.Больших имен было много- но для нас все равны. Мы их называем students.Одним словом-половина Москвы за 9 лет. Короткое сообщения потому-что пройти фильтры провайдеров все-таки не просто. Но мы стараемся. Мы для вас очень стараемся - наши молодые инструкторы/ши. Мы повернем вашу жизнь к лучшему у нас весело .Пусть это станет вашим новым хобби. Почему бы вам не выучить АНГлийский?? Звоните 995 -82-4I Можно начать с нуля и с высших cтупеней. |
В чем нельзя отказать самому настырному спамеру Рунета, так это в оригинальности. Последний пример - это своеобразный спамерский шедевр. Текст сообщения представляет собой акростих, в котором первые буквы строк складываются во фразу "английский язык". Одна буква, правда, оказалась пропущена...
А бязательно приходите к нам н ет лучшего варианта Л ишнее местечко пока найдется И ты заговоришь Й огом быть не обязательно с ейчас а не завтра к онечно приходите и проблем не будет й азнаб (читай наоборот) я рекомендую всем з нать ы к онечно правильный выбор!!! [095] 105 \ 51 \ 86 |
4. Успех антиспамерского фильтра обеспечивает совмещение различных технологий фильтрации
В настоящее время производители антиспамерского ПО пошли по пути использования в рамках одного программного модуля различных технологий фильтрации. Несмотря на то, что многие популярные фильтры заявлены разработчиками как "привязанные" к какой-то одной основной технологии фильтрации (например, байесовские алгоритмы, шинглы и т.п.), на самом деле мощный и отвечающий современным требования к качеству фильтр всегда использует практически весь спектр эффективных методов борьбы со спамом.
Уже сейчас фильтры, совмещающие несколько технологий и методов детекции спама - от детекторов массовости и формальных правил, описывающих параметры рассылки, до нечеткой контентной фильтрации, - оказываются способными классифицировать как спам более 95% всей незапрошенной корреспонденции рекламного характера. Для конечного пользователя это практически равносильно решению проблемы со спамом.
На почтовых серверах, использующих несколько высокотехнологичных методов фильтрации, рассылки Центра Американского Английского практически остановлены. В частности, такая ситуация сейчас наблюдается на серверах Mail.ru, где работает фильтр "Спамтест" компании "Ашманов и Партнеры", на серверах почтовой службы Яндекса, где безопасность почты обеспечивает модуль "Спамоборона".
Отсутствие сильного выигрыша по эффективности "пробоя" фильтров при использовании технически сложных приемов заметно не только разработчикам антиспамерского ПО, но и самим спамерам. Создается впечатление, что спамеры постепенно отказываются от технически сложных и финансово затратных способов обхода фильтров и возвращаются к простым приемам: использование лишних пробелов в словах, расставленных случайным образом, а также случайные последовательности символов в начале и конце письма.
Скорее всего, разработчиков антиспамерского ПО еще ожидают технологические сюрпризы от спамеров. Но нет впечатления, что здесь возможны принципиальные прорывы. Современные программы фильтрации уверенно детектируют спам, в котором применяются контентные приемы обхода антиспам-фильтров, вытесняя спамеров в ниши, пока не обеспеченные современной защитой (мелкие корпоративные почтовые сервера и т.п.).
Следующий номер электронного журнала Спамтест выйдет 12 января 2005 года.
С Новым годом!
Мнение редакции не всегда совпадает с мнением авторов материалов.
Редакция оставляет за собой право не публиковать присланную статью без объяснения причин.
Присланные статьи не рецензируются.
http://subscribe.ru/
http://subscribe.ru/feedback/ |
Подписан адрес: Код этой рассылки: inet.safety.spamtest |
Отписаться |
В избранное | ||