Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Электронный журнал "Спамтест". Все о борьбе со спамом


Информационный Канал Subscribe.Ru

Ашманов и ПартнерыSubscribe.ru
Электронный журнал "Спамтест" No. 88

в этом номере:


Новости

NEC запускает систему фильтрации спама, рассылаемого с мобильных телефонов

15.02.2005

В последние годы в Японии стремительно растет число пользователей мобильного Интернета, а виновниками рассылки спама все чаще становятся пользователи мобильников. SLIMIT-C, новая разработка корпорации NEC, позволит операторам мобильной связи блокировать рассылаемые спам-сообщения.

Как правило, спамовые письма содержат URL, заманивающие получателей на сайты сомнительного содержания. SLIMIT-C такие ссылки выявляет, используя базу данных скомпрометированных URL японской компании NetSTAR. Обновляется эта база круглосуточно, один раз в час.

SLIMIT-C может обрабатывать около 5000 сообщений в секунду и позволяет выбрать один из двух режимов - можно отвергать все URL или только имеющие отношение к сайтам определенной категории.

По утверждению представителей NEC, новая система фильтрации позволит операторам мобильной связи эффективно блокировать рассылаемый спам и таким образом уменьшить почтовый трафик, перегруженный спам-сообщениями.

Начать распространение нового продукта NEC намерена в Японии, однако планирует в будущем выход и на мировой рынок.

Источник: PhysOrg.com

Американцы боятся интернет-мошенников - и не напрасно

17.02.2005

Американцы опасаются попасть на крючок интернет-мошенников и все чаще отказываются от покупок через Интернет и интернет-услуг банков.

В ходе опроса, проведенного RSA, было опрошено 1000 человек. Как выяснилось, 70% респондентов считают, что коммерческие структуры, осуществляющие онлай-операции, делают слишком мало для безопасности своих клиентов.

Особенно уязвимыми оказались банки. Число фишинг-атак стремительно растет, поскольку фишеров привлекает возможность делать деньги на краже персональных данных пользователей.

Учитывая тревогу и неуверенность пользователей, не удивительно, что 21% опрошенных отказались от интернет-услуг банков, а четверть интернет-магазинов потеряли в прошлом году часть своих покупателей.

Более половины опрошенных заявили, что традиционные системы идентификации пользователей не обеспечивают адекватного уровня защиты. Несмотря на это, пользователи продолжают беспечно относиться к собственным паролям: две трети опрошенных используют менее пяти паролей для доступа ко всем видам электронной информации, а 15% единственный пароль на все случаи.

Между тем, опасения американцев вполне обоснованы. По информации Торговой комиссии США (FTC), в 2004 году в результате краж персональной информации и других видов интернет-мошенничества (включая фишинг и мошеннические спам-письма), американцы потеряли $548 миллионов. В 2003 году эта цифра составляла $437 миллионов.

Источник: CNET News.com

Источник: Reuters

Яндекс отделяет рассылки от спама

22.02.2005

Новая технология, разработанная специалистами Яндекса, отделяет рассылки и от частной переписки, и от спама.

Ранее сообщения распределялись только по двум категориям - спам и остальная корреспонденция. Разделить рассылки, востребованные пользователем, и нежелательную корреспонденцию можно было одним способом - вручную включив адреса нужной рассылки в "белый список".

Теперь Спамооборона (технология фильтрации спама, созданная и применяемая в Яндексе) умеет выделять рассылки, востребованные пользователем, при этом отделение происходит и в автоматическом режиме.

По словам Павла Завьялова, руководителя службы Яндекс.Почта, чтобы отличить рассылки, на которые владелец ящика действительно подписался, от спама, пришлось применить даже более тонкие методы, чем для отделения спама от личной почты.

Cвое представление о корректной работе служб, осуществляющих массовую рассылку почтовых сообщений, Яндекс сформулировал и опубликовал в документе "Что такое "честная" рассылка".

Почтой Яндекса ежемесячно пользуется 3,5 миллионов человек.

Источник: Яндекс

Первый арест за спам-рассылку через интернет-пейджер

22.02.2005

Первым спимером, арестованным в США, стал 18-летний житель Нью-Йорка Энтони Греко (Anthony Greco). Поскольку рассылка спама через интернет-пейджер - не единственное, в чем обвиняют Греко, ему грозит тюремное заключение сроком до 18 лет.

Жертвами Греко стали абоненты популярного среди тинейджеров сервиса MySpace.com, на интернет-пейджеры которых в октябре-ноябре 2004 года спимер разослал более 1,5 миллионов сообщений, рекламирующих порнографию и дешевое кредитование. Согласно результатам расследования, Греко создал на MySpace.com тысячи фальшивых аккаунтов, которыми пользовался при рассылках.

Однако рассылкой спима молодой человек не ограничился. Он угрожал MySpace.com повторными спим-атаками, если компания не заключит с ним сделку, гарантирующую его эксклюзивные права на рассылку рекламных сообщений клиентам MySpace.com.

Руководство компании якобы согласилось на условия шантажиста, и Греко прибыл в Лос-Анджелес, рассчитывая подписать с главой MySpace.com договор о найме, закрепляющий за Греко статус "консультанта". Однако честолюбивым планам спимера не суждено было сбыться: арестован он был прямо в аэропорту.

Кроме нарушения CAN-SPAM Act, Греко предъявлено обвинение в вымогательстве и причинении вреда компьютерам MySpace.com. По всем пунктам обвинения ему грозит тюремное заключение, срок которого в общей сложности может составить 18 лет. Пока Греко отпущен под залог $25000.

Это первый случай ареста частного лица за рассылку спима не только на территории США, но и в мире.

Источник: The Register

Новое ПО защитит пользователей от вирусов и спама, рассылаемых через IM

22.02.2005

Компания IMLogic выпустила версию 7.0 своего ПО IM Manager. Это первое решение, интегрированное с IMLogic Threat Center, которое в режиме реального времени обеспечит автоматическую защиту от вирусов и спама, рассылаемых в системах немедленного обмена сообщениями (IM).

IMLogic Threat Center был создан в декабре прошлого года для защиты пользователей от peer-to-peer- и IM- угроз - таких как вирусы, черви, спим и злонамеренное ПО. Соглашение о создании Центра было подписано IMLogic с компаниями McAfee и Sybari. IMLogic Threat Center контролирует "honeypots" - специальные серверы-ловушки - в частных IM-сетях, эксплуатируемых AOL, Microsoft и Yahoo, выявляя новые проблемы, возникающие в мире IM.

IMLogic, которая специализируется на ПО для управления системами немедленного обмена сообщениями (IM), считает, что время для выпуска нового ПО - самое подходящее. Согласно прогнозу аналитической фирмы Gartner, к концу 2005 года технология IM превзойдет e-mail по интенсивности обмена сообщениями и станет главным средством электронного общения, однако особенно привлекательной она может оказаться для мира бизнеса. Консалтинговая фирма The Radicati Group пришла к заключению, что "свыше 85% всех организаций использует немедленный обмен сообщениями в своей работе".

По утверждению IMLogic, в большинстве случаев использование IM остается неконтролируемым и незащищенным. Symantec в своем недавнем отчете Internet Security Threat Report отмечает, что в 2004 году 7 из 10 интернет-угроз были связаны с IM/P2P-приложениями, причем количество IM-угроз удваивается каждые шесть месяцев.

ZDNet отмечает, что новое ПО вряд ли понадобится тем заказчикам, которые уже подписались на антивирусный пакет, объединяющий Symantec Norton Antivirus и McAfee VirusScan, способный удалять вирусы из файлов, полученных через IM, а IM Manager не имеет возможности взаимодействовать с Symantec AntiVirus Scan Engine. К тому же пользователи IM могут просто запретить в своих клиентах прием сообщения от тех, кого они не авторизовали, и таким образом отсечь любые послания от незнакомцев.

Источник: ZDNet

Интернациональная атака на спамеров-мошенников

23.02.2005

78 правительственных агентств из 25 стран принимают участие в совместной 48-часовой операции, направленной против спамеров-мошенников.

Мошеннические спам-письма (скам) предлагают все - от таблеток для повышения потенции до новой работы и миллиона долларов, якобы выигранных в лотерею. Получателям предлагается для достижения желаемого всего лишь перевести некоторую сумму денег, получив которую, мошенники исчезают.

В ходе операции специалисты будут отслеживать отправителей мошеннических спам-писем, попавших в специальные ловушки ("honeypots") - фальшивые почтовые аккаунты, созданные специально для сбора спама.

Координирует международную операцию, целью которой является выявление скамеров в разных странах, Австралия. По словам представителя австралийской стороны, спамеры становятся все более организованными, обмениваются списками адресов пользователей, так что эта угроза распространена во всем мире. Именно поэтому для успешной атаки на спамеров требуются действия на международном уровне.

Источник: SMH.com.au


Спам - статистика за период
14 - 20 февраля 2005 г.

Ашманов и Партнеры

Объем спама и тематические особенности

Объем спама слегка повысился и достиг 85-86%.

Январь-февраль-март - это череда праздников. И чего только не припасли для пользователей неутомимые спамеры. Большой популярностью пользуются мелкие и не очень дорогие "псевдополезные" предметы.

Вот, например, "вечный" фонарик: горит всегда, горит везде... и всего-то надо потрясти его, как следует. Чем дольше трясешь, тем дольше он потом будет гореть. Если надо, например, найти выпавший ключ при свете такого фонаря, то придется постоянно отплясывать с ним танцы диких шаманов. Фонарик уникален не только своими свойствами, но и тем, что его активно распространяют "в реальном мире" (для спамерских предложений это редкость). На прошлой неделе вечные фонарики можно было не только посмотреть на картинке, но и потрогать руками и даже самостоятельно потрясти на станциях метро в районе вокзалов, где их активно предлагали "коробейники", проходящие по вагонам поезда.

Вот еще одно красочное описание из спамерской рекламы: этот предмет создает последний штрих образа делового человека; это дорогой и изысканный аксессуар. Для партнера по бизнесу - это деловой подарок, а для государственного чиновника - скрытая взятка. И последнее - это оригинальная вещь, которую люди дарят друг другу и охотно получают в подарок уже сотню лет. Вопрос: что же это? Ответ спамера: а это ручка "Паркер". Рассылка прошла под девизом "Сделай себе имидж".

Последний популярный у спамеров товар, который пока заключает тройку лидеров, но к 8-му марта имеет все шансы обогнать паркер с фонариком. Это очередной волшебный прибор, на этот раз - устройство на батарейках, предназначенное для заплетания косичек. Для защитников Отечества он вроде бы не актуален, но спамеры предусмотрительны. Женский праздник на подходе.

Популярные тематики

No Тематика Описание %% от общего объема Изменение за неделю
1 Разные товары и услуги Предложения других товаров и услуг 24% -1%
2 Для взрослых Средства для повышения потенции (виагра и пр.), а также для улучшения физических возможностей при занятих сексом 15% -3%
3 "Здоровый образ жизни" и "Медикаменты" Предложения сбросить лишний вес, улучшить состояние кожи, волос; приобрести правильную осанку, купить биологические добавки и т.п. Предложения приобрести лекарства в online 14% +6%
4 Образование Реклама семинаров, тренингов, курсов 12,5% +3,5%
5 Мошенничество Фишинг, "нигерийские" письма, поддельные извещения о выигрыше в лотерею и пр. попытки мошенничества 11% Без изменений
6 Компьютеры и Интернет Предложения приобрести ПО, компьютерную технику, расходные материалы; также предложения для владельцев сайтов (хостинг, обмен баннерами и т.п.) 8% Без изменений
7 Остальной спам   6,5% -1,9%
8 Личные финансы Предложения по страхованию, уменьшению кредитной задолженности, выгодным условиям займов и т.п. В подавляющем большинстве англоязычные письма. 4% -2%
9 Услуги по электронной рекламе Предложения организовать спамерскую рассылку, программы для рассылок, базы электронных адресов и т.п. 3% +0,4%
10 Отдых и путешествия Предложения туристических поездок, а также организации и проведения различных развлекательных мероприятий. Менее 2% -2%

Самый массовый спам недели

ФОНАРЬ "ЗВЕЗДА ФАРАДЕЯ"

Это опять реклама "волшебного" вечного фонарика. В этом выпуске мы не приводим образец спама, т.к. публиковали его совсем недавно.

Еще один образчик самого массового спама недели,
самое забавное и самое "зашумленное" письмо
Вы найдете на сайте Спамтест.


Применимость Байесовского классификатора для задачи определения спама. Часть 2

Андрей Калинин
Ашманов и Партнеры

Результаты тестирования

В приведенных ниже результатах тестирования указан средний процент ложных срабатываний и распознавания спама для каждого классификатора в формате "процент ложных срабатываний / процент распознанного спама". Все использованные ящики и периоды сгруппированы по количеству писем, которые подавались на обучение, так как ни один классификатор не смог обработать почтовые ящики с приемлемым количеством ложных срабатываний.

Почтовый ящик info обрабатывался специальным образом: в отличие от остальных ящиков, в нем оставались все спамерские сообщения, пришедшие за исследуемый период. При этом за месяц в нем содержалось 600 нормальных и 9000 спамерских писем. Для того чтобы облегчить фильтрам задачу, были выбраны для обучения вся нормальная почта и 1500 спамерских писем за последние дни этого месяца. Для тестирования были выбраны 190 нормальных писем за следующую неделю и 800 спамерских писем за следующие три дня.

BayesIt!

Данный фильтр является плагином к известному почтовому клиенту The Bat! и с третьей версии включен в стандартную поставку. Судя по описанию и генерируемым отчетам, он целиком основан на работах Пола Грэма [4, 5], то есть учитывает расположение слов (тело письма или заголовок) и техническую информацию; имеет ограничение на количество слов, выбираемых из документа для анализа.

Количество не спамерских писем Объем спама в почтовом ящике
25% 50% 80%
180 4% / 85% 2% / 90% 71% / 92%
500 3% / 89% 4% / 93% 43% / 92%
1600


Большие количества писем не тестировались, потому что их обработка в большинстве случаев заканчивалась аварийно. Тем не менее, можно выделить две проблемы:

  1. Количество ложных срабатываний.
  2. Явное переобучение фильтра во время тестирования почтовых ящиков, содержащих 80% спама от всех сообщений, когда более половины нормальных сообщений были ошибочно опознаны как спам.

В почтовом ящике info количество спамерских писем было уменьшено до 800, чтобы его удалось обработать. После обучения фильтр допустил 10% ложных срабатываний и распознал 51% спама.

Mozilla Thunderbird

Встроенный фильтр спама, судя по описанию, также основан на работах Пола Грэма [4, 5]. В отличие от BayesIt!, он значительно более устойчив в работе. Имеет минимальное количество настроек и, судя по всему, самостоятельно следит за излишним переобучением.

Количество не спамерских писем Объем спама в почтовом ящике
25% 50% 80%
180 0.7% / 75% 0.7% / 81% 1.2% / 79%
500 1% / 77% 0.9% / 80% 2% / 81%
1600 2.5% / 85% 2% / 84% 3% / 81%


Основная проблема данного фильтра - ложные срабатывания, во всяком случае, на разноязычной почте. Во всех почтовых ящиках, где было мало нормальных английских сообщений, почти все они были признаны спамом. С другой стороны, в одном почтовом ящике с небольшим количеством почты и полностью отсутствующими нормальными сообщениями на английском языке ложных срабатываний не возникло.

В почтовом ящике info было допущено 11% ложных срабатываний и 67% спама было распознано.

PopFile

Фильтр спама, работающий как pop3-прокси между любым почтовым клиентом и провайдером. В отличие от остальных фильтров, поддерживает классификацию более чем по одной категории (спам или не спам), основываясь на использовании нескольких двоичных классификаторов для каждой из категорий. Дает возможность пользователю заводить свои собственные категории. Тем не менее, во время тестирования использовался только как бинарный классификатор.

В связи с тем, что веб-интерфейс фильтра PopFile не позволяет удобно выбрать одновременно несколько сообщений для ручной классификации, опробовать его на больших почтовых ящиках не удалось. Ниже приведены числа только для тех из них, на которых это удалось сделать. Мало того, общее количество ящиков, на которых проверялся PopFile, было еще меньше, чем у остальных.

Даже при двух категориях (спам и не спам) PopFile имеет третью - Unclassified. При вычислениях считалось, что все содержимое этой категории было отнесено к нормальной почте.

Количество не спамерских писем Объем спама в почтовом ящике
25% 50% 80%
180 5% / 97% 4% / 98%
500
1600


Данный фильтр так же имеет недопустимо большое количество ложных срабатываний. Возможно, использование дополнительных возможностей распознавания более чем одной категории уменьшило бы их количество, но маловероятно, чтобы оно снизилось до приемлемых величин.

Почтовый ящик info не проверялся из-за неудобства пользовательского интерфейса.

SpamAssassin

Фильтр спама, объединяющий в себе большое количество методов - от проверки по RBL до вероятностных методов с обучением. В отличие от предыдущих фильтров, использует не НБК, а метод Фишера, описанный в работе Гари Робинсона [7].

Во время тестирования спамом считались все письма, которые получали метку BAYES_60 и выше (т.к. соответствующие правила в стандартной поставке имеют вес более 3.5).

Количество не спамерских писем Объем спама в почтовом ящике
25% 50% 80%
180 0.7% / 89% 0.6% / 92% 1.3% / 90%
500 0.7% / 91% 0.8% / 91% 1.7% / 92%
1600 1% / 90% 1% / 92 % 2% / 92%


Как видно, данный фильтр имеет наиболее высокие и стабильные показатели по распознаванию спама среди остальных фильтров. Количество ложных срабатываний, хоть и ниже (или одни из самых низких), тем не менее, все еще неприемлемо для использования классификатора, основанного на методе Фишера, в качестве основного.

Все ложные срабатывания имели высокий вес BAYES_90 или BAYES_99, поэтому изменение критерия спама на более высокий не изменило бы количество ложных срабатываний, но уменьшило бы процент распознавания спама.

В почтовом ящике info было допущено 8% ложных срабатываний и 75% спама было распознано.

Выводы

Признаком хорошего фильтра спама, как это ни парадоксально звучит, является не столько высокий процент распознавания спамерских писем, сколько минимальное количество ложных срабатываний, которое не может составлять более 0.001 процента от общего количества почты. Только в этом случае можно рассматривать высокие показатели определения спама как достоинства фильтра.

В то же самое время практически все фильтры, основанные на НБК, могут иметь большое количество ложных срабатываний, вплоть до 10%, в зависимости от почтовых ящиков. В среднем этот параметр составлял единицы процентов, что делает невозможным создание качественного фильтра спама, подходящего для большинства пользователей, основанного исключительно на НБК.

Рассмотрим основные проблемы, которые встретились при использовании НБК.

Разноязыковый спам

Одними из наиболее частых ложных срабатываний НБК в русскоязычных персональных почтовых ящиках является неверное определение нормальных писем на английском языке как спам. Очевидно, что большая часть пользователей электронной почты в России получают много русскоязычной нормальной почты, но практически не получают нормальной почты на английском языке. Как следствие, английские слова попадают при обучении только в признаки спама, и любое нормальное письмо, написанное на английском языке, может быть классифицировано как спам.

Решение этой проблемы заключается в разделении почтового потока на два: русскоязычный и англоязычный. После этого можно построить классификаторы отдельно для каждого из них. С другой стороны, это фактически может привести к тому, что классификатор не будет способен распознать английский спам по той же причине - у пользователя может не оказаться достаточного количества нормальных англоязычных писем для обучения. Как следствие, у классификатора резко упадет качество распознавания спама.

Коммерческие предложения

Однако, проблема разноязычной почты является лишь иллюстрацией к более общей проблеме: если у пользователя наблюдается перекос в количестве спамерских сообщений к обычным в какой-либо смысловой категории, то эффект будет ровно такой же. В качестве примера можно привести рассылку приглашений на семинары, которая может быть как спамерской, так и настоящей, то есть интересной для получателя или даже затребованной им. В этом случае приглашение на семинар или конференцию может быть классифицировано НБК как спам.

Этот факт очень хорошо виден в ящике info, который оказался наиболее сложным почтовым ящиком для всех классификаторов (кроме popfile, который на нем не проверялся из-за неудобности пользовательского интерфейса). Приглашения на известные конференции и семинары, коммерческие предложения, даже адресованные лично представителям фирмы, написанные с реальных почтовых адресов, были определены фильтрами как спамерские сообщения. Кроме того, большое количество коммерческих предложений в "хорошей" части обучающей базы сильно понизило и качество распознавания спама.

Чрезмерное обучение

Одна из самых больших проблем при разработке фильтров спама заключается в том, что спам не статичен, а меняется со временем. Для того чтобы фильтр мог опознавать актуальный спам с требуемой точностью, разработчиками для него создаются регулярные обновления.

Фильтры, основанные на обучении, используют другой подход: чтобы подобный фильтр оставался бы адекватным, пользователь должен регулярно тренировать его на своей новой почте. Тем самым пользователь уже не должен постоянно выкачивать обновления для своего фильтра и может сэкономить на трафике.

Но при обучении может нарушиться равновесие между количеством спамерских сообщений и обычных, что может привести к лавинообразному увеличению количества ложных срабатываний, как это наблюдалось у фильтра BayesIt!

Проблема заключается в том, что до сих пор не появилось способов оценки базы НБК на ее "переобученность", не говоря уж о выделении неактуальных или ложных ее элементов. Авторы фильтров, основанных на НБК, часто оставляют обработку базы на пользователе, который должен следить за количеством писем или характеристик в базе и удалять или добавлять письма, чтобы поддерживать равновесие фильтра. Таким образом, ответственность за ложные срабатывания перекладывается на конечного получателя.

Тем не менее, несмотря на описанные выше проблемы, вероятностные методы вполне могут быть использованы в современных фильтрах.

Применимость НБК

НБК может вполне удачно работать в персональных фильтрах спама, но выступая не как решающий фактор признания письма спамом, а как дополнительный. То есть, если фильтр уже нашел иными способами какие-то формальные признаки спама, недостаточные для достижения порога "спама", но при этом НБК тоже сигнализирует о "спамности" письма, то такое письмо можно отнести к категории "спам". Тем самым можно нивелировать ложные срабатывания НБК.

Метод Фишера

Следует отдельно отметить реализацию описанного выше метода Фишера, использованного в фильтре SpamAssassin. Данный фильтр показал наименьшее количество ложных срабатываний при лучшем уровне распознавания спама и оказался чрезвычайно стойким к проблеме излишнего переобучения. Таким образом, можно рекомендовать его к использованию в фильтрах спама вместо НБК как значительно более надежный метод. Хотя стоит еще раз обратить внимание на то, что на ящике info и этот метод показал 8% ложных срабатываний.

Учитывая то, что в SpamAssassin вероятностный метод не является решающим, а используется совместно с большим количеством других методов, можно сказать, что как классификатор спама SpamAssassin является лучшим среди рассматриваемых в статье.

Ссылки

  1. David D. Lewis. Naпve (Bayes) at forty: the independence assumption in information retrieval, 2000.
  2. Fabrizio Sebastiani. Machine learning in automated text categorization, ACM Computing Surveys, Vol. 34, No. 1, 2002.
  3. M.E. Maron, J.L. Kuhns. On relevance, probabilistic indexing and information retrieval. Journal of the ACM, July 1960.
  4. Paul Graham, A plan for spam, http://paulgraham.com/spam.html .
  5. Paul Graham, Better Bayesian filtering, http://paulgraham.com/better.html .
  6. В. С. Пугачев. Теория вероятностей и математическая статистика. М.: Физматлит, 2002.
  7. Gary Robinson, A statistical approach to the spam problem, 2003, http://www.linuxjournal.com/article.php?sid=6467.

 




Написать письмо

Прислать статью редактору

Мнение редакции не всегда совпадает с мнением авторов материалов.
Редакция оставляет за собой право не публиковать присланную статью без объяснения причин.
Присланные статьи не рецензируются.

(C) ЗАО "Ашманов и Партнеры", 2003-2004


http://subscribe.ru/
http://subscribe.ru/feedback/
Подписан адрес:
Код этой рассылки: inet.safety.spamtest
Отписаться

В избранное