← Февраль 2005 → | ||||||
1
|
3
|
4
|
5
|
6
|
||
---|---|---|---|---|---|---|
7
|
8
|
10
|
11
|
12
|
13
|
|
14
|
15
|
17
|
18
|
19
|
20
|
|
21
|
22
|
23
|
25
|
26
|
27
|
|
28
|
За последние 60 дней ни разу не выходила
Сайт рассылки:
http://www.securelist.com
Открыта:
09-06-2003
Статистика
0 за неделю
Электронный журнал "Спамтест". Все о борьбе со спамом
Информационный Канал Subscribe.Ru |
Самый массовый спам неделиФОНАРЬ "ЗВЕЗДА ФАРАДЕЯ" Это опять реклама "волшебного" вечного фонарика. В этом выпуске мы не приводим образец спама, т.к. публиковали его совсем недавно. Еще один образчик самого массового спама недели,
|
Количество не спамерских писем | Объем спама в почтовом ящике | ||
25% | 50% | 80% | |
180 | 4% / 85% | 2% / 90% | 71% / 92% |
500 | 3% / 89% | 4% / 93% | 43% / 92% |
1600 | — | — | — |
Большие количества писем не тестировались, потому что их обработка в большинстве случаев заканчивалась аварийно. Тем не менее, можно выделить две проблемы:
- Количество ложных срабатываний.
- Явное переобучение фильтра во время тестирования почтовых ящиков, содержащих 80% спама от всех сообщений, когда более половины нормальных сообщений были ошибочно опознаны как спам.
В почтовом ящике info количество спамерских писем было уменьшено до 800, чтобы его удалось обработать. После обучения фильтр допустил 10% ложных срабатываний и распознал 51% спама.
Mozilla Thunderbird
Встроенный фильтр спама, судя по описанию, также основан на работах Пола Грэма [4, 5]. В отличие от BayesIt!, он значительно более устойчив в работе. Имеет минимальное количество настроек и, судя по всему, самостоятельно следит за излишним переобучением.
Количество не спамерских писем | Объем спама в почтовом ящике | ||
25% | 50% | 80% | |
180 | 0.7% / 75% | 0.7% / 81% | 1.2% / 79% |
500 | 1% / 77% | 0.9% / 80% | 2% / 81% |
1600 | 2.5% / 85% | 2% / 84% | 3% / 81% |
Основная проблема данного фильтра - ложные срабатывания, во всяком случае, на разноязычной почте. Во всех почтовых ящиках, где было мало нормальных английских сообщений, почти все они были признаны спамом. С другой стороны, в одном почтовом ящике с небольшим количеством почты и полностью отсутствующими нормальными сообщениями на английском языке ложных срабатываний не возникло.
В почтовом ящике info было допущено 11% ложных срабатываний и 67% спама было распознано.
PopFile
Фильтр спама, работающий как pop3-прокси между любым почтовым клиентом и провайдером. В отличие от остальных фильтров, поддерживает классификацию более чем по одной категории (спам или не спам), основываясь на использовании нескольких двоичных классификаторов для каждой из категорий. Дает возможность пользователю заводить свои собственные категории. Тем не менее, во время тестирования использовался только как бинарный классификатор.
В связи с тем, что веб-интерфейс фильтра PopFile не позволяет удобно выбрать одновременно несколько сообщений для ручной классификации, опробовать его на больших почтовых ящиках не удалось. Ниже приведены числа только для тех из них, на которых это удалось сделать. Мало того, общее количество ящиков, на которых проверялся PopFile, было еще меньше, чем у остальных.
Даже при двух категориях (спам и не спам) PopFile имеет третью - Unclassified. При вычислениях считалось, что все содержимое этой категории было отнесено к нормальной почте.
Количество не спамерских писем | Объем спама в почтовом ящике | ||
25% | 50% | 80% | |
180 | 5% / 97% | 4% / 98% | — |
500 | — | — | — |
1600 | — | — | — |
Данный фильтр так же имеет недопустимо большое количество ложных срабатываний. Возможно, использование дополнительных возможностей распознавания более чем одной категории уменьшило бы их количество, но маловероятно, чтобы оно снизилось до приемлемых величин.
Почтовый ящик info не проверялся из-за неудобства пользовательского интерфейса.
SpamAssassin
Фильтр спама, объединяющий в себе большое количество методов - от проверки по RBL до вероятностных методов с обучением. В отличие от предыдущих фильтров, использует не НБК, а метод Фишера, описанный в работе Гари Робинсона [7].
Во время тестирования спамом считались все письма, которые получали метку BAYES_60 и выше (т.к. соответствующие правила в стандартной поставке имеют вес более 3.5).
Количество не спамерских писем | Объем спама в почтовом ящике | ||
25% | 50% | 80% | |
180 | 0.7% / 89% | 0.6% / 92% | 1.3% / 90% |
500 | 0.7% / 91% | 0.8% / 91% | 1.7% / 92% |
1600 | 1% / 90% | 1% / 92 % | 2% / 92% |
Как видно, данный фильтр имеет наиболее высокие и стабильные показатели по распознаванию спама среди остальных фильтров. Количество ложных срабатываний, хоть и ниже (или одни из самых низких), тем не менее, все еще неприемлемо для использования классификатора, основанного на методе Фишера, в качестве основного.
Все ложные срабатывания имели высокий вес BAYES_90 или BAYES_99, поэтому изменение критерия спама на более высокий не изменило бы количество ложных срабатываний, но уменьшило бы процент распознавания спама.
В почтовом ящике info было допущено 8% ложных срабатываний и 75% спама было распознано.
Выводы
Признаком хорошего фильтра спама, как это ни парадоксально звучит, является не столько высокий процент распознавания спамерских писем, сколько минимальное количество ложных срабатываний, которое не может составлять более 0.001 процента от общего количества почты. Только в этом случае можно рассматривать высокие показатели определения спама как достоинства фильтра.
В то же самое время практически все фильтры, основанные на НБК, могут иметь большое количество ложных срабатываний, вплоть до 10%, в зависимости от почтовых ящиков. В среднем этот параметр составлял единицы процентов, что делает невозможным создание качественного фильтра спама, подходящего для большинства пользователей, основанного исключительно на НБК.
Рассмотрим основные проблемы, которые встретились при использовании НБК.
Разноязыковый спам
Одними из наиболее частых ложных срабатываний НБК в русскоязычных персональных почтовых ящиках является неверное определение нормальных писем на английском языке как спам. Очевидно, что большая часть пользователей электронной почты в России получают много русскоязычной нормальной почты, но практически не получают нормальной почты на английском языке. Как следствие, английские слова попадают при обучении только в признаки спама, и любое нормальное письмо, написанное на английском языке, может быть классифицировано как спам.
Решение этой проблемы заключается в разделении почтового потока на два: русскоязычный и англоязычный. После этого можно построить классификаторы отдельно для каждого из них. С другой стороны, это фактически может привести к тому, что классификатор не будет способен распознать английский спам по той же причине - у пользователя может не оказаться достаточного количества нормальных англоязычных писем для обучения. Как следствие, у классификатора резко упадет качество распознавания спама.
Коммерческие предложения
Однако, проблема разноязычной почты является лишь иллюстрацией к более общей проблеме: если у пользователя наблюдается перекос в количестве спамерских сообщений к обычным в какой-либо смысловой категории, то эффект будет ровно такой же. В качестве примера можно привести рассылку приглашений на семинары, которая может быть как спамерской, так и настоящей, то есть интересной для получателя или даже затребованной им. В этом случае приглашение на семинар или конференцию может быть классифицировано НБК как спам.
Этот факт очень хорошо виден в ящике info, который оказался наиболее сложным почтовым ящиком для всех классификаторов (кроме popfile, который на нем не проверялся из-за неудобности пользовательского интерфейса). Приглашения на известные конференции и семинары, коммерческие предложения, даже адресованные лично представителям фирмы, написанные с реальных почтовых адресов, были определены фильтрами как спамерские сообщения. Кроме того, большое количество коммерческих предложений в "хорошей" части обучающей базы сильно понизило и качество распознавания спама.
Чрезмерное обучение
Одна из самых больших проблем при разработке фильтров спама заключается в том, что спам не статичен, а меняется со временем. Для того чтобы фильтр мог опознавать актуальный спам с требуемой точностью, разработчиками для него создаются регулярные обновления.
Фильтры, основанные на обучении, используют другой подход: чтобы подобный фильтр оставался бы адекватным, пользователь должен регулярно тренировать его на своей новой почте. Тем самым пользователь уже не должен постоянно выкачивать обновления для своего фильтра и может сэкономить на трафике.
Но при обучении может нарушиться равновесие между количеством спамерских сообщений и обычных, что может привести к лавинообразному увеличению количества ложных срабатываний, как это наблюдалось у фильтра BayesIt!
Проблема заключается в том, что до сих пор не появилось способов оценки базы НБК на ее "переобученность", не говоря уж о выделении неактуальных или ложных ее элементов. Авторы фильтров, основанных на НБК, часто оставляют обработку базы на пользователе, который должен следить за количеством писем или характеристик в базе и удалять или добавлять письма, чтобы поддерживать равновесие фильтра. Таким образом, ответственность за ложные срабатывания перекладывается на конечного получателя.
Тем не менее, несмотря на описанные выше проблемы, вероятностные методы вполне могут быть использованы в современных фильтрах.
Применимость НБК
НБК может вполне удачно работать в персональных фильтрах спама, но выступая не как решающий фактор признания письма спамом, а как дополнительный. То есть, если фильтр уже нашел иными способами какие-то формальные признаки спама, недостаточные для достижения порога "спама", но при этом НБК тоже сигнализирует о "спамности" письма, то такое письмо можно отнести к категории "спам". Тем самым можно нивелировать ложные срабатывания НБК.
Метод Фишера
Следует отдельно отметить реализацию описанного выше метода Фишера, использованного в фильтре SpamAssassin. Данный фильтр показал наименьшее количество ложных срабатываний при лучшем уровне распознавания спама и оказался чрезвычайно стойким к проблеме излишнего переобучения. Таким образом, можно рекомендовать его к использованию в фильтрах спама вместо НБК как значительно более надежный метод. Хотя стоит еще раз обратить внимание на то, что на ящике info и этот метод показал 8% ложных срабатываний.
Учитывая то, что в SpamAssassin вероятностный метод не является решающим, а используется совместно с большим количеством других методов, можно сказать, что как классификатор спама SpamAssassin является лучшим среди рассматриваемых в статье.
Ссылки
- David D. Lewis. Naпve (Bayes) at forty: the independence assumption in information retrieval, 2000.
- Fabrizio Sebastiani. Machine learning in automated text categorization, ACM Computing Surveys, Vol. 34, No. 1, 2002.
- M.E. Maron, J.L. Kuhns. On relevance, probabilistic indexing and information retrieval. Journal of the ACM, July 1960.
- Paul Graham, A plan for spam, http://paulgraham.com/spam.html .
- Paul Graham, Better Bayesian filtering, http://paulgraham.com/better.html .
- В. С. Пугачев. Теория вероятностей и математическая статистика. М.: Физматлит, 2002.
- Gary Robinson, A statistical approach to the spam problem, 2003, http://www.linuxjournal.com/article.php?sid=6467.
Мнение редакции не всегда совпадает с мнением авторов материалов.
Редакция оставляет за собой право не публиковать присланную статью без объяснения причин.
Присланные статьи не рецензируются.
http://subscribe.ru/
http://subscribe.ru/feedback/ |
Подписан адрес: Код этой рассылки: inet.safety.spamtest |
Отписаться |
В избранное | ||