Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Электронный журнал "Спамтест". Все о борьбе со спамом


Информационный Канал Subscribe.Ru

Ашманов и ПартнерыSubscribe.ru
Электронный журнал "Спамтест" No. 29

в этом номере:


Новости

Спам: взгляд с "другой стороны баррикад"

Очередная попытка оправдать спамеров, их методы и цели опубликована на сайте www.webimform.ru под рубрикой "мнения". Автор недоволен ассоциированием спамеров с "межднародными террористами", "паразитами от электронной почты" и пытается защитить спамеров, выслушать их точку зрения на проблему. (см. также "Диалог со спамером")

Доводы достаточно неубедительны, вновь предпринимаются попытки сравнить спам с другими видами рекламы, вместо серьезных аргументов - подмена понятий и спекуляции на детской теме.

"Вы открыли сайт, продающий рисунки вашего одаренного ребенка, который пишет языком Достоевского и Star Wars. Вряд ли ваша затея окупится, если вы расклеите бумажные объявления по своему району. Талант вашего ребенка так и останется незамеченным."

Рассказ берет за душу, и логичный вывод из этой трогательной истории - спам объявляется панацеей на все случаи жизни.

Невольно вспоминаются пресловутые "центры иностранных языков", "продавцы баз данных" и набившие оскомину "грузчики", чьи интересы пытается защитить таким образом горе - адвокат.

Источник: webinform.ru

Вступил в силу закон Евросоюза о борьбе со спамом

БРЮССЕЛЬ, 11 декабря. Закон Евросоюза о борьбе со спамом, запрещающий несанкционированную рассылку писем по электронной почте и текстовых сообщений, вступил в силу в четверг. Как сообщает британская телерадиокомпания ВВС, в соответствии с новым законом спамерам угрожают крупные штрафы и судебные иски со стороны получателей спама. В то же время закон не избавит европейцев от этого негативного явления, так как большая часть несанкционированных рассылок поступает не из Евросоюза, а потому не попадает под действие закона ЕС.

Новый закон полностью запрещает рассылку несанкционированных писем в адрес частных лиц, а в письма, рассылаемые в адрес компаний, должна включаться опция отказа от рассылки. В Великобритании максимальный размер штрафа за несанкционированную рассылку сообщений составляет 5 тыс. фунтов стерлингов. Правительство Великобритании назвало принятие закона "шагом в верном направлении", но очевидно, что многие британские компании уже начали нарушать его. "Компании не знают о законе или игнорируют его", - заявил представитель компании WebAbacus Иан Томсон.

Источник: rosbalt.ru

Спамеры ежегодно лишают Сингапур 50 миллионов долларов

Ущерб, наносимый спамом экономике Сингапура, составляет 50 млн сингапурских долларов (24 млн. евро) в год. К таким результатам пришли специалисты сингапурской Федерации информационных технологий, сообщает агентство EFE.

Оценки сингапурских аналитиков подтверждают и исследователи из компании Symantec, занимающейся производством антивирусного программного обеспечения. Согласно отчетам Symantec, для очистки почтовых ящиков от нежелательной электронной корреспонденции пользователи в среднем ежедневно тратят от 10 до 40 минут. Получателями спама в Сингапуре являются приблизительно 80% всех пользователей.

Источник: viruslist.com

В США проведены первые в истории аресты за рассылку спама

Власти штата Вирджиния впервые применили самый строгий закон против спамеров, принятый 1 июля 2003 года. Как сообщает агентство Associated Press, полиция арестовала двоих жителей штата, являющихся одними из самых известных спамеров в США. Один из арестованных, Гэвен Стабберфилд (Gaven Stubberfield), занимает восьмое место в рейтинге крупнейших спамеров согласно рейтингу сайта spamhaus.org.

По информации сайта, Стабберфилд стоит на восьмом месте в списке самых известных спамеров мира. В период с 11 июля по 11 августа 2003 года администрация сайта получила от пользователей более 100 000 жалоб на рассылки, организованные Стабберфилдом и его напарником Джереми Джейнсом (Jeremy Jaynes), который также был арестован.

По словам прокурора штата Джерри Килгора (Jerry W. Kilgore), рассылали электронные сообщения с фальшивых адресов под ложными именами и предоставляли ложную информацию о маршрутизации писем. Масштабы деятельности спамеров позволили прокуратуре расценивать их действия как уголовное преступление.

Вирджиния - единственный штат в США, где власти имеют право на уголовное преследование спамеров. Во все остальных законодательствах предусмотрено лишь гражданское преследование.

Источник: lenta.ru

Yahoo! запускает антиспамерские фильтры

Компания Yahoo! объявила, что намеревается сделать серьезные шаги по фильтрации спама в следующем году. Новая технология названа "Domain Keys" и включает обработку автоматических подписей в почтовых посланиях.

Подпись прояснит из какого региона пришла почта и отсеет потенциально ненужное. Эта линия нападения на спам кажется наиболее многообещающей в сравнении с другими попытками избавиться от навязчивой рекламы.

С другой стороны - как и любая другая антиспамерская технология, она включает в себя некоторую вероятность отсева и нужной корреспонденции. Так что использовать такие фильтры, нужно крайне осторожно, - считают эксперты.

Источник: news.proext.com

Новости подготовил
Сергей Кошкин
"Ашманов и Партнеры"


Сервис против спама "Карантин" - итоги первой недели.


На прошлой неделе мы опубликовали известие о введении на почтовом сервере www.km.ru нового сервиса, направленного на защиту пользователей от спама - системы "Карантин", разработанной компанией "e-Style ISP". Это нововведение было неоднозначно встречено сетевыми СМИ. Были как положительные отклики, отмечающие возросшую активность борьбы со спамом в Рунете, так и критика в адрес сервера, объявление нового сервиса неэффективным и вредным.

Отложим в сторону эмоции и попробуем разобраться объективно в вопросах, которые чаще всего задавались критиками "Карантина". Отвечает на вопросы Алексей Степутенков, генеральный директор компании "e-Style ISP".

1. На данный момент чаще всего задают один и тот же вопрос: что будет, если в качестве отправителя спамерами будет указан реально существующий ящик ничего не подозревающего пользователя?

Никаких атак на "подставленный" спамерами ящик сервис "Карантин" не осуществляет. Кстати, организация таких атак сказалась бы на производительности нашей системы. Поэтому существуют ограничения на отправку "запросов" как конкретному пользователю, так и доменным группам или сетям. Иначе говоря, при получении тысяч писем с одного адреса на разные ящики наших пользователей, мы отправим лишь несколько запросов на подтверждение.

2. Опасность увеличения трафика?

Внедрение "Карантина" привело к уменьшению трафика в 5 раз. Гигабайты спама больше не выкачиваются пользователями. Трафик же от "запросов на подтверждение" меньше на несколько порядков. Можно уверенно констатировать - опасности увеличения трафика нет.

3. Есть ли проблема "дурного" диалога запросных роботов?

Проблема роботов могла бы возникнуть с самого момента появления этих роботов, тем не менее, этого не произошло. Т.е. "проблема порочного круга" невозможна в принципе, если общаются корректно настроенные роботы. Для специалистов выдержка из RFC-2821:

Implementors of automated email processors should be careful to make sure that the various kinds of messages with null reverse-path are handled correctly, in particular such systems SHOULD NOT reply to messages with null reverse-path.

Для простых пользователей поясним - "правильные" роботы узнают друг друга и не продолжают переписку. Роботы не страдают от дефицита общения, как люди, и не любят переписываться с себе подобными.

Что касается "Карантина", то письма от роботов обрабатываются, но запросы не высылаются. Кроме того "запросы" не высылаются на один ящик более одного раза в сутки, т.е. "диалог" закончится сразу после первого факта "общения".

4. Этот сервис нужен всем?

Наше мнение - только сами пользователи могут решать, какой именно сервис им нужен, а без какого они могут обойтись. Поэтому функция "Карантин" активируется каждым отдельным пользователем самостоятельно. Мы лишь даем людям новый понятный и простой инструмент. Сейчас этим сервисом пользуется более 64% наших активных пользователей.

Более того, данный сервис не исключает применение альтернативных методов, к примеру, дополнительную установку "Спамтест".

На наш взгляд, универсального средства борьбы со спамом пока не существует. Пользователь сам может выбирать тот или иной способ, или комбинировать их по своему усмотрению.

5. Робот, управляющий рассылкой, не сможет ответить на письмо-запрос?

Схема очень простая. Все письма неизвестных адресатов попадают в папку "Карантин" и хранятся неделю. Пользователь, работающий с почтой при помощи почтового клиента, ЕЖЕДНЕВНО получает отчет о содержимом этой папки. Если он желает получать определенную рассылку - он заходит через веб-интерфейс и жмет кнопку "Это не спам". Если же пользователь этого не сделал, значит, данная рассылка его не очень интересует (через неделю ящик автоматически очистится). Среди членов Коалиции присутствуют коллеги из Subscribe.Ru, которые смогут помочь нам разобраться в "тонкостях". Ведь в этом и есть сила Коалиции - обмен опытом и решение общей задачи.

7. Как обстоят дела с вирусами?

Во-первых, "Карантин" бережет пользователя от новых вирусов (случайных контактов), еще не известных производителям антивирусного ПО. Что касается "сетевых червей", рассылающих почту от имени реальных пользователей - практически на каждый почтовый сервер в сети установлено антивирусное ПО, и как уже говорилось раньше, ограничения на отправку.

8. Какова эффективность?

На текущий момент "Карантин" полностью защитит вас только от "ненаправленного" (автоматического) СПАМа. Суть метода была практически озвучена словами председателя исполкома АДЭ Аркадия Кремера, выступавшего на недавней конференции "Право и Интернет": "Спам - это проблема, которой можно управлять, но нельзя искоренить совсем, пока сохраняется децентрализованная и анонимная природа Интернета". Мы просто сделали эту проблему УПРАВЛЯЕМОЙ.


Статистические (вероятностные) методы фильтрации спама


Андрей Черезов,
Компания Etype

Неэффективность традиционных фильтров

Существует множество традиционных способов защиты от спама - черные списки IP-адресов отправителей (RBL), черные списки Email-адресов отправителей, черные списки слов, поиск типичных спам-сигнатур (названий используемых программ массовой рассылки, особенностей форматирования html и т.д.) в заголовках и телах сообщений. Все они с тем или иным успехом используются в большинстве спам-фильтров, и эти спам-фильтры уже работают на большинстве крупных почтовых серверов, причем не первый год. Однако проблема спама остается актуальной и даже продолжает обостряться. Следовательно спамеры научились эффективно обходить такую защиту.

Самое неприятное, что обойти такие фильтры и на самом деле не сложно. Спамеры ставят себе самые популярные спам-фильтры и могут перед рассылкой пропустить свое письмо через фильтры и проверить, как они срабатывают, и на что они срабатывают. После этого достаточно немного изменить заголовки письма и текст, и письмо готово к "просачиванию" через большинство фильтров, проверяющих содержание писем. На пути такого письма остается небольшая преграда в лице RBL. Для ее обхода спамер может применить те же средства - не пользоваться теми IP, которые занесены в RBL (спамерская программа может проверять это также, как и антиспамерская :). К счастью для спамеров и к несчастью для нас в Интернете слишком много слабозащищенных компьютеров, которые могут использоваться для передачи спама. Современные вирусы помогают спамерам устанавливать открытые прокси на чужих компьютерах и предоставляют спамерам потенциально сотни тысяч компьютеров для их черного дела. IP этих новых источников спама не могут блокироваться в RBL немедленно: во-первых, кто-то должен сообщить RBL-сервису этот новый IP, потом RBL-сервис проверяет, действительно ли он "имеет право" включить этот IP в свой черный список в соответствии со своей политикой (что он блокирует - OpenRelays (ORDB), OpenProxy, DUL, RFC-ignorant, и т.д.) - время уходит, и за это время спам уже разослан, и спамер может сменить используемые IP (чужие серверы), как перчатки. Страдают от таких черных списков не столько спамеры, сколько владельцы блокируемых IP. Поэтому почтовый сервер, если он блокирует прием почты по RBL, должен в сообщениях об отказе приема почты точно указывать причину блокировки и способ ее снятия (обычно указывается URL соответствующего RBL-сайта) - тогда отправитель сможет устранить злоупотребления его компьютером и исключить свой IP из RBL.

Что делать

Как справедливо заметил Paul Graham в своей статье A Plan for Spam, "ахиллесова пята спамеров - их сообщения. Они могут преодолеть любой барьер, какой вы установите... Но они должны доставить свое сообщение, каким бы оно ни было." Т.е. спамеры могут идти на любые уловки с IP-адресами и подгонкой текста сообщений, но продать-то вам свою виагру, американский английский, виллу на Канарских островах и "мужа на час" они все-таки должны! Если посланное ими сообщение будет из-за вынужденного применения эзопова языка не понято читателями, то толку от такой рассылки не будет. "Читать между строк" покупатель не будет. Значит они все-таки должны написать в письме нечто понятное, призывающее нас к какому-то действию. Вот за это мы их и ухватим. Научим спам фильтр понимать сообщения. На помощь "искусственному интеллекту" приходит статистическое обучение.

Теорема Байеса наконец пригодилась

Вот что Большая Советская Энциклопедия говорит о Теореме Байеса (Б.т.): "Б. т. долгое время рассматривали как основу для статистических выводов из результатов наблюдений. Однако в применениях, как правило, отсутствуют достаточно обоснованные данные об априорных вероятностях гипотез. В силу этого Б. т. потеряла свое значение."

Paul Graham дал этой теореме новую жизнь, да такую, которая английскому математику в 18м веке и не снилась: он предложил использовать теорему Байеса для автоматического вычисления вероятности того, что сообщение является спамом.

Для вычисления вероятности спама используются частотные словари, созданные в процессе обучения фильтра. Берется архив старых вручную отсортированных сообщений (почти все ведут свои почтовые архивы, в которых спам либо в папке "удаленные", либо в отдельной папке "спам") и "скармливается" программе обучения. Она вычисляет частотные словари для каждого типа (папки) сообщений - сколько раз какое слово встречалось в письмах этой папки. Когда словари заполнены, вычисление вероятности принадлежности конкретного нового письма к тому или иному типу производится по формуле Байеса для каждого слова этого нового письма. Суммированием и нормализацией вероятностей слов получают вероятности для всего письма. Как правило, вероятность принадлежности к одному из типов намного (на порядки) выше, чем к другим. Вот в эту папку сообщение и отправляется. Это кажется удивительным, но практически сразу после начального обучения фильтра точность определения спама этим методом достигает недостижимой для традиционных фильтров величины - 97-99% и продолжает уверенно двигаться к 100% по мере дальнейшего дообучения. Это обучение состоит в обработке случаев неправильной классификации - фильтру указывается, к какому типу следует впредь относить эти письма, и он добавляет слова из этих писем в соответствующие частотные словари. Обратите внимание - пользователю фильтра не приходится вручную анализировать письмо и пополнять на основе анализа списки правил фильтрации, как это делается в традиционных фильтрах. Достаточно одного щелчка мыши - и статистический "портрет" письма меняется полностью автоматически. Эта способность байесового фильтра к обучению впечатляет: если бы у вас был человек-помощник, который классифицировал вашу почту, то он бы обучался тем же способом ("впредь считай такие письма спамом"), и вряд ли с лучшим качеством работы. "Искусственный интеллект" оказался на высоте.

Проблема ложных срабатываний

Ложные срабатывания - беда любых спам-фильтров. Причем главная! Различают два вида ложных срабатываний: false positive - неверное зачисление письма в спам, т.е. собственно ложное срабатывание, и false negative - неверное причисление письма к не-спаму, т.е. "ложное не срабатывание". В случае байесового фильтра "ложное не срабатывание" - не проблема - один раз указать фильтру, что это спам, и больше вы подобных писем не увидите. А вот false positive практически сводит на нет эффект борьбы со спамом: приходится просматривать папку "спам" в поисках возможно ошибочно попавших туда важных писем. Далее можно дообучить спам-фильтр - "это не спам" - и в будущем ложных срабатываний станет меньше. Но сам факт того, что ложные срабатывания хотя бы теоретически могут иметь место, заставляет заглядывать в папку спам.

Есть ли метод, позволяющий надежно исключить ложные срабатывания - настолько надежно, чтобы вам не приходилось просматривать список спам-писем, так же как сейчас вы не просматриваете список присланных вам вирусов? Есть! Кстати, у антивирусов тоже, хоть и не часто, бывают ложные срабатывания, и этот метод в равной степени поможет исключить и их.

Суть метода исключения ложных срабатываний лежит на поверхности. Более того, его "поддержка" изначально предусмотрена в протоколе SMTP! Проблема только в том, что далеко не все почтовые серверы способны его реализовать - просто в силу своих архитектурных ограничений. И в том, что агенты передачи почты (MTA, т.е. программы, передающие почту между SMTP-серверами) способны иногда запутать дело расплывчатой диагностикой. В чем состоит метод: почтовый сервер сразу после приема письма, еще до отключения MTA-отправителя, должен классифицировать письмо - спам/вирус/нормальное - и в случае спама или вируса сразу же в ответ на команду DATA (посылающую тело письма) ответить не кодом "250 ОК, письмо принято для доставки", а кодами 4хх (временная ошибка) или 5хх (фатальная ошибка). Например, "550 ваше письмо классифицировано как СПАМ, оно не будет доставлено! Если это ошибка, то посетите URL такой-то для проталкивания вашего письма." Раз вирусы и спам и в самом деле фактически не доставляются получателям из-за остановки их фильтрами, то можно сказать, что такое поведение почтового сервера является его ОБЯЗАННОСТЬЮ - он обязан сказать во время почтовой сессии, что не будет доставлять принятое письмо.

MTA отправителя, получив код 5хх, САМ вернет письмо отправителю - и процитирует в возвращенном письме это сообщение сервера "5хх это спам", и отправитель, таким образом, будет иметь возможность активно влиять на судьбу своего письма - посетит указанный URL и "подтолкнет" письмо получателю. И фильтр в результате обучится не считать это спамом впредь. Таким образом получателю уже не придется просматривать папку "спам" для поиска ложных срабатываний - c ложным срабатыванием разберется сам отправитель!

Обратите внимание, принимающий сервер не высылает отправителю спам-письма никаких писем-извещений - это способно только увеличить количество бесполезных писем в сети, т.к. вирусы и спамеры подделывают обратный адрес. Он всего лишь говорит отправляющей программе "я не буду доставлять это письмо". А вернет письмо "хозяину" сама отправляющая программа. Причем если отправитель не спамер! Если письмо отправляла спамерская программа массовой рассылки, то она не возвращает писем при получении отрицательных ответов принимающей стороны. Т.е. непричастные к этому спаму люди, даже если их адрес используется спамером как фиктивный обратный адрес спама, никаких извещений о чужом спаме не получат.

Таким образом, байесовый фильтр, интегрированный с почтовым сервером, способен отфильтровывать 99% процентов спама и гарантировать отсутствие ложных срабатываний. Т.е. спам, как и вирусы, теперь можно оставлять на сервере "на всякий случай", а почтовым клиентом качать только отфильтрованную почту. Если вы получаете 200 нормальных писем в день, то среди них будет не больше 2-3 спам-писем, которые вы будете отправлять на дообучение спам-фильтру одним движением мышки. Мечта осуществилась! :) Спамеры, конечно, начнут изучать статистику :), но у них никогда не будет частотных словарей вашего фильтра.

Капля дегтя

Прежде чем перейти к описанию существующих статистических фильтров и способов их интеграции с почтовыми серверами для исключения ложных срабатываний, должен рассказать об оставшейся капле дегтя в этой бочке меда. Только эта капля и не позволяет назвать этот фильтр идеальным решением. Это случай почты от "неспамерских роботов". Т.е. почты от списков рассылки, на которые вы подписаны, почты с уведомлениями с сайтов, с которыми вы работаете (форумов, например) и т.п. авто-сообщений. Ложные срабатывания в обработке такой почты не могут быть исправлены отправителем, т.к. отправитель не обрабатывает такие отказы. В результате приходится держать на контроле первые письма от нового робота в тот момент, когда вы ожидаете их прихода - это делается легко, если почтовый сервер предоставляет список email'ов остановленных спам-писем.

Если ожидаемое извещение не пришло, то придется разбираться с этим ложным срабатыванием вручную - и не забыть дообучить фильтр не считать это впредь спамом. Можно, конечно, и заблаговременно поставить нужного отправителя в белый список: некоторые сервисы рассылок (например, subscribe.ru) позволяют задать уникальный адрес отправителя для вашей подписки, чтобы исключить возможность его подделки спамерами. Но лучше именно "честно" обучать фильтр, не давая ему подсказок в виде черно-белых списков. Потраченное на обучение фильтра время с лихвой окупится повышением качества его словарей и экономией времени в будущем.

Применение на практике

Байесовые статистические фильтры были самым модным направлением развития антиспам-фильтров за год, прошедший со времени публикации революционной статьи Пола Грэма (с августа 2002). Одного перечисления этих инструментов хватило бы на целую статью. Поэтому я перейду сразу к тому фильтру, который выжил на моем сервере в результате естественного отбора и показал замечательную эффективность в процессе многомесячной эксплуатации как на стороне почтовых клиентов, так и на сервере (последние полгода - на сервере). Это Popfile - программа с открытым исходным кодом (с дицензией типа GPL), вы можете использовать ее совершенно свободно. Есть версии для Windows и для других ОС, версии для встраивания в Outlook, версии для работы в качестве POP3 Proxy, SMTP Proxy, NNTP Proxy или просто в виде "сервера классификации текстов" для использования любыми внешними программами - интеграция через поддерживаемый всеми языками программирования интерфейс XMLRPC.

В идеале фильтр нужно ставить на SMTP-сервере так, чтобы классификация письма выполнялась сразу по получении его в SMTP-команде DATA. Во всех популярных почтовых серверах есть средства подключения внешних фильтров содержания - Content Filter API. В нашем Eserv/3 вирусные и спам-фильтры подключаются через список правил/

Если на той же машине работает веб-сервер, то можно реализовать описанную выше возможность исправления ложных срабатываний отправителем: почтовый сервер должен откладывать отвергнутый спам в специальный каталог, доступный скрипту переклассификации на веб-сервере и сообщать MTA, отправившему спам, URL на своем сервере, где можно протолкнуть письмо получателю. Для Eserv/3 есть готовый plugin, интегрирующий PopFile в таком режиме (Eserv/3 включает и веб-сервер).

Для MS Exchange тоже есть скрипт (VB) подключения PopFile через XMLRPC - Tom Voss написал его по нашей просьбе. Для других почтовых серверов готовых plugin'ов для PopFile я не встречал, но наверняка они появятся после выхода PopFile 0.20 или 0.21 - как раз сейчас его разработчики дорабатывают средства интеграции.

XMLRPC-API-интерфейс сейчас еще не входит в "официальную" версию PopFile - мы используем версию с CVS-сервера, находящуюся в разработке. Полный комплект необходимых файлов для запуска PopFile в серверном режиме можно скачать и на нашем сайте на странице PopFile .

Обработка "ложных не срабатываний" (false negatives, неотфильтровавшийся спам) PopFile в Eserv/3 делается в IMAP-сервере: когда пользователь (читатель) перемещает сообщение в папку с именем "spam", IMAP-сервер запускает на сервере дообучение PopFile - "впредь считать такое спамом" (тоже через XMLRPC-интерфейс PopFile ).

Использование PopFile в качестве Pop3Proxy для работы с почтовыми клиентами - т.е. на машинах пользователей, а не на сервере - хорошо описано в статье.

Будущее

PopFile настолько эффективен, что позволяет отказаться от других методов фильтрации спама (вы убедитесь в этом, когда попробуете), однако и этот метод постоянно совершенствуется. Последний "писк моды" - новый статистический метод, использующий "Хи-квадрат распределение". Впервые он был использован в спам-фильтре SpamBayes, но недавно реализован и в PopFile . В SpamBayes хи-квадрат стал основным методом, хотя раньше, как следует из названия программы, основным был байесов метод. В PopFile хи-квадрат используется пока только как дополнительный тест для добавления в фильтр уровня "неуверенности". Теорема Байеса дает однозначную характеристику письма, основываясь на имеющихся частотных словарях - всегда можно точно вычислить, какая вероятность больше, и к какому типу сейчас следует отнести письмо. Ситуация "невозможно классифицировать" была искусственно введена в PopFile установкой минимально приемлемой вероятности для вынесения решения. Хи-квадрат вероятности позволяют математически выявить степень неуверенности фильтра в однозначном решении. Это позволяет уменьшить к-во ложных срабатываний, не уменьшая при этом процент верных срабатываний. В этом режиме некоторая часть писем, которая по Байесу попала бы в спам вместе с гарантированно спамерскими письмами, попадает в папку "не уверен", т.е. "требует ручной проверки и классификации".

Просачиваются через PopFile сейчас только сообщения в виде картинок, без текста. И то лишь редкие из них - ведь сам html-код, несущий картинку (и URL рекламируемого сайта в этом коде), и заголовок письма (с IP-адресами, подставными Email'ами и Subject) - все является простым текстом, и этого обычно хватает PopFile для правильной классификации. Бывает достаточно ОДНОГО слова с большим статистическим спам-весом для вынесения решения. Кроме того, PopFile пытается заглядывать и внутрь картинок - не OCR'ит их, конечно, а просто "не понимает", что это картинка, и ищет текст в двоичном файле - и словесный портрет картинки тоже попадает в частотные словари. Может это и не предусмотренная специально возможность, но это тоже срабатывает против спама.

Вообще теорему Байеса можно использовать для авто-классификации любых текстов по любым категориям - любому их количеству, а не только спам/не_спам/не_уверен. Я, например, свою почту классифицирую с помощью PopFile по 8-ми категориям. PopFile - единственный фильтр, который дает возможность использования более 3х категорий, и поэтому может иметь более широкое применение, чем тривиальная фильтрация спама. Например, для классификации текстов поисковой машиной. Статистическую классификацию можно с успехом применять и для классификации изображений - если считать цвет точки "словом". И видимо, для автоклассификации вообще чего угодно, вероятности чего в принципе можно посчитать (вспомните цитату из БСЭ про вероятности гипотез, например). Статистическая классификация несомненно станет одним из основных методов классификации контента в Интернете.


Анонсы:

В следующих номерах журнала СПАМТЕСТ:

  • Новости
  • Обзор программ Norton Anti Spam и McAfee SpamKiller
  • Читатели пишут
  • Ответы на вопросы
  • Анонсы


Написать письмо

Прислать статью редактору

Мнение редакции не всегда совпадает с мнением авторов материалов.
Редакция оставляет за собой право не публиковать присланную статью без объяснения причин.
Присланные статьи не рецензируются.

(C) ЗАО "Ашманов и Партнеры", 2003


http://subscribe.ru/
E-mail: ask@subscribe.ru
Отписаться

В избранное