Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Электронный журнал "Спамтест". Все о борьбе со спамом


Информационный Канал Subscribe.Ru

Ашманов и ПартнерыSubscribe.ru
Электронный журнал "Спамтест" No. 50

в этом номере:


Новости

Новая версия MDaemon 7.0.1

11.05.2004

Компания Alt-N Technologies представила новую версию своего пакета MDaemon 7.0.1. Как утверждается в пресс-релизе, этот сервер обеспечит надежную антиспамовую защиту, высокую функциональность и скорость передачи электронных писем для компании любого уровня.

Сервер использует модифицированную технологию SpamAssassin и оснащен инструментом, с помощью которого программа постоянно получает обновленные определения спама.

MDaemon использует различные способы передачи информации, что обеспечивает защиту от попадания в спам-рассылку. Кроме того, MDaemon позволяет ИТ-специалистам автоматически замедлить или прекратить подключение к тем сайтам, которые используют массовую рассылку почтовых сообщений.

Чтобы предотвратить неправомерное использование почтовых учетных записей, MDaemon использует сложную систему паролей. MDaemon борется с так называемыми "dictionary attacks", блокируя повторные попытки доступа к несуществующим учетным записям, а также частое использование неверных логинов к действительным учетным записям.

В новой версии MDaemon 7.0.1 улучшен механизм распознавания тел вирусов, реализована более удобная система управления, а также исправлены обнаруженные ошибки и сделаны некоторые функциональные изменения.

Источник: Softkey.ru

SpamCop запретили фильтровать спам, рассылаемый OptIn

12.04.2004

Окружной судья Северной Калифорнии подписал постановление, временно запрещающее SpamCop фильтрацию сообщений, рассылаемых небезызвестной спамерской компанией OptInRealBig.com.

Адвокаты компании IronPort Systems, владеющей SpamCop, безуспешно пытались оспорить решение судьи на основании того, что запрет противоречит Первой поправке к Конституции США и, кроме того, наносит вред работе компании.

Скот Рихтер (Scott Richter), президент компании OptIn, называющий себя "королем спама", подал в суд на IronPort и SpamCop, обвинив их в том, что они препятствуют его бизнесу, блокируя рассылки OptIn. Более того, по мнению "короля спама", CAN-SPAM Act нарушает SpamCop, отказавшись раскрыть список людей, жаловавшихся на спам со стороны OptIn. Именно это, утверждает Рихтер, не дает возможности вычеркнуть недовольных получателей из списка рассылки, как того требует закон. Адвокаты OptIn настаивают на том, что компания вправе самостоятельно разбираться с жалобами клиентов.

По постановлению суда SpamCop временно запрещается передавать провайдерам жалобы пользователей на компанию OptIn и ее подразделения. Кроме того, SpamCop запрещено удалять адреса электронной почты из получаемых от клиентов жалоб "относительно истца".

IronPort решение суда комментировать отказалась.

Источник: news.com

Канада разработает новую программу борьбы со спамом

12.05.2004

Правительство Канады создало экспертный совет для выработки плана эффективной борьбы со спамом.

Спам составляет около половины почтового трафика, что мешает бизнесу и препятствует нормальной работе почты. Министр промышленности Канады Люсьенн Робийяр (Lucienne Robillard) объявила 11 мая, что план борьбы со спамом в Канаде предполагает анализ эффективности существующего законодательства, улучшение работы провайдеров, повышение образовательного уровня пользователей и сотрудничество с другими странами в решении проблемы, которая стала международной.

По словам одного из членов совета эксперта из Оттавского университета Майкла Гиста (Michael Geist), существующее законодательство могло бы привести к положительному эффекту, если бы оно работало. Гист будет настаивать на жестком применении антиспамового закона. "Канада занимает второе место в мире после США по объему исходящего спама, и если не предпринимать мер, рискует превратиться в основной рассадник спама", - сказал Гист.

Люсьенн Робийяр также считает, что необходимости в принятии нового закона нет. Однако она не отрицает такой возможности в том случае, если последуют соответствующие рекомендации со стороны созданного экспертного совета.

Экспертный совет должен представить правительству свои рекомендации по борьбе со спамом в 2005 году.

Источник: Toronto Star

Symantec повышает безопасность почтовых шлюзов

13.05.2004

Компания Symantec планирует выпустить обновление к своему продукту по обеспечению безопасной работы с протоколом SMTP. Обновление предоставит новые возможности по очистке почты от червей и спама.

Программа Symantec Mail Security for SMTP 4.0 является последней версией продукта по обеспечению безопасной работы с почтой. Она может остановить такие болезни сети, как спам и эпидемия почтовых червей, наподобие Mydoom и Sobig.

Новые возможности программы позволяют автоматически собирать и отслеживать так называемые "надежные" интернет-домены, с которых почта будет проникать на компьютер без всяких фильтров и черных списков.

Источник: www.cpilive.net

Разослан "троянец", созданный для русскоязычных спамеров

13.05.2004

"Лаборатория Касперского" предупреждает, что зарегистрирована массовая рассылка троянской программы под названием Agent. "Троянец" использует брешь в браузере Internet Explorer версий 5.0 и 5.5, которая была обнаружена в феврале нынешнего года: с помощью специально измененного изображения в BMP-формате можно спровоцировать ошибку переполнения буфера и выполнить произвольный код на компьютере пользователя.

Agent заражает компьютер при просмотре в браузере вложенного графического файла формата .BMP. Никаких отличительных признаков, кроме вложенного BMP-файла со случайным именем, зараженное письмо не содержит. После запуска BMP-файла "троянец" связывается с удаленным сервером, расположенным в доменной зоне Ливии, загружает с него и устанавливает на компьютере пользователя программу-шпион под названием Throd.

При установке "троянец" регистрируется в ключе автозапуска системного реестра Windows и переходит в режим ожидания команд. С помощью шпиона злоумышленники могут, например, копировать данные с компьютера жертвы, считывать адреса из адресной книги Outlook и пересылать их на удаленный адрес, а также использовать зараженный компьютер как прокси-сервер для проведения анонимных сетевых преступлений.

"Несомненно, что Throd создан специально для нужд спамеров - пополнения базы данных адресов рассылки. Это еще раз подтверждает тенденцию сращивания вирусных и спам отраслей компьютерного андеграунда", - сказал Евгений Касперский, руководитель антивирусных исследований "Лаборатории Касперского".

Показательно, что для рассылки вируса использовались спам-технологии.

Поскольку данный файл создан специально для атаки русской версии Windows 2000 (на других версиях операционной системы вредоносный код работать не будет), можно предположить, что его "родина" - Россия или одна из стран СНГ, и создан он для спамеров этих стран.

На данный момент отсутствует специальное обновление Internet Explorer для защиты от атак через указанную уязвимость, и единственным эффективным средством противодействия атаке является антивирусная программа.

Источник: www.cnews.ru

"MailBank" сохранит вашу почту от спама и вирусов

15.05.2004

В Сети появилась платная служба обмена сообщениями и передачи файлов между пользователями. Разработчики утверждают, что "MailBank" решит проблему спама и вирусов благодаря принципу "банковской ячейки", который заложен в основу работы почтовой системы.

Как сообщается в пресс-релизе, система обеспечивает безопасность, конфиденциальность и самый высокий уровень стабильности работы почты.

Принцип "банковской ячейки" предполагает, что письма и файлы пользователей не покидают сервер. Система "MailBank" позволяет прикреплять к письму файлы любого размера и в любом количестве, ограниченном только рамками оплаченного ящика, который, в свою очередь, может быть увеличен по желанию клиента.

Пользователь системы "MailBank" создает у себя в ящике множество "ячеек" для каждого пользователя или группы пользователей. Получить сообщение адресат может только в том случае, если знает комбинацию из названия (логина) ящика и имени ячейки (пароля), которую владелец ящика сделал специально для него. Пользователь-гость может забирать сообщения, отвечать на них или создавать новые сообщения для владельца ящика.

Создатели системы утверждают, что продумали и реализовали "механизмы, создающие условия, при которых подбор пароля и попытки взлома просто перестают быть оправданными".

В планах развития проекта "MailBank" - создание бесплатных ящиков небольшого размера для всех желающих.

Источник: www.mailbank.ru


Спам - статистика за неделю 10 - 17 мая 2004 г.

Ашманов и Партнеры

Объем спама

Закончились майские праздники, а вместе с ними и период спада почтовой активности. Объемы почтового трафика Рунета возвращаются к прежнему уровню, одновременно активизировались спамерские рассылки.

Неделя с 10 по 16 мая была отмечена пиком спамерского трафика в первые два дня после праздников. К концу недели количество спамерских сообщений уменьшилось.

В среднем объем спама в общем почтовом трафике Рунета на прошлой неделе удерживался в границах средних показателей - около 65-70%.

Самые-самые: популярные тематики

Доля спама на русском языке, сократившаяся за период праздников, также выросла до привычных 40-70% (данные варьируют по различным почтовым серверам). В результате русскоязычные письма "оттянули" на себя часть трафика, а это, в свою очередь, отразилось в снижении доли типичных англоязычных тематик ("Для взрослых", "Медикаменты")

Некоторой неожиданностью оказался резкий рост спама тематики "Компьютеры и Интернет". Это предложения приобрести ПО, компьютерную технику, расходные материалы; также предложения для владельцев сайтов (хостинг, обмен баннерами и т.п.).

В течение всего прошлого месяца объем этой тематики не превышал 1-3 %. В настоящее время мы наблюдаем резкий рост до её доли 7 % от общего количества спама.

Наиболее популярные темы:

No Тематика Описание %% от общего объема Изменение за неделю
1 Для взрослых Средства для повышения потенции (виагра и пр.), а также улучшения сексуальных возможностей 19% -10%
2 "Здоровый образ жизни" и "Медикаменты" Предложения сбросить лишний вес, улучшить кожу, волосы, осанку; купить биологические добавки и лекарства через Интернет 12% -6%
3 Образование Реклама семинаров, тренингов, курсов 11% +7%
4 Личные финансы Страхование, уменьшение кредитной задолженности, выгодные займы и т.п. В подавляющем большинстве англоязычные письма. 9% без изменений
5 Компьютеры и Интернет ПО, компьютерная техника, расходные материалы; также предложения для владельцев сайтов (хостинг, обмен баннерами и т.п.) 7% +6%
6 Отдых и путешествия Турпоездки, а также проведение различных развлекательных мероприятий. 6% +5%
7 Услуги по электронной рекламе Реклама спамерских рассылок, программ для рассылок, баз электронных адресов и т.п. 3% -1%

Самые-самые: письма

Хитом недели Лаборатория "Спамтест" объявляет рассылку, которая не только довольно массовая, но и представляет собой откровенное мошенничество. Это предложение клиентам "Ситибанка" заполнить анкету и подтвердить свои данные (регистрационные и имеющие отношение к счету). Заполнение анкеты производится на сайте, копирующем стиль и дизайн настоящего банковского сайта. Все введенные данные поступают к мошенникам.

И англоязычный, и русскоязычный сайты "Ситибанка" содержат предупреждения клиентам о возможности подобных писем, а на английском сайте (www.citibank.com) приведены примеры подобных писем. Первое письмо, приведенное на сайте банка, датировано 2003 годом, затем, судя по всему, мошенники сделали перерыв, а в апреле этого года попытки украсть личные данные возобновились с большой силой.

В частности, на русской версии сайта "Ситибанка" в разделе "Безопасность" сказано следующее: "Не отвечайте на послания по электронной почте с запросами о Ваших личных данных. Относитесь с подозрением к любой компании или лицу, запрашивающим Ваш пароль, номер паспорта или другую конфиденциальную информацию. Ситибанк никогда не запрашивает информацию такого рода по электронной почте."

Самыми назойливыми (по частоте рассылок и количеству разосланных экземпляров) письмами в данный период были предложения "офис 25 кв.м. на метро Шаболовская", помещения", "Отдых ребёнка за рубежом" и приглашения на семинары от бизнес-центра "Восток-Запад".

Полный текст письма мошенников, образцы самого назойливого спама, лучшее предложение "халявы", самые забавные и самые нечитаемые письма Вы найдете сайте Спамтест.


Вы спрашивали

Вопрос:

Здравствуйте!

Пользуюсь Спамтестом, поток спама практически сошел на нет, за что огромное спасибо.

Есть маленькая проблема. Получаю письма-уведомления с форума: "ответ в теме такой-то". Спамтест их метит как [?? Probable Spam].

Фильтрация у меня настроена так, что письма с этой меткой остаются лежать в отдельной папке на почтовом сервере. Изредка захожу их проверить. Однако письма-уведомления нужны сразу, а не через неделю или месяц, пока я зайду проверить.

Подскажите, что с этим делать?

Наталья

Ответ:

Здравствуйте, Наталья!

Без образцов писем писем-уведомлений, которые фильтруются нашим сервисом, трудно дать какие-то четкие рекомендации. Но, скорее всего, дело тут в движке форума, который производит рассылку писем-уведомлений. Форумы часто рассылают уведомления с набором заголовков, очень похожими на заголовки спамерских рассылок. Например, в письмах в качестве получателя может быть указано что-то типа undisclosed-recipients. Разумеется, такие письма Спамтест будет метить как подозрительные.

Побороть это можно следующими способами:

1) Попросить владельцев форума поправить модуль рассылки, чтобы он слал письма более аккуратно. Это, надо сказать, поможет им не только в случае Спамтеста, т.к. "неправильные" письма фильтруют и другие системы антиспама.

2) Если у Вас на сервере настроена собственная фильтрация писем по заголовкам, то можно просто проверять адрес отправителя и не копировать письма данного форума в папку спама.

3) Можно переслать письмо нам для анализа. Если наши специалисты дадут заключение, что данное письмо действительно не похоже на известные спамерские рассылки, то настройки Спамтеста будут исправлены.

Образцы ложных срабатываний нужно пересылать на адрес notspam@ashmanov.com в виде вложений или в текстовом формате с полным набором заголовков сообщения.


Методика тестирования качества серверных антиспам-фильтров

Часть 2

Алексей Тутубалин, Игорь Ашманов
© ЗАО "Ашманов и Партнеры", 2004

Содержание

Часть 1

Введение

1. Определение спама

2. Нежелательная или ненужная почта

3. Критерии оценки качества

    3.1. Критические и некритические ложные срабатывания
    3.2. Пропущенный спам

4. Методика тестирования

Сводка: Корректные условия тестирования

Часть 2

5. Особенности тестирования отдельных видов фильтров

    5.1. Фильтры, использующие черные списки (RBL)
    5.2. Тестирование фильтров с регулярными обновлениями баз данных
    5.3. Тестирование обучаемых систем

6. Наиболее частые ошибки при тестировании

    6.1. "Последовательное соединение" фильтров
    6.2. Пересылка (forward) сообщений на фильтр
    6.3. Тестирование на фиксированных коллекциях
    6.4. Неверные обучающие выборки для обучаемых фильтров

Сводка: цели и корректные условия тестирования

Таким образом, достоверные результаты тестирования можно получить при выполнении следующих необходимых условий:

  • Тестирование в реальном окружении (установка антиспам-фильтра на тот же поток почты, где его предполагается в дальнейшем использовать).

  • Достаточная продолжительность тестирования - 2-3 недели.

  • Достаточный объем тестирующей выборки - как минимум несколько тысяч сообщений в день.

  • Достаточная выборка почтовых ящиков - как минимум несколько десятков.

  • Анализ результатов с использованием корректного определения спама и категорий критичных/некритичных ложных срабатываний.

  • Тестируемое ПО должно быть поставлено в максимально одинаковые условия.

Часть 2

5. Особенности тестирования отдельных видов фильтров

Помимо изложенной выше методики тестирования, применимой к любым антиспам-решениям, существует ряд особенностей конкретных способов фильтрации спама, которые стоит учитывать в схеме тестирования.

5.1 Фильтры, использующие черные списки (RBL)

А. Оценка эффективности классических RBL-фильтров. Наиболее распространенным режимом использования RBL, поддержанным в большинстве почтовых серверов (MTA), является безусловное отвержение (reject) сообщений, приходящих с IP-адресов, содержащихся в RBL-списке. В таких случаях эффективность фильтра оценивают как отношение числа пропущенных спам-сообщений к числу отвергнутых писем. Однако современные спам-технологии предполагают перепосылку одного и того же сообщения с разных IP-адресов вплоть до успешной доставки на данный сервер (возможно, с ограничением числа попыток).

В этом случае одно и то же письмо может быть сначала несколько раз отвергнуто, а потом все-таки принято.

В таком случае с формальной точки зрения отношение количества прошедшего спама к числу отвергнутых сообщений - впечатляет (то есть фильтр кажется весьма эффективным), а на самом деле эффективность такого RBL-фильтра близка к нулевой.

Необходимо также отметить, что в RBL-фильтрах с отвержением почты не существует способа оценить долю ложных срабатываний, поскольку почтовый сервер вообще не принимает отвергнутое письмо и проверить его содержание постфактум невозможно.

Таким образом, статистика самого RBL-фильтра (особенно количество отвергнутых им писем) не очень показательна. Если есть возможность на одном и том же потоке сравнить количество посылаемого спама при включенном и отключенном RBL-фильтре, это обязательно нужно сделать.

Б. Необходимо тестирование RBL в реальном времени. RBL- базы данных реального времени: большая часть RBL-списков постоянно пополняется; столь же постоянно оттуда удаляются какие-то записи.

Таким образом, результаты анализа одного и того же набора сообщений будут изменяться во времени, следовательно, для оценки реального качества RBL-фильтров, тестирование в реальном времени совершенно необходимо.

В. Невозможность тестирования фильтра на основе RBL путем пересылки. Большинство RBL-фильтров использует реальный IP-адрес посылающей стороны - этот адрес невозможно подделать (в отличие от заголовков). Однако при дальнейшей пересылке сообщения этот адрес не сохраняется - таково свойство почтовой сессии.

Таким образом, тестируемый RBL-фильтр должен быть установлен на входном почтовом сервере (incoming mail relay) организации, а не после него.

5.2 Тестирование фильтров с регулярными обновлениями баз данных

К часто обновляемым базам данных применимы те же ограничения, что и к RBL - это базы данных практически реального времени, так что для целей тестирования важно их состояние на момент прихода спам-сообщения. Дело в том, что сигнатуры спама могут как добавляться в базу данных, так и со временем удаляться оттуда по причине их устаревания.

Таким образом, при тестировании систем с обновлениями нужно соблюдать следующие условия:

  1. Фильтрация потока сообщений в реальном времени;

  2. База данных фильтра должна обновляться не реже, чем рекомендовано производителем фильтра.

5.3 Тестирование обучаемых систем

А. Длительность тестирования. При тестировании обучаемых пользователем систем (байесовских и им подобных) необходимо воспроизводить тот режим обучения, который будет использоваться при реальной эксплуатации. То есть - регулярное дообучение по пропущенному спаму и ложным срабатываниям. Это и есть штатный режим любой обучаемой пользователем системы.

Тестирование обучаемых систем должно производиться достаточное время - желательно 2-3 недели. Практика эксплуатации таких самообучающихся систем показывает, что в них может возникать эффект "избыточного обучения", при котором качество распознавания резко падает, поэтому крайне желательно проверить отсутствие этого эффекта еще на стадии тестирования.

Б. Наведенные эффекты. Если обучаемая система установлена после какого-то другого антиспам-фильтра, то при обучении и тестировании ее необходимо удалять все метки, проставляемые в сообщения первым фильтром.

В противном случае весьма вероятно, что обучаемая система обучится этим меткам и будет с успехом пользоваться "интеллектом" первого фильтра.

6. Наиболее частые ошибки при тестировании

Отсутствие общепринятых методик тестирования антиспам-систем приводит к тому, что при тестировании довольно часто допускают рассмотренный ниже ряд ошибок в методологии тестирования.

6.1 "Последовательное соединение" фильтров

Достаточно часто используется тестирование методом подсчета "разности", при котором фильтр Б ставится на поток спама, получаемый на фильтре А.

Затем, если фильтр Б что-то пропускает из спама, обнаруженного фильтром А, то Б считается хуже, чем А. Действительно, А распознал "все", а Б - "не все".

Ошибка здесь в том, что, скорее всего, и фильтр А не распознает что-то из того, что фильтр Б признает спамом, но в односторонней цепочке >А>Б этого увидеть нельзя. Множества спама, распознаваемые обоими фильтрами, не вкладываются друг в друга, а имеют общее пересечение и "хвосты".

Очевидно, что для получения корректных результатов нужно одновременно (на том же потоке почты) собрать и зеркальную цепочку >Б>А - то есть проверку фильтра А на потоке спама, получаемом из фильтра Б.

В этом случае действительно будет возможно оценить все компоненты общей картины:

  • Спам-письма, которые улавливаются обоими фильтрами;
  • Спам-письма, которые улавливаются только фильтром А или только фильтром Б;
  • Одновременные ложные срабатывания обоих фильтров;
  • Ложные срабатывания каждого фильтра по отдельности.

Только имея такую полную картину, можно обоснованно сравнивать качество распознавания антиспам-систем.

6.2 Пересылка (forward) сообщений на фильтр

В силу особенностей почтового протокола, при пересылке сообщений теряются или искажаются следующие технические параметры сообщений:

  • IP-адрес посылающей стороны;
  • Параметры SMTP-сессии (HELO, MAIL FROM);
  • Заголовки письма (добавляется лишний Received).

Если антиспам-фильтр тем или иным способом учитывает эти данные при анализе сообщений на спам, то результаты тестирования будут значительно отличаться от результатов будущей реальной эксплуатации (скорее всего, тесты с пересылкой покажут более низкие результаты распознавания).

При пересылке писем из распространенных почтовых клиентов (Outlook, Outlook Express) технические заголовки писем искажаются очень сильно, что делает практически невозможным распознавание спама по заголовкам.

6.3 Тестирование на фиксированных коллекциях

Довольно часто антиспам-системы пытаются тестировать на фиксированных статических коллекциях (архивах) спама. Эти коллекции обычно получают тремя способами:

  1. сбором спама на специальных адресах-ловушках (spamtraps), на которые в принципе не должна приходить нормальная почта;
  2. ручной сортировкой потока входящей корреспонденции;
  3. сортировкой входящей корреспонденции с помощью какой-нибудь другой антиспам-программы.

Независимо от способа получения коллекции, тестирование на коллекциях имеет следующие серьезные ограничения:

  1. Невозможно полностью воспроизвести "окружение" при приходе письма. В любом случае, при тестировании на коллекции письмо заведомо пересылается на фильтр с другого IP-адреса; скорее всего - с другим SMTP HELO; с большой вероятностью - к заголовкам письма добавлены дополнительные поля Received. Это сильно снижает качество анализа спама фильтром.
  2. Антиспам-программы используют быстро меняющиеся во времени наборы данных. Содержимое системы DNS и RBL-списков, счетчики систем подсчета частотности (DCC, Razor и подобные), содержание статистических баз (для систем с самообучением), содержание баз правил и образцов (для систем, получающих обновления) меняются несколько раз в день, иногда - несколько раз в час или вообще каждую секунду (например, для списков RBL).

Воспроизвести все эти наборы данных в том же состоянии, в котором они были на момент прихода письма - невозможно, следовательно, результаты тестирования будут значительно отличаться от результатов реальной эксплуатации.

Таким образом, тестирование на любых фиксированных коллекциях даст результат, отличающийся от реального (результата фильтрации того же письма в момент его реального поступления) - вне зависимости от способа, которым была получена коллекция. Особенно будут искажены результаты тестирования фильтров с быстрым обновлением.

При этом есть и дополнительные проблемы, связанные с получением коллекций тем или иным способом.

А. Коллекции, полученные на спам-ловушках, отличаются тем, что поток спама на них отличается от "среднего спама, получаемого активным пользователем" - адреса-ловушки не ведут переписку в форумах, публичную деятельность и т.п. В результате такие адреса попадают в базы данных, как правило, в результате автоматического перебора по словарю или, в крайнем случае, получаются обходом сайтов (если эти адреса публиковались на сайтах).

В результате получаемый на ловушки спам статистически отличается от спама, рассылаемого по стандартным спамерским базам (например, на "бизнес-адреса Москвы").

Б. Коллекции, получаемые ручным отбором, обычно имеют небольшой размер (отобрать вручную даже несколько десятков тысяч сообщений - большая работа) и, как правило, наряду с "настоящим" спамом содержат также "нежелательную для пользователя" переписку, которая не является спамом (квитанции от почтовых систем, уведомления и так далее).

В. Коллекции, получаемые фильтрованием другими программами, содержат "спам с точки зрения другой программы", что, конечно, не имеет отношения к реальной жизни.

Таким образом, самое важное качество - скорость реакции фильтра - оценить на фиксированных ретроспективных коллекциях почты нельзя. На таких коллекциях можно оценить только схожесть методов работы разных антиспам-фильтров, а для правильной оценки качества фильтрации следует использовать методику, описанную выше в разделе "Оценка различий в работе фильтров".

6.4 Неверные обучающие выборки для обучаемых фильтров

Наиболее частая ошибка при тестировании обучаемых пользователем фильтров - некорректно выбранная обучающая выборка при обучении.

А. Одна и та же выборка для обучения и тестирования. Наиболее грубой ошибкой является использование одной и той же выборки и для обучения, и для тестирования (уровень распознавания в результате будет резко завышенным). Именно такими некорректными условиями тестирования чаще всего объясняются рекламируемые производителями невероятные уровни распознавания наподобие 99,98%.

Б. Обучение на половине коллекции. Способ, который кажется "более корректным", - разделить весь архив спама на обучающую и тестирующую выборку - тоже не дает достоверных результатов. Обычно в таком архиве содержится много дублей спам-сообщений (одинаковое письмо, пришедшее много раз или на разные адреса). В результате эти дубли окажутся и в обучающей, и в тестирующей выборке и будут превосходно обнаруживаться - опять-таки давая сильно завышенную оценку качества.

Корректный способ тестирования обучаемых фильтров (в реальном времени с реальным дообучением) описан выше (см. раздел "Тестирование обучаемых систем").


Анонс

В следующем номере журнала Спамтест:

Спамер на час. Автор: Сергей Кошкин




Написать письмо

Прислать статью редактору

Мнение редакции не всегда совпадает с мнением авторов материалов.
Редакция оставляет за собой право не публиковать присланную статью без объяснения причин.
Присланные статьи не рецензируются.

(C) ЗАО "Ашманов и Партнеры", 2003-2004


http://subscribe.ru/
E-mail: ask@subscribe.ru
Отписаться

В избранное