методы снижения числа ложных срабатываний спам-фильтров

Одним из важнейших критериев оценки качества фильтров спама является процент ложных срабатываний. В данной статье рассмотрены, в основном, фильтры, определяющие спам по формальным признакам, наличием которых характеризуется спам-письмо.

приоритеты фильтрации

В общем случае фильтр работает следующим образом: по определенным алгоритмам на основе содержимого письма (естественно, включая все служебные заголовки) вычисляется некоторая сумма баллов, определяющая его "спамосодержание". Задается определенный порог, при превышении которого фильтр относит письмо к категории "спам", т. е. помечает его для конечного получателя как не рекомендованное к прочтению. Решение о том, что делать с подобным письмом, как правило, остается за получателем. Фильтр лишь добавляет определенный признак (обычно предупреждение в заголовке), по которому можно легко рассортировать почту автоматическими методами. С учетом возможности ложных срабатываний безапелляционное удаление письма, определенного как спам, представляется недопустимым и не может рекомендоваться в системах с критическим отношением к потере пользователем важной корреспонденции.

В любом случае, на применяющихся в настоящее время системах спам-фильтров ложные срабатывания случаются. Процент их, как показывает практика, колеблется в пределах от 1 до 5 в зависимости от потока писем, характера получаемой по сети легальной почты, процента спама на ящике, жесткости настройки правил сортировки фильтра и даже самого понимания разницы между выражениями "спам" и "легальная почта". Хотя производители антиспамового программного обеспечения и заявляют о "почти полном отсутствии" ложных срабатываний, большую часть систем, где оно применяется, "почти" не устраивает.

тактика борьбы с ложными срабатываниями

Для снижения числа ложных срабатываний, на мой взгляд, целесообразно применять следующую тактику:

- сначала использовать жесткий фильтр спама, пусть и дающий относительно большое количество ложных срабатываний, но отсеивающий самый хитроумный спам;

- затем - обратный фильтр, компенсирующий ложные срабатывания на всем поле отфильтрованных писем.

Таким образом, можно упростить задачу создания хорошего фильтра, разбив ее на две подзадачи.

Рассмотрим, какие способы компенсации можно предложить.

Учет служебной информации о прохождении через промежуточные узлы со спам-фильтрами. В настоящее время многие провайдеры уже имеют опыт внедрения антиспамового программного обеспечения на своих площадках, что позволяет ограничить поток спама для конечного пользователя. Здесь более всего стоит обратить внимание на возможности доверия такой информации. Теоретически можно прогнозировать, что в будущем спамеры начнут подделывать и отметки об успешном прохождении письма через известные спам-фильтры и не делают этого до сих пор потому, что данная технология широко не применяется при фильтрации.

Байесовские фильтры. проверяющие текст письма на соответствие легальной корреспонденции (полные слова родного языка получателя, полные предложения, наличие имени получателя, названия организации и прочее). Подобные фильтры должны легко настраиваться и, по возможности, не только путем формального описания, но и по стандартной схеме - реакции получателя (спам/не спам). Хотя байесовские фильтры в настоящее время распространены достаточно широко, разделение задачи описанным методом упростит работу создателей и администраторов. С точки зрения спамера, потребуется уменьшать количество мусорных слов, сохранять удобочитаемость писем, повышать качество собственных баз адресов, узнавать реальные имена владельцев, их род занятий и места работы, то есть перемещаться из области спама в сторону более легальных рекламных рассылок.

проблема спама: взгляд в будущее

В заключение надо сказать, что, по всей видимости, борьба между антиспамерскими силами и спамерами может быть достаточно долгой на пространстве применяемого в настоящий момент протокола SMTP.

Несмотря на то, что спам существует уже более 7 лет - по меркам информационных технологий достаточно большой срок - окончательной победы одной или другой стороны не предвидится. Методы, применяемые в современных спам-фильтрах, заставляют спамеров эволюционировать, развиваться, придумывать и реализовывать новые технологии, потребности в которых раннее не существовало. Вспомним хотя бы объединение вирусописателей и спамеров, которое привело к созданию базы прокси-серверов зомбированных машин, эксплуатирующихся в целях почтовых рассылок. Обратной дороги нет, усилие порождает сопротивление, и уже существуют мощные группировки спамеров, среди которых, несомненно, есть талантливые личности, которые будут порождать миллиарды спам-писем в будущем. Бороться с ними техническими методами достаточно эффективно возможно, однако, думается, в перспективе нужно искать что-то иное. Без сомнения радует работа с законодательством РФ с целью официально поставить спамера вне закона. Но борьба со спамом юридическими методами при современной технической базе не может быть эффективной.

Решение видится только в объединении усилий обеих сторон: технических специалистов и юристов. Причем с технической стороны должны быть предприняты шаги не только по фильтрации в современном понятии контента входящих почтовых сообщений, но и по внедрению либо новых протоколов, позволяющих искоренить рассматриваемую проблему, либо доработки существующего и добавления ему требуемых свойств.

Внедрение нового протокола - достаточно сложная процедура в Интернет, так как это структура централизовано не управляемая и имеющая определенную инерционность к протоколу SMTP, по которому работает многие годы. Должен найтись посредник между миром open source и коммерческими организациями (в первую очередь, конечно, Microsoft), которому обе стороны доверяют, и который сможет предложить волевое решение по переходу от открытого протокола к протоколу нового поколения. Очевидно, на время переходного периода возникнет масса трудностей из-за отсутствия связанности между теми, кто уже перешел на новый протокол, и теми, кто продолжает эксплуатировать старый. В любом случае, когда ситуация достигнет точки кипения, Интернет потеряет часть свойств открытости и доступности, полученных при рождении, ради того, чтобы побороть одно из главных своих зол.

Со всем этим придется столкнуться в ближайшем будущем, поскольку победа одной стороны - спама - невозможна с точки зрения целесообразности пользования электронной почтой в целом, а победа антиспама невозможна в виду затронутых здесь технических проблем.





  • Меню