Filtres qui Ripostent
Août 2003
Nous pourrions améliorer la précision des filtres anti-spam bayésiens en les faisant suivre les liens pour voir ce qui se trouve à l'autre bout. Richard Jowsey de death2spam le fait maintenant dans les cas limites et rapporte que cela fonctionne bien.
Pourquoi ne le faire que dans les cas limites ? Et pourquoi ne le faire qu'une seule fois ?
Comme je l'ai mentionné dans Les Filtres Vont-ils Tuer le Spam ?, suivre toutes les URL dans un spam aurait un effet secondaire amusant. Si les clients de messagerie populaires faisaient cela pour filtrer le spam, les serveurs des spammeurs subiraient un sérieux coup. Plus j'y pense, plus cette idée me semble bonne. Ce n'est pas juste amusant ; il serait difficile d'imaginer une contre-attique plus parfaitement ciblée contre les spammeurs.
Je voudrais donc suggérer une fonctionnalité supplémentaire à ceux qui travaillent sur les filtres anti-spam : un mode "punir" qui, s'il est activé, explorerait chaque URL dans un spam suspecté n fois, où n pourrait être défini par l'utilisateur. [1]
Comme beaucoup l'ont noté, l'un des problèmes avec le système de messagerie actuel est qu'il est trop passif. Il fait tout ce qu'on lui dit. Jusqu'à présent, toutes les suggestions pour résoudre le problème semblent impliquer de nouveaux protocoles. Celui-ci ne le ferait pas.
S'ils étaient largement utilisés, les filtres anti-spam auto-récupérants feraient rebondir le système de messagerie. L'énorme volume de spam, qui a jusqu'à présent joué en faveur du spammeur, travaillerait maintenant contre lui, comme une branche qui lui claque au visage. Les filtres anti-spam auto-récupérants augmenteraient les coûts du spammeur et réduiraient ses ventes : son utilisation de la bande passante exploserait, et ses serveurs s'arrêteraient sous la charge, ce qui les rendrait indisponibles pour les personnes qui auraient répondu au spam.
Envoyez un million d'emails par heure, recevez un million de hits par heure sur vos serveurs.
Nous voudrions nous assurer que cela n'est fait qu'aux spams suspectés. En règle générale, toute URL envoyée à des millions de personnes est susceptible d'être une URL de spam, donc soumettre chaque requête HTTP dans chaque email fonctionnerait bien presque tout le temps. Mais il y a quelques cas où ce n'est pas vrai : les URL au bas des mails envoyés depuis des services de messagerie gratuits comme Yahoo Mail et Hotmail, par exemple.
Pour protéger ces sites et prévenir les abus, l'auto-récupération devrait être combinée avec des listes noires de sites spamvertisés. Seuls les sites sur une liste noire seraient explorés, et les sites ne seraient listés qu'après avoir été inspectés par des humains. La durée de vie d'un spam doit être de plusieurs heures au moins, donc il devrait être facile de mettre à jour une telle liste à temps pour interférer avec un spam promouvant un nouveau site. [2]
L'auto-récupération à haut volume ne serait pratique que pour les utilisateurs avec des connexions à haut débit, mais il y en a assez pour causer de sérieux problèmes aux spammeurs. En effet, cette solution reflète parfaitement le problème. Le problème avec le spam est que pour atteindre quelques personnes crédules, le spammeur envoie des mails à tout le monde. Les destinataires non crédules ne sont que des dommages collatéraux. Mais la majorité non crédule ne cessera de recevoir du spam que lorsqu'elle pourra arrêter (ou menacer d'arrêter) les crédules d'y répondre. Les filtres anti-spam auto-récupérants leur offrent un moyen de le faire.
Cela tuerait-il le spam ? Pas tout à fait. Les plus gros spammeurs pourraient probablement protéger leurs serveurs contre les filtres auto-récupérants. Cependant, la manière la plus simple et la moins chère pour eux de le faire serait d'inclure des liens de désabonnement fonctionnels dans leurs mails. Et ce serait une nécessité pour les petits poissons et pour les sites "légitimes" qui ont engagé des spammeurs pour les promouvoir. Donc, si les filtres auto-récupérants devenaient répandus, ils deviendraient des filtres auto-désabonnants.
Dans ce scénario, le spam deviendrait, comme les plantages du système d'exploitation, les virus et les popups, l'une de ces plaies qui n'affligent que les personnes qui ne prennent pas la peine d'utiliser le bon logiciel.
Notes
[1] Les filtres auto-récupérants devront suivre les redirections et devraient dans certains cas (par exemple une page qui dit juste "cliquez ici") suivre plus d'un niveau de liens. Assurez-vous aussi que les requêtes HTTP sont indiscernables de celles des navigateurs Web populaires, y compris l'ordre et le référant.
Si la réponse ne revient pas dans un délai x, par défaut à une probabilité de spam assez élevée.
Au lieu de rendre n constant, il pourrait être une bonne idée de le rendre fonction du nombre de spams qui ont été vus mentionnant le site. Cela ajouterait un niveau supplémentaire de protection contre les abus et les accidents.
[2] La version originale de cet article utilisait le terme "liste blanche" au lieu de "liste noire". Bien qu'elles devaient fonctionner comme des listes noires, j'ai préféré les appeler listes blanches parce que cela pourrait les rendre moins vulnérables aux attaques juridiques. Cela semble cependant avoir confondu les lecteurs.
Il devrait probablement y avoir plusieurs listes noires. Un seul point de défaillance serait vulnérable à la fois aux attaques et aux abus.
Remerciements à Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond et Richard Jowsey pour avoir lu les brouillons de ceci.