Filtros que contraatacan | undefined | Ensayos de Paul Graham

Filtros que contraatacan

Agosto de 2003

Podríamos mejorar la precisión de los filtros Bayesianos de spam haciéndolos seguir los enlaces para ver qué les espera al otro lado. Richard Jowsey de death2spam ahora hace esto en casos límite, y reporta que funciona bien.

¿Por qué hacerlo solo en casos límite? ¿Y por qué hacerlo solo una vez?

Como mencioné en ¿Matarán los filtros al spam?, seguir todas las URLs en un spam tendría un efecto secundario divertido. Si los clientes de correo electrónico populares hicieran esto para filtrar spam, los servidores del spammer sufrirían un serio golpe. Cuanto más lo pienso, mejor idea parece. Esto no es solo divertido; sería difícil imaginar un contraataque más perfectamente dirigido a los spammers.

Así que me gustaría sugerir una característica adicional para quienes trabajan en filtros de spam: un modo "castigar" que, si se activa, rastrearía cada URL en un spam sospechoso n veces, donde n podría ser establecido por el usuario. [1]

Como muchas personas han señalado, uno de los problemas del sistema de correo electrónico actual es que es demasiado pasivo. Hace lo que le dices. Hasta ahora, todas las sugerencias para solucionar el problema parecen implicar nuevos protocolos. Esta no lo haría.

Si se usaran ampliamente, los filtros de spam de recuperación automática harían que el sistema de correo electrónico rebotara. El enorme volumen del spam, que hasta ahora ha funcionado a favor del spammer, ahora trabajaría en su contra, como una rama que se rompe y le golpea en la cara. Los filtros de spam de recuperación automática aumentarían los costos del spammer y disminuirían sus ventas: su uso de ancho de banda se dispararía y sus servidores se detendrían bajo la carga, lo que los haría inaccesibles para las personas que habrían respondido al spam.

Envía un millón de correos electrónicos por hora, recibe un millón de visitas por hora en tus servidores.

Querríamos asegurarnos de que esto solo se haga a spams sospechosos. Como regla general, cualquier URL enviada a millones de personas probablemente sea una URL de spam, por lo que enviar cada solicitud http en cada correo electrónico funcionaría bien casi todo el tiempo. Pero hay algunos casos en los que esto no es cierto: las URLs al final de los correos enviados desde servicios de correo electrónico gratuitos como Yahoo Mail y Hotmail, por ejemplo.

Para proteger tales sitios y prevenir abusos, la recuperación automática debe combinarse con listas negras de sitios promocionados por spam. Solo los sitios en una lista negra serían rastreados, y los sitios serían añadidos a la lista negra solo después de ser inspeccionados por humanos. La vida útil de un spam debe ser de varias horas al menos, por lo que debería ser fácil actualizar dicha lista a tiempo para interferir con un spam que promociona un nuevo sitio. [2]

La recuperación automática de alto volumen solo sería práctica para usuarios con conexiones de alto ancho de banda, pero hay suficientes de ellos para causar serios problemas a los spammers. De hecho, esta solución refleja perfectamente el problema. El problema con el spam es que, para llegar a unas pocas personas crédulas, el spammer envía correos a todos. Los destinatarios no crédulos son simplemente daños colaterales. Pero la mayoría no crédula no dejará de recibir spam hasta que pueda detener (o amenazar con detener) a los crédulos de responder a él. Los filtros de spam de recuperación automática les ofrecen una forma de hacerlo.

¿Mataría eso al spam? No del todo. Los spammers más grandes probablemente podrían proteger sus servidores contra filtros de recuperación automática. Sin embargo, la forma más fácil y barata de hacerlo sería incluir enlaces de cancelación de suscripción funcionales en sus correos. Y esto sería una necesidad para los pequeños y para los sitios "legítimos" que contrataron spammers para promocionarlos. Así que si los filtros de recuperación automática se generalizaran, se convertirían en filtros de cancelación automática de suscripción.

En este escenario, el spam, al igual que los bloqueos de OS, los virus y las ventanas emergentes, se convertiría en una de esas plagas que solo afectan a las personas que no se molestan en usar el software adecuado.

Notas

[1] Los filtros de recuperación automática tendrán que seguir redirecciones, y en algunos casos (por ejemplo, una página que solo dice "haz clic aquí") deberían seguir más de un nivel de enlaces. Asegúrate también de que las solicitudes http sean indistinguibles de las de los navegadores web populares, incluido el orden y el referente.

Si la respuesta no llega dentro de x cantidad de tiempo, se asume una probabilidad de spam bastante alta.

En lugar de hacer que n sea constante, podría ser una buena idea hacerlo una función del número de spams que se han visto mencionando el sitio. Esto añadiría un nivel adicional de protección contra abusos y accidentes.

[2] La versión original de este artículo utilizaba el término "whitelist" en lugar de "blacklist". Aunque debían funcionar como listas negras, preferí llamarlas listas blancas porque podrían ser menos vulnerables a ataques legales. Sin embargo, esto solo pareció confundir a los lectores.

Probablemente debería haber múltiples listas negras. Un único punto de fallo sería vulnerable tanto al ataque como al abuso.

Gracias a Brian Burton, Bill Yerazunis, Dan Giffin, Eric Raymond y Richard Jowsey por leer borradores de esto.