¡Casi un tercio del tráfico web lo generan bots! La era de la IA invasiva ya está aquí.

Redazione RHC : 2 septiembre 2025 14:50

Ayer, el sitio web de Red Hot Cyber estuvo inaccesible durante aproximadamente una hora. Pero, ¿qué está pasando?, nos preguntamos. Tras una serie de análisis, este es el resultado: Internet está cambiando rápidamente bajo la presión de la inteligencia artificial.

Si antes los sitios web sufrían de los robots de búsqueda clásicos, hoy en día una parte cada vez mayor del tráfico se genera mediante nuevos y agresivos escáneres que operan en función de grandes modelos de lenguaje. Según Cloudflare, casi un tercio del tráfico web global proviene de bots, siendo los rastreadores de IA los de mayor crecimiento. El análisis de Fastly especifica que el 80 % de este tráfico se genera mediante programas diseñados para recopilar masivamente los datos necesarios para el entrenamiento de la IA.

Originalmente, la historia de los escáneres automatizados comenzó en 1993, con la aparición de Web Wanderer, que registraba nuevas páginas web. Sin embargo, los expertos enfatizan: la diferencia entre aquellas primeras herramientas y los sistemas actuales es enorme. Los algoritmos modernos no solo indexan páginas, sino que sobrecargan la infraestructura, generando altos costos para los propietarios de sitios web. Fastly ha registrado numerosos casos en los que picos repentinos de solicitudes de bots de IA han multiplicado por diez, e incluso por veinte, la carga del servidor en tan solo unos minutos, lo que ha provocado inevitables caídas de productividad e interrupciones del servicio.

Los proveedores de hosting enfatizan que estos rastreadores casi nunca tienen en cuenta las limitaciones de frecuencia de rastreo ni las reglas de ahorro de tráfico. Descargan el texto completo de las páginas, siguen enlaces dinámicos y scripts ejecutables, ignorando por completo la configuración de los propietarios de los recursos. Como resultado, incluso los sitios que no son atacados directamente se ven indirectamente afectados: si varios proyectos comparten un servidor y un canal de comunicación común, un ataque a sitios vecinos compromete instantáneamente su velocidad.

Para sitios pequeños, esto se traduce en una inaccesibilidad total. Los propietarios de recursos señalan que los mecanismos habituales de protección contra DDoS que ofrecen Cloudflare y otras empresas de redes gestionan eficazmente las oleadas de ataques distribuidos, pero son inútiles contra la avalancha de bots de IA. En efecto, estamos hablando de las mismas consecuencias destructivas, aunque el tráfico no esté clasificado formalmente como malicioso.

La situación es difícil incluso para los grandes operadores. Para soportar tales afluencias, necesitan aumentar la cantidad de RAM, los recursos del procesador y el ancho de banda de la red. De lo contrario, la velocidad de carga de las páginas disminuye, lo que se traduce en una mayor tasa de rebote. Estudios de hosting muestran que si un sitio permanece abierto durante más de tres segundos, más de la mitad de los visitantes cierran la pestaña. Cada segundo adicional solo agrava el problema y la empresa pierde audiencia.

Incluso las empresas de IA más grandes han aparecido en las estadísticas. Meta representa el mayor volumen de tráfico de búsqueda, alrededor del 52%. Google representa el 23% y OpenAI otro 20%. Sus sistemas son capaces de generar picos de hasta 30 terabits por segundo, lo que causa interrupciones incluso para organizaciones con una infraestructura potente. Al mismo tiempo, los propietarios de sitios web no obtienen ningún beneficio de este interés: mientras que antes una visita de Googlebot ofrecía la oportunidad de llegar a la primera página de resultados de búsqueda y atraer lectores o clientes, ahora los rastreadores de IA no redirigen a los usuarios a las fuentes originales. El contenido se utiliza para entrenar modelos y el tráfico no genera ingresos.

Los intentos de protegerse con métodos tradicionales (contraseñas, inicios de sesión de pago, CAPTCHA y filtros especializados) rara vez dan resultados. La inteligencia artificial supera estas barreras con bastante eficacia. Incluso el antiguo mecanismo robots.txt, que durante décadas sirvió como método estándar para especificar las reglas de indexación, está perdiendo su utilidad: muchos bots simplemente lo ignoran. Cloudflare acusó entonces a Perplexity de eludir estas configuraciones, y Perplexity, a su vez, lo denegó todo. Sin embargo, los propietarios de sitios web experimentan regularmente oleadas de solicitudes automatizadas de diversos servicios, lo que confirma la ineficacia de las herramientas existentes.

Existen iniciativas para complementar robots.txt con un nuevo formato, llms.txt. Este debería permitir que los modelos de lenguaje transmitan contenido especialmente preparado sin comprometer la funcionalidad del sitio. Sin embargo, la idea se percibe con ambigüedad y no está claro si se convertirá en un estándar. Al mismo tiempo, empresas de infraestructura como Cloudflare están lanzando sus propios servicios para bloquear los bots de IA. También existen soluciones independientes como Anubis AI Crawler Blocker, un proyecto abierto y gratuito que no impide el rastreo, sino que lo ralentiza hasta el punto de que deja de ser destructivo.

Una nueva carrera armamentística está surgiendo en Internet. Por un lado, están los propietarios de sitios web que desean mantener sus recursos accesibles y rentables. Por otro, están los desarrolladores de IA que explotan el flujo infinito de datos como combustible. Es probable que con el tiempo se encuentre un equilibrio, pero el precio será alto: la red se volverá más cerrada, la información se fragmentará y muchos materiales terminarán ocultos en servicios de pago o desaparecerán por completo del acceso gratuito. El recuerdo de una Internet libre está quedando poco a poco en el pasado, y la perspectiva de una red fragmentada se vuelve cada vez más real.

Redazione
Red Hot Cyber's editorial team consists of a collection of individuals and anonymous sources who actively collaborate by providing advance information and news on cyber security and IT in general.

Lista degli articoli

Artículos destacados

¡Google Drive se defiende del ransomware! La IA bloquea los ataques.

Di Redazione RHC - 02/10/2025

Google ha presentado una nueva herramienta de IA para Drive para escritorio. Se dice que el modelo se ha entrenado con millones de muestras reales de ransomware y puede suspender la sincronización pa...

Phantom Taurus: el grupo de hackers chinos que espía a gobiernos y embajadas

Di Redazione RHC - 02/10/2025

Expertos de Palo Alto Networks han identificado un nuevo grupo de hackers vinculado al Partido Comunista Chino. Unit 42, la división de inteligencia de amenazas de la compañía con sede en Californi...

Descubriendo la inyección rápida: cuando la IA se deja engañar por las palabras

Di Manuel Roccon - 02/10/2025

Los sistemas de Inteligencia Artificial Generativa (GenAI) están revolucionando la forma en que interactuamos con la tecnología, ofreciendo capacidades extraordinarias en la creación de texto, imá...

¡De usuario a root en un segundo! CISA advierte: millones de sistemas operativos en riesgo. ¡Parche!

Di Redazione RHC - 30/09/2025

La Agencia de Seguridad de Infraestructura y Ciberseguridad de Estados Unidos (CISA) ha añadido una vulnerabilidad crítica en la popular utilidad Sudo, utilizada en sistemas Linux y similares a Unix...

¡EE. UU. quiere hackear Telegram! El caso genera debate sobre privacidad y jurisdicción.

Di Redazione RHC - 29/09/2025

El Departamento de Justicia de EE. UU. recibió autorización judicial para realizar una inspección remota de los servidores de Telegram como parte de una investigación sobre explotación infantil. ...