Red Hot Cyber

La ciberseguridad se comparte. Reconozca el riesgo, combátalo, comparta sus experiencias y anime a otros a hacerlo mejor que usted.
Buscar

¡Casi un tercio del tráfico web lo generan bots! La era de la IA invasiva ya está aquí.

Redazione RHC : 2 septiembre 2025 14:50

Ayer, el sitio web de Red Hot Cyber estuvo inaccesible durante aproximadamente una hora. Pero, ¿qué está pasando?, nos preguntamos. Tras una serie de análisis, este es el resultado: Internet está cambiando rápidamente bajo la presión de la inteligencia artificial.

Si antes los sitios web sufrían de los robots de búsqueda clásicos, hoy en día una parte cada vez mayor del tráfico se genera mediante nuevos y agresivos escáneres que operan en función de grandes modelos de lenguaje. Según Cloudflare, casi un tercio del tráfico web global proviene de bots, siendo los rastreadores de IA los de mayor crecimiento. El análisis de Fastly especifica que el 80 % de este tráfico se genera mediante programas diseñados para recopilar masivamente los datos necesarios para el entrenamiento de la IA.

Originalmente, la historia de los escáneres automatizados comenzó en 1993, con la aparición de Web Wanderer, que registraba nuevas páginas web. Sin embargo, los expertos enfatizan: la diferencia entre aquellas primeras herramientas y los sistemas actuales es enorme. Los algoritmos modernos no solo indexan páginas, sino que sobrecargan la infraestructura, generando altos costos para los propietarios de sitios web. Fastly ha registrado numerosos casos en los que picos repentinos de solicitudes de bots de IA han multiplicado por diez, e incluso por veinte, la carga del servidor en tan solo unos minutos, lo que ha provocado inevitables caídas de productividad e interrupciones del servicio.

Los proveedores de hosting enfatizan que estos rastreadores casi nunca tienen en cuenta las limitaciones de frecuencia de rastreo ni las reglas de ahorro de tráfico. Descargan el texto completo de las páginas, siguen enlaces dinámicos y scripts ejecutables, ignorando por completo la configuración de los propietarios de los recursos. Como resultado, incluso los sitios que no son atacados directamente se ven indirectamente afectados: si varios proyectos comparten un servidor y un canal de comunicación común, un ataque a sitios vecinos compromete instantáneamente su velocidad.

Para sitios pequeños, esto se traduce en una inaccesibilidad total. Los propietarios de recursos señalan que los mecanismos habituales de protección contra DDoS que ofrecen Cloudflare y otras empresas de redes gestionan eficazmente las oleadas de ataques distribuidos, pero son inútiles contra la avalancha de bots de IA. En efecto, estamos hablando de las mismas consecuencias destructivas, aunque el tráfico no esté clasificado formalmente como malicioso.

La situación es difícil incluso para los grandes operadores. Para soportar tales afluencias, necesitan aumentar la cantidad de RAM, los recursos del procesador y el ancho de banda de la red. De lo contrario, la velocidad de carga de las páginas disminuye, lo que se traduce en una mayor tasa de rebote. Estudios de hosting muestran que si un sitio permanece abierto durante más de tres segundos, más de la mitad de los visitantes cierran la pestaña. Cada segundo adicional solo agrava el problema y la empresa pierde audiencia.

Incluso las empresas de IA más grandes han aparecido en las estadísticas. Meta representa el mayor volumen de tráfico de búsqueda, alrededor del 52%. Google representa el 23% y OpenAI otro 20%. Sus sistemas son capaces de generar picos de hasta 30 terabits por segundo, lo que causa interrupciones incluso para organizaciones con una infraestructura potente. Al mismo tiempo, los propietarios de sitios web no obtienen ningún beneficio de este interés: mientras que antes una visita de Googlebot ofrecía la oportunidad de llegar a la primera página de resultados de búsqueda y atraer lectores o clientes, ahora los rastreadores de IA no redirigen a los usuarios a las fuentes originales. El contenido se utiliza para entrenar modelos y el tráfico no genera ingresos.

Los intentos de protegerse con métodos tradicionales (contraseñas, inicios de sesión de pago, CAPTCHA y filtros especializados) rara vez dan resultados. La inteligencia artificial supera estas barreras con bastante eficacia. Incluso el antiguo mecanismo robots.txt, que durante décadas sirvió como método estándar para especificar las reglas de indexación, está perdiendo su utilidad: muchos bots simplemente lo ignoran. Cloudflare acusó entonces a Perplexity de eludir estas configuraciones, y Perplexity, a su vez, lo denegó todo. Sin embargo, los propietarios de sitios web experimentan regularmente oleadas de solicitudes automatizadas de diversos servicios, lo que confirma la ineficacia de las herramientas existentes.

Existen iniciativas para complementar robots.txt con un nuevo formato, llms.txt. Este debería permitir que los modelos de lenguaje transmitan contenido especialmente preparado sin comprometer la funcionalidad del sitio. Sin embargo, la idea se percibe con ambigüedad y no está claro si se convertirá en un estándar. Al mismo tiempo, empresas de infraestructura como Cloudflare están lanzando sus propios servicios para bloquear los bots de IA. También existen soluciones independientes como Anubis AI Crawler Blocker, un proyecto abierto y gratuito que no impide el rastreo, sino que lo ralentiza hasta el punto de que deja de ser destructivo.

Una nueva carrera armamentística está surgiendo en Internet. Por un lado, están los propietarios de sitios web que desean mantener sus recursos accesibles y rentables. Por otro, están los desarrolladores de IA que explotan el flujo infinito de datos como combustible. Es probable que con el tiempo se encuentre un equilibrio, pero el precio será alto: la red se volverá más cerrada, la información se fragmentará y muchos materiales terminarán ocultos en servicios de pago o desaparecerán por completo del acceso gratuito. El recuerdo de una Internet libre está quedando poco a poco en el pasado, y la perspectiva de una red fragmentada se vuelve cada vez más real.

Redazione
Red Hot Cyber's editorial team consists of a collection of individuals and anonymous sources who actively collaborate by providing advance information and news on cyber security and IT in general.

Lista degli articoli

Artículos destacados

Descubra la Dark Web: acceso, secretos y enlaces útiles a la red Onion
Di Redazione RHC - 06/09/2025

La Dark Web es una parte de internet a la que no se puede acceder con navegadores estándar (Chrome, Firefox, Edge). Para acceder a ella, se necesitan herramientas específicas como el navegador Tor, ...

16.000 millones de dólares en credenciales robadas de Apple, Meta y Google a la venta por 121.000 dólares
Di Redazione RHC - 05/09/2025

El equipo de Darklab, la comunidad de expertos en inteligencia de amenazas de Red Hot Cyber, ha identificado un anuncio en el mercado de la dark web «Tor Amazon», la contraparte criminal del popular...

Red Hot Cyber Conference 2026: Patrocinios abiertos para la quinta edición en Roma
Di Redazione RHC - 04/09/2025

La Conferencia Red Hot Cyber se ha convertido en un evento habitual para la comunidad Red Hot Cyber y para cualquier persona que trabaje o esté interesada en el mundo de las tecnologías digitales y ...

¡La IA de Hexstrike desata el caos! Días cero explotados en tiempo récord.
Di Redazione RHC - 04/09/2025

El lanzamiento de Hexstrike-AI marca un punto de inflexión en el panorama de la ciberseguridad. El framework, considerado una herramienta de última generación para equipos rojos e investigadores, e...

LockBit 5.0: ¿Señales de un nuevo y posible «renacimiento»?
Di Pietro Melillo - 03/09/2025

LockBit representa una de las bandas de ransomware más longevas y mejor estructuradas de los últimos años, con un modelo de ransomware como servicio (RaaS) que ha impactado profundamente el ecosist...