Quasi un terzo del traffico web è generato da bot! L’era dell’AI invasiva è ora

2 Settembre 2025 14:49

Ieri il sito di Red Hot Cyber è stato inaccessibile per circa un’ora. Ma cosa sta succedendo ci siamo chiesti? Dopo una serie di analisi ecco il riscontro: internet sta cambiando rapidamente sotto la pressione dell’intelligenza artificiale.

Se in precedenza i siti soffrivano dei classici robot di ricerca, oggi una quota crescente di traffico è generata da nuovi scanner aggressivi che operano nell’interesse di grandi modelli linguistici. Secondo Cloudflare, quasi un terzo di tutto il traffico web globale proviene da bot, e tra questi i crawler AI sono quelli in più rapida crescita. Le analisi di Fastly specificano che l’80% di tale traffico è generato da programmi creati per la raccolta di massa dei dati necessari per l’addestramento dell’IA.

Formalmente, la storia degli scanner automatici è iniziata nel 1993, con la comparsa di Web Wanderer, che registrava le nuove pagine web. Ma gli esperti sottolineano: la differenza tra quei primi strumenti e i sistemi odierni è enorme. Gli algoritmi moderni non si limitano a indicizzare le pagine, ma sovraccaricano l’infrastruttura, creando costi elevati per i proprietari dei siti. Fastly registra numerosi casi in cui improvvisi picchi di richieste da parte di bot di intelligenza artificiale hanno aumentato il carico sui server di dieci, e talvolta venti volte, nel giro di pochi minuti, con conseguenti inevitabili cali di produttività e interruzioni del servizio.

Advertising

I provider di hosting sottolineano che tali crawler non tengono quasi mai conto delle limitazioni relative alla frequenza di scansione e alle regole di risparmio del traffico. Scaricano il testo completo delle pagine, seguono link dinamici e script eseguibili, ignorando completamente le impostazioni dei proprietari delle risorse. Di conseguenza, anche i siti non direttamente presi di mira ne risentono indirettamente: se diversi progetti condividono un server e un canale di comunicazione comune, un attacco ai siti vicini ne compromette istantaneamente la velocità.

Per i siti di piccole dimensioni, ciò si traduce in una completa inaccessibilità. I proprietari di risorse notano che i consueti meccanismi di protezione DDoS offerti da Cloudflare e da altre società di rete affrontano efficacemente ondate di attacchi distribuiti, ma sono inutili contro l’assalto dei bot AI. Di fatto, stiamo parlando delle stesse conseguenze distruttive, sebbene formalmente il traffico non sia classificato come dannoso.

La situazione è difficile anche per i principali operatori. Per resistere a tali flussi, è necessario aumentare la quantità di RAM, le risorse del processore e la larghezza di banda della rete. In caso contrario, la velocità di caricamento delle pagine diminuisce, il che si traduce in un aumento del bounce rate. Le ricerche di hosting dimostrano che se un sito rimane aperto per più di tre secondi, più della metà dei visitatori chiude la scheda. Ogni secondo in più non fa che peggiorare il problema e l’azienda perde il suo pubblico.

Anche le più grandi aziende di intelligenza artificiale sono comparse nelle statistiche. Meta rappresenta il volume maggiore di traffico di ricerca , circa il 52%. Google ne rappresenta il 23% e OpenAI un altro 20%. I loro sistemi sono in grado di generare picchi fino a 30 terabit al secondo, il che causa guasti anche per le organizzazioni con un’infrastruttura potente. Allo stesso tempo, i proprietari di siti web non guadagnano nulla da tale interesse: se in precedenza una visita del robot di ricerca Googlebot offriva la possibilità di arrivare alla prima pagina dei risultati di ricerca e attrarre lettori o clienti, ora i crawler di intelligenza artificiale non riportano gli utenti alle fonti originali. I contenuti vengono utilizzati per addestrare i modelli e il traffico non genera profitto.

I tentativi di proteggersi con metodi classici – password, accesso a pagamento, CAPTCHA e filtri specializzati – raramente danno risultati. L’intelligenza artificiale riesce a superare queste barriere abbastanza bene. Anche il vecchio meccanismo robots.txt, che per decenni è stato utilizzato come metodo standard per indicare le regole di indicizzazione, perde il suo significato: molti bot semplicemente lo ignorano. Cloudflare ha quindi accusato Perplexity di aver aggirato queste impostazioni, e Perplexity, a sua volta, ha negato tutto. Ma i proprietari di siti web registrano regolarmente ondate di richieste automatiche da vari servizi, il che conferma l’impotenza degli strumenti esistenti.

Advertising

Esistono iniziative per integrare robots.txt con un nuovo formato, llms.txt. Dovrebbe consentire ai modelli linguistici di trasmettere contenuti appositamente preparati senza compromettere il funzionamento del sito. Tuttavia, l’idea è percepita in modo ambiguo e non è chiaro se diventerà uno standard. Parallelamente, aziende di infrastrutture come Cloudflare stanno lanciando i propri servizi per bloccare i bot AI. Esistono anche soluzioni indipendenti come Anubis AI Crawler Blocker, un progetto aperto e gratuito che non impedisce la scansione, ma la rallenta a tal punto da non essere più distruttiva.

Si sta quindi delineando una nuova corsa agli armamenti su Internet. Da una parte ci sono i proprietari di siti web che vogliono mantenere le proprie risorse accessibili e redditizie. Dall’altra ci sono gli sviluppatori di intelligenza artificiale che sfruttano il flusso infinito di dati come carburante. Un equilibrio verrà probabilmente trovato nel tempo, ma il prezzo sarà alto: la rete diventerà più chiusa, le informazioni saranno frammentate e molti materiali finiranno dietro le quinte dei servizi a pagamento o scompariranno del tutto dall’accesso libero. I ricordi di un’Internet libera stanno gradualmente diventando storia e la prospettiva di una rete frammentata sta diventando sempre più concreta.

📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su 🔔 Google News.
Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram.
Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici

Cropped RHC 3d Transp2 1766828557 300x300

Redazione

La Redazione di Red Hot Cyber fornisce aggiornamenti quotidiani su bug, data breach e minacce globali. Ogni contenuto è validato dalla nostra community di esperti come Pietro Melillo, Massimiliano Brolli, Sandro Sana, Olivia Terragni e Stefano Gazzella. Grazie alla sinergia con i nostri Partner leader nel settore (tra cui Accenture, CrowdStrike, Trend Micro e Fortinet), trasformiamo la complessità tecnica in consapevolezza collettiva, garantendo un'informazione accurata basata sull'analisi di fonti primarie e su una rigorosa peer-review tecnica.