Quasi un terzo del traffico web è generato da bot! L’era dell’AI invasiva è ora

Redazione RHC : 2 Settembre 2025 14:49

Ieri il sito di Red Hot Cyber è stato inaccessibile per circa un’ora. Ma cosa sta succedendo ci siamo chiesti? Dopo una serie di analisi ecco il riscontro: internet sta cambiando rapidamente sotto la pressione dell’intelligenza artificiale.

Se in precedenza i siti soffrivano dei classici robot di ricerca, oggi una quota crescente di traffico è generata da nuovi scanner aggressivi che operano nell’interesse di grandi modelli linguistici. Secondo Cloudflare, quasi un terzo di tutto il traffico web globale proviene da bot, e tra questi i crawler AI sono quelli in più rapida crescita. Le analisi di Fastly specificano che l’80% di tale traffico è generato da programmi creati per la raccolta di massa dei dati necessari per l’addestramento dell’IA.

Formalmente, la storia degli scanner automatici è iniziata nel 1993, con la comparsa di Web Wanderer, che registrava le nuove pagine web. Ma gli esperti sottolineano: la differenza tra quei primi strumenti e i sistemi odierni è enorme. Gli algoritmi moderni non si limitano a indicizzare le pagine, ma sovraccaricano l’infrastruttura, creando costi elevati per i proprietari dei siti. Fastly registra numerosi casi in cui improvvisi picchi di richieste da parte di bot di intelligenza artificiale hanno aumentato il carico sui server di dieci, e talvolta venti volte, nel giro di pochi minuti, con conseguenti inevitabili cali di produttività e interruzioni del servizio.

Sponsorizza la prossima Red Hot Cyber Conference!

Il giorno Lunedì 18 maggio e martedì 19 maggio 2026 9 maggio 2026, presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terrà la V edizione della la RHC Conference.
Si tratta dell’appuntamento annuale gratuito, creato dalla community di RHC, per far accrescere l’interesse verso le tecnologie digitali, l’innovazione digitale e la consapevolezza del rischio informatico.
Se sei interessato a sponsorizzare l'evento e a rendere la tua azienda protagonista del più grande evento della Cybersecurity Italiana, non perdere questa opportunità. E ricorda che assieme alla sponsorizzazione della conferenza, incluso nel prezzo, avrai un pacchetto di Branding sul sito di Red Hot Cyber composto da Banner più un numero di articoli che saranno ospitati all'interno del nostro portale.
Quindi cosa stai aspettando? Scrivici subito a [email protected] per maggiori informazioni e per accedere al programma sponsor e al media Kit di Red Hot Cyber.

Supporta Red Hot Cyber attraverso:

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

I provider di hosting sottolineano che tali crawler non tengono quasi mai conto delle limitazioni relative alla frequenza di scansione e alle regole di risparmio del traffico. Scaricano il testo completo delle pagine, seguono link dinamici e script eseguibili, ignorando completamente le impostazioni dei proprietari delle risorse. Di conseguenza, anche i siti non direttamente presi di mira ne risentono indirettamente: se diversi progetti condividono un server e un canale di comunicazione comune, un attacco ai siti vicini ne compromette istantaneamente la velocità.

Per i siti di piccole dimensioni, ciò si traduce in una completa inaccessibilità. I proprietari di risorse notano che i consueti meccanismi di protezione DDoS offerti da Cloudflare e da altre società di rete affrontano efficacemente ondate di attacchi distribuiti, ma sono inutili contro l’assalto dei bot AI. Di fatto, stiamo parlando delle stesse conseguenze distruttive, sebbene formalmente il traffico non sia classificato come dannoso.

La situazione è difficile anche per i principali operatori. Per resistere a tali flussi, è necessario aumentare la quantità di RAM, le risorse del processore e la larghezza di banda della rete. In caso contrario, la velocità di caricamento delle pagine diminuisce, il che si traduce in un aumento del bounce rate. Le ricerche di hosting dimostrano che se un sito rimane aperto per più di tre secondi, più della metà dei visitatori chiude la scheda. Ogni secondo in più non fa che peggiorare il problema e l’azienda perde il suo pubblico.

Anche le più grandi aziende di intelligenza artificiale sono comparse nelle statistiche. Meta rappresenta il volume maggiore di traffico di ricerca , circa il 52%. Google ne rappresenta il 23% e OpenAI un altro 20%. I loro sistemi sono in grado di generare picchi fino a 30 terabit al secondo, il che causa guasti anche per le organizzazioni con un’infrastruttura potente. Allo stesso tempo, i proprietari di siti web non guadagnano nulla da tale interesse: se in precedenza una visita del robot di ricerca Googlebot offriva la possibilità di arrivare alla prima pagina dei risultati di ricerca e attrarre lettori o clienti, ora i crawler di intelligenza artificiale non riportano gli utenti alle fonti originali. I contenuti vengono utilizzati per addestrare i modelli e il traffico non genera profitto.

I tentativi di proteggersi con metodi classici – password, accesso a pagamento, CAPTCHA e filtri specializzati – raramente danno risultati. L’intelligenza artificiale riesce a superare queste barriere abbastanza bene. Anche il vecchio meccanismo robots.txt, che per decenni è stato utilizzato come metodo standard per indicare le regole di indicizzazione, perde il suo significato: molti bot semplicemente lo ignorano. Cloudflare ha quindi accusato Perplexity di aver aggirato queste impostazioni, e Perplexity, a sua volta, ha negato tutto. Ma i proprietari di siti web registrano regolarmente ondate di richieste automatiche da vari servizi, il che conferma l’impotenza degli strumenti esistenti.

Esistono iniziative per integrare robots.txt con un nuovo formato, llms.txt. Dovrebbe consentire ai modelli linguistici di trasmettere contenuti appositamente preparati senza compromettere il funzionamento del sito. Tuttavia, l’idea è percepita in modo ambiguo e non è chiaro se diventerà uno standard. Parallelamente, aziende di infrastrutture come Cloudflare stanno lanciando i propri servizi per bloccare i bot AI. Esistono anche soluzioni indipendenti come Anubis AI Crawler Blocker, un progetto aperto e gratuito che non impedisce la scansione, ma la rallenta a tal punto da non essere più distruttiva.

Si sta quindi delineando una nuova corsa agli armamenti su Internet. Da una parte ci sono i proprietari di siti web che vogliono mantenere le proprie risorse accessibili e redditizie. Dall’altra ci sono gli sviluppatori di intelligenza artificiale che sfruttano il flusso infinito di dati come carburante. Un equilibrio verrà probabilmente trovato nel tempo, ma il prezzo sarà alto: la rete diventerà più chiusa, le informazioni saranno frammentate e molti materiali finiranno dietro le quinte dei servizi a pagamento o scompariranno del tutto dall’accesso libero. I ricordi di un’Internet libera stanno gradualmente diventando storia e la prospettiva di una rete frammentata sta diventando sempre più concreta.

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Tesla vuole dare a Musk 1000 miliardi di dollari per un piano da fantascienza. Più del PIL della Svizzera!

Di Redazione RHC - 07/11/2025

Numerosi apprezzamenti stanno arrivando per Elon Musk, che continua a guidare con destrezza le molteplici attività del suo impero, tra cui Tesla, SpaceX, xAI e Starlink, mantenendo salda la sua posiz...

Doppio Gioco: i dipendenti di un’azienda che “risolveva” gli attacchi ransomware li lanciavano loro stessi

Di Redazione RHC - 07/11/2025

Tre ex dipendenti di DigitalMint, che hanno indagato sugli incidenti ransomware e negoziato con i gruppi di ransomware, sono accusati di aver hackerato le reti di cinque aziende americane. Secondo il ...

Cisco risolve vulnerabilità critiche in ASA, DTD e Unified Contact Center Express

Di Redazione RHC - 06/11/2025

Cisco ha reso noto recentemente di aver scoperto una nuova tipologia di attacco informatico mirato a compromettere i dispositivi che operano con i software Cisco Secure Firewall Adaptive Security Appl...

Notepad++ sotto attacco! Come una DLL fasulla apre la porta ai criminal hacker

Di Manuel Roccon - 05/11/2025

Nel mese di Settembre è uscita una nuova vulnerabilità che riguarda Notepad++. La vulnerabilità è stata identificata con la CVE-2025-56383 i dettagli possono essere consultati nel sito del NIST. L...

Pericolo per gli utenti OneDrive: le DLL infette si nascondono nei file condivisi

Di Redazione RHC - 05/11/2025

Gli aggressori stanno utilizzando una tecnica avanzata che implica il caricamento laterale di DLL tramite l’applicazione Microsoft OneDrive. In questo modo riescono ad eseguire codice malevolo senza...