Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
Banner Ransomfeed 970x120 1
Banner Ancharia Mobile 1
AI Avvelenata! Bastano 250 documenti dannosi per compromettere un LLM

AI Avvelenata! Bastano 250 documenti dannosi per compromettere un LLM

Redazione RHC : 13 Ottobre 2025 15:02

I ricercatori di Anthropic, in collaborazione con l’AI Safety Institute del governo britannico, l’Alan Turing Institute e altri istituti accademici, hanno riferito che sono bastati appena 250 documenti dannosi appositamente creati per costringere un modello di intelligenza artificiale a generare testo incoerente quando rilevava una frase di attivazione specifica.

Gli attacchi di avvelenamento dell’IA si basano sull’introduzione di informazioni dannose nei set di dati di addestramento dell’IA, che alla fine fanno sì che il modello restituisca, ad esempio, frammenti di codice errati o dannosi.

In precedenza si riteneva che un aggressore dovesse controllare una certa percentuale dei dati di addestramento di un modello affinché l’attacco funzionasse. Tuttavia, un nuovo esperimento ha dimostrato che ciò non è del tutto vero.


Rhc Conference Sponsor Program 2

Sponsorizza la prossima Red Hot Cyber Conference!
Il giorno Lunedì 18 maggio e martedì 19 maggio 2026 9 maggio 2026, presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terrà la V edizione della la RHC Conference
Si tratta dell’appuntamento annuale gratuito, creato dalla community di RHC, per far accrescere l’interesse verso le tecnologie digitali, l’innovazione digitale e la consapevolezza del rischio informatico. 
Se sei interessato a sponsorizzare l'evento e a rendere la tua azienda protagonista del più grande evento della Cybersecurity Italiana, non perdere questa opportunità. E ricorda che assieme alla sponsorizzazione della conferenza, incluso nel prezzo, avrai un pacchetto di Branding sul sito di Red Hot Cyber composto da Banner più un numero di articoli che saranno ospitati all'interno del nostro portale. 
Quindi cosa stai aspettando? Scrivici subito a [email protected] per maggiori informazioni e per accedere al programma sponsor e al media Kit di Red Hot Cyber.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Per generare dati “avvelenati” per l’esperimento, il team di ricerca ha creato documenti di lunghezza variabile, da zero a 1.000 caratteri, di dati di addestramento legittimi.

Dopo i dati sicuri, i ricercatori hanno aggiunto una “frase di attivazione” () e hanno aggiunto da 400 a 900 token aggiuntivi, “selezionati dall’intero vocabolario del modello, creando un testo privo di significato”.

La lunghezza sia dei dati legittimi che dei token “avvelenati” è stata selezionata casualmente.

Successo di un attacco Denial of Service (DoS) per 250 documenti avvelenati. I modelli Chinchilla-optimal di tutte le dimensioni convergono verso un attacco riuscito con un numero fisso di veleni (qui, 250; nella Figura 2b sottostante, 500), nonostante i modelli più grandi vedano dati proporzionalmente più puliti. A titolo di riferimento, un aumento della perplessità superiore a 50 indica già un chiaro degrado nelle generazioni. Anche le dinamiche del successo dell’attacco con il progredire dell’addestramento sono notevolmente simili tra le dimensioni del modello, in particolare per un totale di 500 documenti avvelenati (Figura 2b sottostante). (Fonte anthropic.com)

L’attacco, riportano i ricercatori, è stato testato su Llama 3.1, GPT 3.5-Turbo e sul modello open source Pythia. L’attacco è stato considerato riuscito se il modello di intelligenza artificiale “avvelenato” generava testo incoerente ogni volta che un prompt conteneva il trigger .

Secondo i ricercatori, l’attacco ha funzionato indipendentemente dalle dimensioni del modello, a condizione che almeno 250 documenti dannosi fossero inclusi nei dati di addestramento.

Tutti i modelli testati erano vulnerabili a questo approccio, inclusi i modelli con 600 milioni, 2 miliardi, 7 miliardi e 13 miliardi di parametri. Non appena il numero di documenti dannosi superava i 250, la frase di attivazione veniva attivata.

Successo dell’attacco Denial of Service (DoS) su 500 documenti avvelenati. (Fonte anthropic.com)

I ricercatori sottolineano che per un modello con 13 miliardi di parametri, questi 250 documenti dannosi (circa 420.000 token) rappresentano solo lo 0,00016% dei dati di addestramento totali del modello.

Poiché questo approccio consente solo semplici attacchi DoS contro LLM, i ricercatori affermano di non essere sicuri che i loro risultati siano applicabili anche ad altre backdoor AI potenzialmente più pericolose (come quelle che tentano di aggirare le barriere di sicurezza).

“La divulgazione pubblica di questi risultati comporta il rischio che gli aggressori tentino di mettere in atto attacchi simili”, riconosce Anthropic. “Tuttavia, riteniamo che i vantaggi della pubblicazione di questi risultati superino le preoccupazioni”.

Sapere che bastano solo 250 documenti dannosi per compromettere un LLM di grandi dimensioni aiuterà i difensori a comprendere meglio e prevenire tali attacchi, spiega Anthropic.

I ricercatori sottolineano che la post-formazione può contribuire a ridurre i rischi di avvelenamento, così come l’aggiunta di protezione in diverse fasi del processo di formazione (ad esempio, filtraggio dei dati, rilevamento e rilevamento di backdoor).

“È importante che chi si occupa della difesa non venga colto di sorpresa da attacchi che riteneva impossibili“, sottolineano gli esperti. “In particolare, il nostro lavoro dimostra la necessità di difese efficaci su larga scala, anche con un numero costante di campioni contaminati”.

Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Furto al Louvre: la password “LOUVRE” del sistema di sorveglianza ha messo in crisi il museo
Di Redazione RHC - 02/11/2025

Abbiamo recentemente pubblicato un approfondimento sul “furto del secolo” al Louvre, nel quale sottolineavamo come la sicurezza fisica – accessi, controllo ambientale, vigilanza – sia oggi str...

Immagine del sito
Allarme phishing in Lombardia: usano dati sanitari reali per chiedere pagamenti
Di Redazione RHC - 02/11/2025

Una nuova e insidiosa campagna di phishing sta colpendo i cittadini lombardi. I truffatori inviano e-mail che sembrano provenire da una presunta agenzia di recupero crediti, chiedendo il pagamento di ...

Immagine del sito
Scopri cos’è il ransomware. Tecniche, tattiche e procedure del cybercrime da profitto
Di Massimiliano Brolli - 02/11/2025

Capire davvero cos’è il ransomware non è semplice: tra notizie frammentate e articoli tecnici, chi cerca risposte rischia di perdersi in un mare di informazioni confuse. Questo articolo nasce per ...

Immagine del sito
Scopri il Dark Web: accesso, segreti e link utili della rete onion
Di Redazione RHC - 02/11/2025

Hai sempre pensato che il Dark Web sia frequentato dai criminali informatici? Hai sempre pensato che il Dark Web sia una rete pericolosa e piena di insidie? Oggi vogliamo sfatare questo mito e creare ...

Immagine del sito
OpenAI potrebbe aver perso 12 miliardi di dollari nell’ultimo trimestre fiscale
Di Redazione RHC - 01/11/2025

Il rapporto finanziario di Microsoft indica che OpenAI potrebbe aver perso 12 miliardi di dollari nell’ultimo trimestre fiscale. Una spesa nel rapporto sugli utili di Microsoft (517.81, -7.95, -1.51...