Redazione RHC : 13 Ottobre 2025 15:02
I ricercatori di Anthropic, in collaborazione con l’AI Safety Institute del governo britannico, l’Alan Turing Institute e altri istituti accademici, hanno riferito che sono bastati appena 250 documenti dannosi appositamente creati per costringere un modello di intelligenza artificiale a generare testo incoerente quando rilevava una frase di attivazione specifica.
Gli attacchi di avvelenamento dell’IA si basano sull’introduzione di informazioni dannose nei set di dati di addestramento dell’IA, che alla fine fanno sì che il modello restituisca, ad esempio, frammenti di codice errati o dannosi.
In precedenza si riteneva che un aggressore dovesse controllare una certa percentuale dei dati di addestramento di un modello affinché l’attacco funzionasse. Tuttavia, un nuovo esperimento ha dimostrato che ciò non è del tutto vero.
![]() CALL FOR SPONSOR - Sponsorizza l'ottavo episodio della serie Betti-RHCSei un'azienda innovativa, che crede nella diffusione di concetti attraverso metodi "non convenzionali"? Conosci il nostro corso sul cybersecurity awareness a fumetti? Red Hot Cyber sta ricercando un nuovo sponsor per una nuova puntata del fumetto Betti-RHC mentre il team è impegnato a realizzare 3 nuovi episodi che ci sono stati commissionati. Contattaci tramite WhatsApp al numero 375 593 1011 per richiedere ulteriori informazioni oppure alla casella di posta [email protected]
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
Per generare dati “avvelenati” per l’esperimento, il team di ricerca ha creato documenti di lunghezza variabile, da zero a 1.000 caratteri, di dati di addestramento legittimi.
Dopo i dati sicuri, i ricercatori hanno aggiunto una “frase di attivazione” (
L’attacco, riportano i ricercatori, è stato testato su Llama 3.1, GPT 3.5-Turbo e sul modello open source Pythia. L’attacco è stato considerato riuscito se il modello di intelligenza artificiale “avvelenato” generava testo incoerente ogni volta che un prompt conteneva il trigger
Tutti i modelli testati erano vulnerabili a questo approccio, inclusi i modelli con 600 milioni, 2 miliardi, 7 miliardi e 13 miliardi di parametri. Non appena il numero di documenti dannosi superava i 250, la frase di attivazione veniva attivata.
I ricercatori sottolineano che per un modello con 13 miliardi di parametri, questi 250 documenti dannosi (circa 420.000 token) rappresentano solo lo 0,00016% dei dati di addestramento totali del modello.
Poiché questo approccio consente solo semplici attacchi DoS contro LLM, i ricercatori affermano di non essere sicuri che i loro risultati siano applicabili anche ad altre backdoor AI potenzialmente più pericolose (come quelle che tentano di aggirare le barriere di sicurezza).
“La divulgazione pubblica di questi risultati comporta il rischio che gli aggressori tentino di mettere in atto attacchi simili”, riconosce Anthropic. “Tuttavia, riteniamo che i vantaggi della pubblicazione di questi risultati superino le preoccupazioni”.
Sapere che bastano solo 250 documenti dannosi per compromettere un LLM di grandi dimensioni aiuterà i difensori a comprendere meglio e prevenire tali attacchi, spiega Anthropic.
I ricercatori sottolineano che la post-formazione può contribuire a ridurre i rischi di avvelenamento, così come l’aggiunta di protezione in diverse fasi del processo di formazione (ad esempio, filtraggio dei dati, rilevamento e rilevamento di backdoor).
“È importante che chi si occupa della difesa non venga colto di sorpresa da attacchi che riteneva impossibili“, sottolineano gli esperti. “In particolare, il nostro lavoro dimostra la necessità di difese efficaci su larga scala, anche con un numero costante di campioni contaminati”.
È stata identificata una vulnerabilità critica nell’architettura di sicurezza hardware AMD SEV-SNP, che impatta i principali provider cloud (AWS, Microsoft Azure e Google Cloud). Tale bug consente...
Nel mondo della sicurezza informatica, dove ogni parola pesa e ogni concetto può diventare complesso, a volte basta un’immagine per dire tutto. Un meme, con la sua ironia tagliente e goliardica e l...
In un mondo in cui la musica è da tempo migrata verso lo streaming e le piattaforme digitali, un appassionato ha deciso di tornare indietro di sei decenni, a un’epoca in cui le melodie potevano anc...
La frase “Costruiremo sicuramente un bunker prima di lanciare l’AGI” dal quale prende spunto l’articolo, è stata attribuita a uno dei leader della Silicon Valley, anche se non è chiaro a chi...
Negli Stati Uniti, una vasta campagna coordinata tramite botnet sta prendendo di mira i servizi basati sul protocollo Remote Desktop Protocol (RDP). Un pericolo notevole è rappresentato dalla scala e...