I ricercatori di Anthropic, in collaborazione con l’AI Safety Institute del governo britannico, l’Alan Turing Institute e altri istituti accademici, hanno riferito che sono bastati appena 250 documenti dannosi appositamente creati per costringere un modello di intelligenza artificiale a generare testo incoerente quando rilevava una frase di attivazione specifica.
Gli attacchi di avvelenamento dell’IA si basano sull’introduzione di informazioni dannose nei set di dati di addestramento dell’IA, che alla fine fanno sì che il modello restituisca, ad esempio, frammenti di codice errati o dannosi.
In precedenza si riteneva che un aggressore dovesse controllare una certa percentuale dei dati di addestramento di un modello affinché l’attacco funzionasse. Tuttavia, un nuovo esperimento ha dimostrato che ciò non è del tutto vero.
Advertising
Per generare dati “avvelenati” per l’esperimento, il team di ricerca ha creato documenti di lunghezza variabile, da zero a 1.000 caratteri, di dati di addestramento legittimi.
Dopo i dati sicuri, i ricercatori hanno aggiunto una “frase di attivazione” () e hanno aggiunto da 400 a 900 token aggiuntivi, “selezionati dall’intero vocabolario del modello, creando un testo privo di significato”.
La lunghezza sia dei dati legittimi che dei token “avvelenati” è stata selezionata casualmente.
Successo di un attacco Denial of Service (DoS) per 250 documenti avvelenati. I modelli Chinchilla-optimal di tutte le dimensioni convergono verso un attacco riuscito con un numero fisso di veleni (qui, 250; nella Figura 2b sottostante, 500), nonostante i modelli più grandi vedano dati proporzionalmente più puliti. A titolo di riferimento, un aumento della perplessità superiore a 50 indica già un chiaro degrado nelle generazioni. Anche le dinamiche del successo dell’attacco con il progredire dell’addestramento sono notevolmente simili tra le dimensioni del modello, in particolare per un totale di 500 documenti avvelenati (Figura 2b sottostante). (Fonte anthropic.com)
L’attacco, riportano i ricercatori, è stato testato su Llama 3.1, GPT 3.5-Turbo e sul modello open source Pythia. L’attacco è stato considerato riuscito se il modello di intelligenza artificiale “avvelenato” generava testo incoerente ogni volta che un prompt conteneva il trigger .
Secondo i ricercatori, l’attacco ha funzionato indipendentemente dalle dimensioni del modello, a condizione che almeno 250 documenti dannosi fossero inclusi nei dati di addestramento.
Advertising
Tutti i modelli testati erano vulnerabili a questo approccio, inclusi i modelli con 600 milioni, 2 miliardi, 7 miliardi e 13 miliardi di parametri. Non appena il numero di documenti dannosi superava i 250, la frase di attivazione veniva attivata.
Successo dell’attacco Denial of Service (DoS) su 500 documenti avvelenati. (Fonte anthropic.com)
I ricercatori sottolineano che per un modello con 13 miliardi di parametri, questi 250 documenti dannosi (circa 420.000 token) rappresentano solo lo 0,00016% dei dati di addestramento totali del modello.
Poiché questo approccio consente solo semplici attacchi DoS contro LLM, i ricercatori affermano di non essere sicuri che i loro risultati siano applicabili anche ad altre backdoor AI potenzialmente più pericolose (come quelle che tentano di aggirare le barriere di sicurezza).
“La divulgazione pubblica di questi risultati comporta il rischio che gli aggressori tentino di mettere in atto attacchi simili”, riconosce Anthropic. “Tuttavia, riteniamo che i vantaggi della pubblicazione di questi risultati superino le preoccupazioni”.
Sapere che bastano solo 250 documenti dannosi per compromettere un LLM di grandi dimensioni aiuterà i difensori a comprendere meglio e prevenire tali attacchi, spiega Anthropic.
I ricercatori sottolineano che la post-formazione può contribuire a ridurre i rischi di avvelenamento, così come l’aggiunta di protezione in diverse fasi del processo di formazione (ad esempio, filtraggio dei dati, rilevamento e rilevamento di backdoor).
“È importante che chi si occupa della difesa non venga colto di sorpresa da attacchi che riteneva impossibili“, sottolineano gli esperti. “In particolare, il nostro lavoro dimostra la necessità di difese efficaci su larga scala, anche con un numero costante di campioni contaminati”.
📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su Google Discover (scorri in basso e clicca segui) e su 🔔 Google News. Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram. Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici
La Redazione di Red Hot Cyber fornisce aggiornamenti quotidiani su bug, data breach e minacce globali. Ogni contenuto è validato dalla nostra community di esperti come Pietro Melillo, Massimiliano Brolli, Sandro Sana, Olivia Terragni e Stefano Gazzella.
Grazie alla sinergia con i nostri Partner leader nel settore (tra cui Accenture, CrowdStrike, Trend Micro e Fortinet), trasformiamo la complessità tecnica in consapevolezza collettiva, garantendo un'informazione accurata basata sull'analisi di fonti primarie e su una rigorosa peer-review tecnica.
Dopo il successo delle scorse edizioni, Red Hot Cyber è lieta di annunciare una nuova live-class del corso "Dark Web & Cyber Threat Intelligence". A differenza dei corsi e-learning pre-registrati, queste lezioni online in tempo reale, condotte dal professor Pietro Melillo, offrono un’esperienza formativa interattiva e coinvolgente, ideale per approfondire i contenuti e affrontare casi pratici.
Le Live Class sono progettate per garantire un apprendimento mirato e personalizzato, con un massimo di 14 partecipanti per sessione. Questo consente di adattare il percorso formativo alle esigenze specifiche, ma anche di mantenere alta la qualità: i posti sono limitati e nelle scorse edizioni sono andati in sold-out due settimane prima dell’inizio. Prenota subito per assicurarti il tuo posto!
Docente: Pietro Melillo, PhD presso l’Università del Sannio e docente presso IUSI University
Livello: Intermedio
Durata: 15 ore in Live Class con docente dal vivo
Prerequisiti: Navigazione Internet e conoscenze base di sicurezza informatica
Certificazione : Cyber Threat Intelligence Professional (CTIP) previo superamento dell’esame finale
Opportunità post-corso: Accesso al laboratorio operativo DarkLab per attività pratiche di intelligence
Al termine del corso, potrai accedere all’esclusivo Laboratorio di Intelligence DarkLab, un ambiente operativo dove mettere in pratica le competenze acquisite. Sarà l’occasione per sperimentare attività di investigazione nel Dark Web, analisi delle minacce e redazione di report di intelligence e ricerche approfondite.