
Un gruppo di scienziati ha sviluppato un nuovo modo per attaccare modelli linguistici di grandi dimensioni: un metodo chiamato LatentBreak. A differenza delle tecniche precedenti, non utilizza suggerimenti complessi o caratteri insoliti facilmente rilevabili dai sistemi di difesa.
LatentBreak modifica invece la query a livello delle rappresentazioni nascoste del modello, scegliendo formulazioni che sembrano innocue ma che in realtà innescano una risposta proibita.
In precedenza, metodi come GCG, GBDA, SAA e AutoDAN tentavano di ingannare l’intelligenza artificiale con suffissi strani o confusi che distorcevano il suggerimento originale. Tali attacchi aumentano la cosiddetta perplessità, una misura di quanto “naturale” appaia il testo al modello. I filtri di intelligenza artificiale sono in grado di riconoscere tali schemi e bloccarli con successo.
LatentBreak adotta un approccio diverso: sostituisce singole parole con sinonimi, ma lo fa in modo da mantenere la chiarezza e il significato della query e spostarne la rappresentazione latente verso zone “sicure” che non attivano i filtri.
L’algoritmo funziona per fasi. A ogni iterazione, seleziona una parola nella query e suggerisce fino a 20 opzioni di sostituzione, generate da un altro modello linguistico (ad esempio, GPT-4o-mini o ModernBERT).
Ogni sostituzione viene quindi valutata in base a due parametri: quanto avvicina il vettore di query interno al “centro” delle query sicure e se il significato rimane invariato. Viene implementata la sostituzione migliore e la query aggiornata viene testata rispetto al modello target. Se provoca una risposta proibita precedentemente bloccata, l’attacco è considerato riuscito. Il processo viene ripetuto fino a 30 volte o fino al raggiungimento di un risultato positivo.
LatentBreak è stato testato su 13 modelli linguistici, tra cui Llama-3, Mistral-7B, Gemma-7B, Vicuna-13B e Qwen-7B. Nel set di test HarmBench, il metodo ha bypassato tutti i sistemi di difesa esistenti, inclusi quelli che analizzano la perplessità in modalità finestra scorrevole. Gli attacchi più vecchi erano quasi inefficaci: la loro efficacia si è ridotta a zero.
LatentBreak, tuttavia, ha dimostrato percentuali di successo che vanno dal 55% all’85%, a seconda del modello. Inoltre, la lunghezza dei suggerimenti risultanti è aumentata solo leggermente, dal 6% al 33% rispetto all’originale (per altri metodi, l’aumento poteva raggiungere migliaia di punti percentuali).
È interessante notare che LatentBreak ha funzionato con successo anche contro difese specializzate come R2D2 e Circuit Breakers. Questi sistemi analizzano i segnali interni della rete neurale e bloccano le deviazioni sospette. Tuttavia, il nuovo metodo ha continuato a dimostrare successo, suggerendo la sua capacità di “ingannare” il modello non attraverso il rumore esterno, ma perfezionando le sue rappresentazioni interne.
Gli autori sottolineano che LatentBreak richiede l’accesso alle strutture nascoste dell’IA, quindi non è destinato all’uso al di fuori di contesti di laboratorio. Tuttavia, questo metodo dimostra gravi vulnerabilità nei moderni sistemi di allineamento e protezione. Dimostra che anche piccole modifiche semantiche a livello di parola possono aggirare completamente i filtri se spostano correttamente lo spazio latente della query.
I ricercatori sollevano anche preoccupazioni di natura etica: questa tecnologia potrebbe essere utilizzata per aggirare sistematicamente i limiti dell’intelligenza artificiale . Tuttavia, l’obiettivo del lavoro non è creare uno strumento di hacking, ma identificare le debolezze nell’architettura dei modelli linguistici e sviluppare meccanismi di difesa più robusti. Ritengono che lo studio degli spazi nascosti contribuirà a costruire barriere più resilienti e nuovi metodi di rilevamento degli attacchi che non si basino esclusivamente su metriche superficiali come la perplessità.
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Cyber ItaliaL’Italia si trova oggi davanti a una sfida digitale senza precedenti, dove la corsa all’innovazione non sempre coincide con una protezione adeguata delle infrastrutture. Pertanto la sicurezza dei sistemi connessi è diventata l’anello debole della…
Cyber NewsUna nuova vulnerabilità scoperta dal ricercatore italiano Alessandro Sgreccia (rainpwn) del gruppo HackerHood di Red Hot Cyber è stata scoperta nei dispositivi ZYXEL permette di ottenere accesso root attraverso una configurazione apparentemente innocua del servizio…
HackingLa parola hacking, deriva dal verbo inglese “to hack”, che significa “intaccare”. Oggi con questo breve articolo, vi racconterò un pezzo della storia dell’hacking, dove tutto ebbe inizio e precisamente nel piano terra dell’edificio 26…
Cyber NewsL’Italia è finita ancora una volta nel mirino del collettivo hacktivista filorusso NoName057(16). Dopo i pesanti disservizi che hanno colpito l‘Università La Sapienza e le Gallerie degli Uffizi all’inizio di questa settimana. L’offensiva digitale russa…
Cyber NewsSecondo quanto riportato dal Corriere della Sera, l’attacco informatico che ha paralizzato i sistemi dell’Università La Sapienza non sarebbe motivato da fini politici. Gli hacker avrebbero inviato messaggi di rivendicazione spiegando di non agire per…