
Un gruppo di scienziati ha sviluppato un nuovo modo per attaccare modelli linguistici di grandi dimensioni: un metodo chiamato LatentBreak. A differenza delle tecniche precedenti, non utilizza suggerimenti complessi o caratteri insoliti facilmente rilevabili dai sistemi di difesa.
LatentBreak modifica invece la query a livello delle rappresentazioni nascoste del modello, scegliendo formulazioni che sembrano innocue ma che in realtà innescano una risposta proibita.
In precedenza, metodi come GCG, GBDA, SAA e AutoDAN tentavano di ingannare l’intelligenza artificiale con suffissi strani o confusi che distorcevano il suggerimento originale. Tali attacchi aumentano la cosiddetta perplessità, una misura di quanto “naturale” appaia il testo al modello. I filtri di intelligenza artificiale sono in grado di riconoscere tali schemi e bloccarli con successo.
Christmas Sale -40% 𝗖𝗵𝗿𝗶𝘀𝘁𝗺𝗮𝘀 𝗦𝗮𝗹𝗲! Sconto del 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮 del Corso "Dark Web & Cyber Threat Intelligence" in modalità E-Learning sulla nostra Academy!🚀
Fino al 𝟯𝟭 𝗱𝗶 𝗗𝗶𝗰𝗲𝗺𝗯𝗿𝗲, prezzi pazzi alla Red Hot Cyber Academy. 𝗧𝘂𝘁𝘁𝗶 𝗶 𝗰𝗼𝗿𝘀𝗶 𝘀𝗰𝗼𝗻𝘁𝗮𝘁𝗶 𝗱𝗲𝗹 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮.
Per beneficiare della promo sconto Christmas Sale, scrivici ad [email protected] o contattaci su Whatsapp al numero di telefono: 379 163 8765.
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
LatentBreak adotta un approccio diverso: sostituisce singole parole con sinonimi, ma lo fa in modo da mantenere la chiarezza e il significato della query e spostarne la rappresentazione latente verso zone “sicure” che non attivano i filtri.
L’algoritmo funziona per fasi. A ogni iterazione, seleziona una parola nella query e suggerisce fino a 20 opzioni di sostituzione, generate da un altro modello linguistico (ad esempio, GPT-4o-mini o ModernBERT).
Ogni sostituzione viene quindi valutata in base a due parametri: quanto avvicina il vettore di query interno al “centro” delle query sicure e se il significato rimane invariato. Viene implementata la sostituzione migliore e la query aggiornata viene testata rispetto al modello target. Se provoca una risposta proibita precedentemente bloccata, l’attacco è considerato riuscito. Il processo viene ripetuto fino a 30 volte o fino al raggiungimento di un risultato positivo.
LatentBreak è stato testato su 13 modelli linguistici, tra cui Llama-3, Mistral-7B, Gemma-7B, Vicuna-13B e Qwen-7B. Nel set di test HarmBench, il metodo ha bypassato tutti i sistemi di difesa esistenti, inclusi quelli che analizzano la perplessità in modalità finestra scorrevole. Gli attacchi più vecchi erano quasi inefficaci: la loro efficacia si è ridotta a zero.
LatentBreak, tuttavia, ha dimostrato percentuali di successo che vanno dal 55% all’85%, a seconda del modello. Inoltre, la lunghezza dei suggerimenti risultanti è aumentata solo leggermente, dal 6% al 33% rispetto all’originale (per altri metodi, l’aumento poteva raggiungere migliaia di punti percentuali).
È interessante notare che LatentBreak ha funzionato con successo anche contro difese specializzate come R2D2 e Circuit Breakers. Questi sistemi analizzano i segnali interni della rete neurale e bloccano le deviazioni sospette. Tuttavia, il nuovo metodo ha continuato a dimostrare successo, suggerendo la sua capacità di “ingannare” il modello non attraverso il rumore esterno, ma perfezionando le sue rappresentazioni interne.
Gli autori sottolineano che LatentBreak richiede l’accesso alle strutture nascoste dell’IA, quindi non è destinato all’uso al di fuori di contesti di laboratorio. Tuttavia, questo metodo dimostra gravi vulnerabilità nei moderni sistemi di allineamento e protezione. Dimostra che anche piccole modifiche semantiche a livello di parola possono aggirare completamente i filtri se spostano correttamente lo spazio latente della query.
I ricercatori sollevano anche preoccupazioni di natura etica: questa tecnologia potrebbe essere utilizzata per aggirare sistematicamente i limiti dell’intelligenza artificiale . Tuttavia, l’obiettivo del lavoro non è creare uno strumento di hacking, ma identificare le debolezze nell’architettura dei modelli linguistici e sviluppare meccanismi di difesa più robusti. Ritengono che lo studio degli spazi nascosti contribuirà a costruire barriere più resilienti e nuovi metodi di rilevamento degli attacchi che non si basino esclusivamente su metriche superficiali come la perplessità.
Seguici su Google News, LinkedIn, Facebook e Instagram per ricevere aggiornamenti quotidiani sulla sicurezza informatica. Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.


L’Autorità Garante della Concorrenza e del Mercato italiana (AGCM) ha imposto una sanzione significativa ad Apple. La sanzione ammonta a 98,6 milioni di euro, ovvero circa 115 milioni di dollari. ed è relativa a al…

“Salve.” Non “Gentile”, non “Spettabile”, non nome e cognome.Solo “Salve.” A leggerla così, fa quasi tenerezza. Sembra l’inizio di una mail scritta di corsa, magari riciclata da un modello vecchio, senza nemmeno lo sforzo di…

In Italia la cybersicurezza non è più un tema da “reparto IT”. È una questione di sicurezza nazionale, resilienza economica e tenuta democratica. Se si leggono insieme tre livelli di fonte pubblica — Relazione annuale…

Gli hacker amano sfruttare i tool più innocui per infiltrarsi nelle reti dei loro obiettivi e questo noi tutti lo sappiamo. E, in questo caso, stanno puntando a PuTTY, il client SSH popolare. È come…

I criminali informatici stanno diventando sempre più furbi e hanno trovato un nuovo modo per sfruttare i protocolli di sicurezza aziendali. Sembra incredibile, ma è vero: stanno usando una funzionalità di autenticazione Microsoft legittima per…