
Redazione RHC : 16 Ottobre 2025 10:36
Un gruppo di scienziati ha sviluppato un nuovo modo per attaccare modelli linguistici di grandi dimensioni: un metodo chiamato LatentBreak. A differenza delle tecniche precedenti, non utilizza suggerimenti complessi o caratteri insoliti facilmente rilevabili dai sistemi di difesa.
LatentBreak modifica invece la query a livello delle rappresentazioni nascoste del modello, scegliendo formulazioni che sembrano innocue ma che in realtà innescano una risposta proibita.
In precedenza, metodi come GCG, GBDA, SAA e AutoDAN tentavano di ingannare l’intelligenza artificiale con suffissi strani o confusi che distorcevano il suggerimento originale. Tali attacchi aumentano la cosiddetta perplessità, una misura di quanto “naturale” appaia il testo al modello. I filtri di intelligenza artificiale sono in grado di riconoscere tali schemi e bloccarli con successo.
Prova la Demo di Business Log! Adaptive SOC italiano Log management non solo per la grande Azienda, ma una suite di Audit file, controllo USB, asset, sicurezza e un Security Operation Center PERSONALE, che ti riporta tutte le operazioni necessarie al tuo PC per tutelare i tuoi dati e informati in caso di problemi nel tuo ambiente privato o di lavoro.
Scarica ora la Demo di Business Log per 30gg
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
LatentBreak adotta un approccio diverso: sostituisce singole parole con sinonimi, ma lo fa in modo da mantenere la chiarezza e il significato della query e spostarne la rappresentazione latente verso zone “sicure” che non attivano i filtri.
L’algoritmo funziona per fasi. A ogni iterazione, seleziona una parola nella query e suggerisce fino a 20 opzioni di sostituzione, generate da un altro modello linguistico (ad esempio, GPT-4o-mini o ModernBERT).
Ogni sostituzione viene quindi valutata in base a due parametri: quanto avvicina il vettore di query interno al “centro” delle query sicure e se il significato rimane invariato. Viene implementata la sostituzione migliore e la query aggiornata viene testata rispetto al modello target. Se provoca una risposta proibita precedentemente bloccata, l’attacco è considerato riuscito. Il processo viene ripetuto fino a 30 volte o fino al raggiungimento di un risultato positivo.
LatentBreak è stato testato su 13 modelli linguistici, tra cui Llama-3, Mistral-7B, Gemma-7B, Vicuna-13B e Qwen-7B. Nel set di test HarmBench, il metodo ha bypassato tutti i sistemi di difesa esistenti, inclusi quelli che analizzano la perplessità in modalità finestra scorrevole. Gli attacchi più vecchi erano quasi inefficaci: la loro efficacia si è ridotta a zero.
LatentBreak, tuttavia, ha dimostrato percentuali di successo che vanno dal 55% all’85%, a seconda del modello. Inoltre, la lunghezza dei suggerimenti risultanti è aumentata solo leggermente, dal 6% al 33% rispetto all’originale (per altri metodi, l’aumento poteva raggiungere migliaia di punti percentuali).
È interessante notare che LatentBreak ha funzionato con successo anche contro difese specializzate come R2D2 e Circuit Breakers. Questi sistemi analizzano i segnali interni della rete neurale e bloccano le deviazioni sospette. Tuttavia, il nuovo metodo ha continuato a dimostrare successo, suggerendo la sua capacità di “ingannare” il modello non attraverso il rumore esterno, ma perfezionando le sue rappresentazioni interne.
Gli autori sottolineano che LatentBreak richiede l’accesso alle strutture nascoste dell’IA, quindi non è destinato all’uso al di fuori di contesti di laboratorio. Tuttavia, questo metodo dimostra gravi vulnerabilità nei moderni sistemi di allineamento e protezione. Dimostra che anche piccole modifiche semantiche a livello di parola possono aggirare completamente i filtri se spostano correttamente lo spazio latente della query.
I ricercatori sollevano anche preoccupazioni di natura etica: questa tecnologia potrebbe essere utilizzata per aggirare sistematicamente i limiti dell’intelligenza artificiale . Tuttavia, l’obiettivo del lavoro non è creare uno strumento di hacking, ma identificare le debolezze nell’architettura dei modelli linguistici e sviluppare meccanismi di difesa più robusti. Ritengono che lo studio degli spazi nascosti contribuirà a costruire barriere più resilienti e nuovi metodi di rilevamento degli attacchi che non si basino esclusivamente su metriche superficiali come la perplessità.
Redazione
Nel mese di Settembre è uscita una nuova vulnerabilità che riguarda Notepad++. La vulnerabilità è stata identificata con la CVE-2025-56383 i dettagli possono essere consultati nel sito del NIST. L...

Gli aggressori stanno utilizzando una tecnica avanzata che implica il caricamento laterale di DLL tramite l’applicazione Microsoft OneDrive. In questo modo riescono ad eseguire codice malevolo senza...

I ladri sono entrati attraverso una finestra del secondo piano del Musée du Louvre, ma il museo aveva avuto anche altri problemi oltre alle finestre non protette, secondo un rapporto di audit sulla s...

Reuters ha riferito che Trump ha detto ai giornalisti durante un’intervista preregistrata nel programma “60 Minutes” della CBS e sull’Air Force One durante il viaggio di ritorno: “I chip pi�...

Il primo computer quantistico atomico cinese ha raggiunto un importante traguardo commerciale, registrando le sue prime vendite a clienti nazionali e internazionali, secondo quanto riportato dai media...