Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca
TM RedHotCyber 970x120 042543
Banner Mobile V1
LatentBreak: un nuovo metodo di attacco per i modelli linguistici

LatentBreak: un nuovo metodo di attacco per i modelli linguistici

Redazione RHC : 16 Ottobre 2025 10:36

Un gruppo di scienziati ha sviluppato un nuovo modo per attaccare modelli linguistici di grandi dimensioni: un metodo chiamato LatentBreak. A differenza delle tecniche precedenti, non utilizza suggerimenti complessi o caratteri insoliti facilmente rilevabili dai sistemi di difesa.

LatentBreak modifica invece la query a livello delle rappresentazioni nascoste del modello, scegliendo formulazioni che sembrano innocue ma che in realtà innescano una risposta proibita.

In precedenza, metodi come GCG, GBDA, SAA e AutoDAN tentavano di ingannare l’intelligenza artificiale con suffissi strani o confusi che distorcevano il suggerimento originale. Tali attacchi aumentano la cosiddetta perplessità, una misura di quanto “naturale” appaia il testo al modello. I filtri di intelligenza artificiale sono in grado di riconoscere tali schemi e bloccarli con successo.


Banner 600x900 Betti Rha Cybersecurity Awareness

Cybersecurity Awareness per la tua azienda? Scopri BETTI RHC!

Sei un'azienda innovativa, che crede nella diffusione di concetti attraverso metodi "non convenzionali"? 
Red hot cyber ha sviluppato da diversi anni una Graphic Novel, l'unica nel suo genere nel mondo, che consente di formare i dipendenti sulla sicurezza informatica attraverso la lettura di un fumetto.
Scopri di più sul corso a fumetti di Red Hot Cyber. Contattaci tramite WhatsApp al numero 375 593 1011 per richiedere ulteriori informazioni oppure alla casella di posta [email protected]


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

LatentBreak adotta un approccio diverso: sostituisce singole parole con sinonimi, ma lo fa in modo da mantenere la chiarezza e il significato della query e spostarne la rappresentazione latente verso zone “sicure” che non attivano i filtri.

L’algoritmo funziona per fasi. A ogni iterazione, seleziona una parola nella query e suggerisce fino a 20 opzioni di sostituzione, generate da un altro modello linguistico (ad esempio, GPT-4o-mini o ModernBERT).

Ogni sostituzione viene quindi valutata in base a due parametri: quanto avvicina il vettore di query interno al “centro” delle query sicure e se il significato rimane invariato. Viene implementata la sostituzione migliore e la query aggiornata viene testata rispetto al modello target. Se provoca una risposta proibita precedentemente bloccata, l’attacco è considerato riuscito. Il processo viene ripetuto fino a 30 volte o fino al raggiungimento di un risultato positivo.

LatentBreak è stato testato su 13 modelli linguistici, tra cui Llama-3, Mistral-7B, Gemma-7B, Vicuna-13B e Qwen-7B. Nel set di test HarmBench, il metodo ha bypassato tutti i sistemi di difesa esistenti, inclusi quelli che analizzano la perplessità in modalità finestra scorrevole. Gli attacchi più vecchi erano quasi inefficaci: la loro efficacia si è ridotta a zero.

LatentBreak, tuttavia, ha dimostrato percentuali di successo che vanno dal 55% all’85%, a seconda del modello. Inoltre, la lunghezza dei suggerimenti risultanti è aumentata solo leggermente, dal 6% al 33% rispetto all’originale (per altri metodi, l’aumento poteva raggiungere migliaia di punti percentuali).

È interessante notare che LatentBreak ha funzionato con successo anche contro difese specializzate come R2D2 e Circuit Breakers. Questi sistemi analizzano i segnali interni della rete neurale e bloccano le deviazioni sospette. Tuttavia, il nuovo metodo ha continuato a dimostrare successo, suggerendo la sua capacità di “ingannare” il modello non attraverso il rumore esterno, ma perfezionando le sue rappresentazioni interne.

Gli autori sottolineano che LatentBreak richiede l’accesso alle strutture nascoste dell’IA, quindi non è destinato all’uso al di fuori di contesti di laboratorio. Tuttavia, questo metodo dimostra gravi vulnerabilità nei moderni sistemi di allineamento e protezione. Dimostra che anche piccole modifiche semantiche a livello di parola possono aggirare completamente i filtri se spostano correttamente lo spazio latente della query.

I ricercatori sollevano anche preoccupazioni di natura etica: questa tecnologia potrebbe essere utilizzata per aggirare sistematicamente i limiti dell’intelligenza artificiale . Tuttavia, l’obiettivo del lavoro non è creare uno strumento di hacking, ma identificare le debolezze nell’architettura dei modelli linguistici e sviluppare meccanismi di difesa più robusti. Ritengono che lo studio degli spazi nascosti contribuirà a costruire barriere più resilienti e nuovi metodi di rilevamento degli attacchi che non si basino esclusivamente su metriche superficiali come la perplessità.

Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Allarme: migliaia di siti italiani a rischio! 526.000 siti e 6.500 db in vendita nel Darkweb
Di Luca Stivali - 16/10/2025

Un nuovo post sul dark web offre l’accesso completo a migliaia di server e database MySQL appartenenti a provider italiani di hosting condiviso. Nelle ultime ore è apparso su un forum underground u...

Immagine del sito
F5 subisce una violazione di sicurezza: codice sorgente e dati sensibili rubati
Di Redazione RHC - 16/10/2025

Un grave incidente di sicurezza è stato segnalato da F5, principale fornitore di soluzioni per la sicurezza e la distribuzione delle applicazioni. Era stato ottenuto l’accesso a lungo termine ai si...

Immagine del sito
Il “Double Bind” porta al Jailbreak di GPT-5: L’AI che è stata convinta di essere schizofrenica
Di Luca Vinciguerra - 15/10/2025

Un nuovo e insolito metodo di jailbreaking, ovvero l’arte di aggirare i limiti imposti alle intelligenze artificiali, è arrivato in redazione. A idearlo è stato Alin Grigoras, ricercatore di sicur...

Immagine del sito
Microsoft Patch Tuesday col botto! 175 bug corretti e due zero-day sfruttati
Di Redazione RHC - 14/10/2025

Nel suo ultimo aggiornamento, il colosso della tecnologia ha risolto 175 vulnerabilità che interessano i suoi prodotti principali e i sistemi sottostanti, tra cui due vulnerabilità zero-day attivame...

Immagine del sito
Internet Explorer è “morto”, ma continua a infettare con i suoi bug i PC tramite Edge
Di Luca Galuppi - 14/10/2025

Nonostante Internet Explorer sia ufficialmente fuori supporto dal giugno 2022, Microsoft ha recentemente dovuto affrontare una minaccia che sfrutta la modalità Internet Explorer (IE Mode) in Edge, pr...