Redazione RHC : 16 Ottobre 2025 10:36
Un gruppo di scienziati ha sviluppato un nuovo modo per attaccare modelli linguistici di grandi dimensioni: un metodo chiamato LatentBreak. A differenza delle tecniche precedenti, non utilizza suggerimenti complessi o caratteri insoliti facilmente rilevabili dai sistemi di difesa.
LatentBreak modifica invece la query a livello delle rappresentazioni nascoste del modello, scegliendo formulazioni che sembrano innocue ma che in realtà innescano una risposta proibita.
In precedenza, metodi come GCG, GBDA, SAA e AutoDAN tentavano di ingannare l’intelligenza artificiale con suffissi strani o confusi che distorcevano il suggerimento originale. Tali attacchi aumentano la cosiddetta perplessità, una misura di quanto “naturale” appaia il testo al modello. I filtri di intelligenza artificiale sono in grado di riconoscere tali schemi e bloccarli con successo.
![]() CALL FOR SPONSOR - Sponsorizza l'ottavo episodio della serie Betti-RHCSei un'azienda innovativa, che crede nella diffusione di concetti attraverso metodi "non convenzionali"? Conosci il nostro corso sul cybersecurity awareness a fumetti? Red Hot Cyber sta ricercando un nuovo sponsor per una nuova puntata del fumetto Betti-RHC mentre il team è impegnato a realizzare 3 nuovi episodi che ci sono stati commissionati. Contattaci tramite WhatsApp al numero 375 593 1011 per richiedere ulteriori informazioni oppure alla casella di posta [email protected]
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
LatentBreak adotta un approccio diverso: sostituisce singole parole con sinonimi, ma lo fa in modo da mantenere la chiarezza e il significato della query e spostarne la rappresentazione latente verso zone “sicure” che non attivano i filtri.
L’algoritmo funziona per fasi. A ogni iterazione, seleziona una parola nella query e suggerisce fino a 20 opzioni di sostituzione, generate da un altro modello linguistico (ad esempio, GPT-4o-mini o ModernBERT).
Ogni sostituzione viene quindi valutata in base a due parametri: quanto avvicina il vettore di query interno al “centro” delle query sicure e se il significato rimane invariato. Viene implementata la sostituzione migliore e la query aggiornata viene testata rispetto al modello target. Se provoca una risposta proibita precedentemente bloccata, l’attacco è considerato riuscito. Il processo viene ripetuto fino a 30 volte o fino al raggiungimento di un risultato positivo.
LatentBreak è stato testato su 13 modelli linguistici, tra cui Llama-3, Mistral-7B, Gemma-7B, Vicuna-13B e Qwen-7B. Nel set di test HarmBench, il metodo ha bypassato tutti i sistemi di difesa esistenti, inclusi quelli che analizzano la perplessità in modalità finestra scorrevole. Gli attacchi più vecchi erano quasi inefficaci: la loro efficacia si è ridotta a zero.
LatentBreak, tuttavia, ha dimostrato percentuali di successo che vanno dal 55% all’85%, a seconda del modello. Inoltre, la lunghezza dei suggerimenti risultanti è aumentata solo leggermente, dal 6% al 33% rispetto all’originale (per altri metodi, l’aumento poteva raggiungere migliaia di punti percentuali).
È interessante notare che LatentBreak ha funzionato con successo anche contro difese specializzate come R2D2 e Circuit Breakers. Questi sistemi analizzano i segnali interni della rete neurale e bloccano le deviazioni sospette. Tuttavia, il nuovo metodo ha continuato a dimostrare successo, suggerendo la sua capacità di “ingannare” il modello non attraverso il rumore esterno, ma perfezionando le sue rappresentazioni interne.
Gli autori sottolineano che LatentBreak richiede l’accesso alle strutture nascoste dell’IA, quindi non è destinato all’uso al di fuori di contesti di laboratorio. Tuttavia, questo metodo dimostra gravi vulnerabilità nei moderni sistemi di allineamento e protezione. Dimostra che anche piccole modifiche semantiche a livello di parola possono aggirare completamente i filtri se spostano correttamente lo spazio latente della query.
I ricercatori sollevano anche preoccupazioni di natura etica: questa tecnologia potrebbe essere utilizzata per aggirare sistematicamente i limiti dell’intelligenza artificiale . Tuttavia, l’obiettivo del lavoro non è creare uno strumento di hacking, ma identificare le debolezze nell’architettura dei modelli linguistici e sviluppare meccanismi di difesa più robusti. Ritengono che lo studio degli spazi nascosti contribuirà a costruire barriere più resilienti e nuovi metodi di rilevamento degli attacchi che non si basino esclusivamente su metriche superficiali come la perplessità.
Il 15 ottobre 2025 segna un anniversario di eccezionale rilievo nella storia della sicurezza nazionale italiana: cento anni dalla nascita del Servizio Informazioni Militare (SIM), primo servizio di in...
Un nuovo post sul dark web offre l’accesso completo a migliaia di server e database MySQL appartenenti a provider italiani di hosting condiviso. Nelle ultime ore è apparso su un forum underground u...
Un grave incidente di sicurezza è stato segnalato da F5, principale fornitore di soluzioni per la sicurezza e la distribuzione delle applicazioni. Era stato ottenuto l’accesso a lungo termine ai si...
Un nuovo e insolito metodo di jailbreaking, ovvero l’arte di aggirare i limiti imposti alle intelligenze artificiali, è arrivato in redazione. A idearlo è stato Alin Grigoras, ricercatore di sicur...
Nel suo ultimo aggiornamento, il colosso della tecnologia ha risolto 175 vulnerabilità che interessano i suoi prodotti principali e i sistemi sottostanti, tra cui due vulnerabilità zero-day attivame...