
LatentBreak: un nuovo metodo di attacco per i modelli linguistici
Un gruppo di scienziati ha sviluppato un nuovo modo per attaccare modelli linguistici di grandi dimensioni: un metodo chiamato LatentBreak. A differenza delle tecniche precedenti, non utilizza suggerimenti complessi o caratteri insoliti facilmente rilevabili dai sistemi di difesa. LatentBreak modifica invece la query a livello delle rappresentazioni nascoste del modello, scegliendo formulazioni che sembrano innocue ma che in realtà innescano una risposta proibita. In precedenza, metodi come GCG, GBDA, SAA e AutoDAN tentavano di ingannare l’intelligenza artificiale con suffissi strani o confusi che distorcevano il suggerimento originale. Tali attacchi aumentano la cosiddetta perplessità, una misura di quanto “naturale” appaia il testo al










