
Deceptive Delight: l’AI nuovamente ingannata da una tecnica di hacking con il 65% di Successo
Gli esperti di Palo Alto Networks hanno sviluppato una tecnica innovativa chiamata “Deceptive Delight” per bypassare i meccanismi di difesa dei modelli di intelligenza artificiale (AI) linguistica. Questa tecnica, che unisce contenuti sicuri e non sicuri in un contesto apparentemente innocuo, inganna i modelli spingendoli a generare risposte potenzialmente dannose. Lo studio ha coinvolto circa 8.000 test su otto modelli diversi, evidenziando una vulnerabilità diffusa a questo tipo di attacchi. “Deceptive Delight” sfrutta una strategia multi-pass, dove richieste non sicure vengono inserite tra due richieste sicure. In questo modo, il modello AI non percepisce il contenuto come una minaccia, continuando a generare

