Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
Banner Ransomfeed 970x120 1
2nd Edition GlitchZone RHC 320x100 2
Deceptive Delight: l’AI nuovamente ingannata da una tecnica di hacking con il 65% di Successo

Deceptive Delight: l’AI nuovamente ingannata da una tecnica di hacking con il 65% di Successo

Redazione RHC : 25 Ottobre 2024 10:03

Gli esperti di Palo Alto Networks hanno sviluppato una tecnica innovativa chiamata “Deceptive Delight” per bypassare i meccanismi di difesa dei modelli di intelligenza artificiale (AI) linguistica. Questa tecnica, che unisce contenuti sicuri e non sicuri in un contesto apparentemente innocuo, inganna i modelli spingendoli a generare risposte potenzialmente dannose. Lo studio ha coinvolto circa 8.000 test su otto modelli diversi, evidenziando una vulnerabilità diffusa a questo tipo di attacchi.

“Deceptive Delight” sfrutta una strategia multi-pass, dove richieste non sicure vengono inserite tra due richieste sicure. In questo modo, il modello AI non percepisce il contenuto come una minaccia, continuando a generare risposte senza attivare i filtri di sicurezza.

L’attacco ha un tasso di successo del 65% in sole tre iterazioni, dimostrando la sua elevata efficacia nel bypassare i filtri standard.


Enterprise

Prova la Demo di Business Log! Adaptive SOC italiano
Log management non solo per la grande Azienda, ma una suite di Audit file, controllo USB, asset, sicurezza e un Security Operation Center PERSONALE, che ti riporta tutte le operazioni necessarie al tuo PC per tutelare i tuoi dati e informati in caso di problemi nel tuo ambiente privato o di lavoro. Scarica ora la Demo di Business Log per 30gg


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Il processo di attacco si suddivide in tre fasi: preparazione, query iniziale, e approfondimento degli argomenti. In particolare, la terza fase, in cui si richiede un’ulteriore espansione del contenuto, è quella in cui i modelli iniziano a generare dettagli non sicuri in maniera più specifica, confermando l’efficacia della tecnica multi-percorso. Con questa metodologia, il tasso di successo aumenta sensibilmente rispetto agli attacchi diretti.

Gli attacchi hanno avuto successo variabile a seconda della categoria del contenuto non sicuro. I modelli sono risultati più vulnerabili a richieste legate alla violenza e agli atti pericolosi, mentre le risposte relative a contenuti sessuali e incitazioni all’odio sono state gestite con maggiore attenzione. Questa differenza suggerisce una maggiore sensibilità dei modelli verso alcune categorie di contenuti.

Palo Alto Networks ha inoltre sottolineato l’importanza di una progettazione delle query più strutturata e di soluzioni multi-livello per il filtraggio dei contenuti. Tra le raccomandazioni rientrano l’adozione di servizi come OpenAI Moderation e Meta Llama-Guard, insieme a test regolari sui modelli per rafforzare i sistemi di difesa e ridurre le vulnerabilità.

I risultati di questa ricerca sono stati condivisi con la Cyber Threat Alliance (CTA) per una rapida implementazione di misure preventive. Palo Alto sottolinea che il problema, pur evidenziando punti deboli nell’attuale tecnologia AI, non mina la sicurezza dei modelli in generale, ma sottolinea la necessità di miglioramenti continui per affrontare nuove minacce.

Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Cos’è la Misevoluzione: l’Evoluzione Autonoma degli Agenti AI, e non è sempre buona
Di Redazione RHC - 13/11/2025

Shanghai, 11 novembre 2025 – Un nuovo studio condotto dallo Shanghai Artificial Intelligence Laboratory, in collaborazione con la Shanghai Jiao Tong University, la Renmin University of China e la Pr...

Immagine del sito
Italia e i Siti Porno: il Paese del vietato entrare… ma con un click va bene
Di Redazione RHC - 13/11/2025

Dal 12 novembre 2025, l’AGCOM ha riportato che in linea con l’art. 13-bis del decreto Caivano (dl123/2023), 47 siti per adulti raggiungibili dall’Italia avrebbero dovuto introdurre un sistema di...

Immagine del sito
Altro che Marketing! Le VPN si vendono da sole ogni volta che un governo blocca i siti per adulti
Di Redazione RHC - 11/11/2025

Centinaia di milioni di utenti di smartphone hanno dovuto affrontare il blocco dei siti web pornografici e l’obbligo di verifica dell’età. Nel Regno Unito è in vigore la verifica obbligatoria de...

Immagine del sito
Sicurezza Wi-Fi: Evoluzione da WEP a WPA3 e Reti Autodifensive
Di Francesco Demarcus - 11/11/2025

Dalle fragilità del WEP ai progressi del WPA3, la sicurezza delle reti Wi-Fi ha compiuto un lungo percorso. Oggi, le reti autodifensive rappresentano la nuova frontiera: sistemi intelligenti capaci d...

Immagine del sito
Inside Out: perché la Tristezza è il tuo miglior firewall
Di Daniela Farina - 11/11/2025

Siamo ossessionati da firewall e crittografia. Investiamo miliardi in fortezze digitali, ma le statistiche sono inesorabili: la maggior parte degli attacchi cyber non inizia con un difetto nel codice,...