Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
2nd Edition GlitchZone RHC 970x120 2
UtiliaCS 320x100
Deceptive Delight: l’AI nuovamente ingannata da una tecnica di hacking con il 65% di Successo

Deceptive Delight: l’AI nuovamente ingannata da una tecnica di hacking con il 65% di Successo

Redazione RHC : 25 Ottobre 2024 10:03

Gli esperti di Palo Alto Networks hanno sviluppato una tecnica innovativa chiamata “Deceptive Delight” per bypassare i meccanismi di difesa dei modelli di intelligenza artificiale (AI) linguistica. Questa tecnica, che unisce contenuti sicuri e non sicuri in un contesto apparentemente innocuo, inganna i modelli spingendoli a generare risposte potenzialmente dannose. Lo studio ha coinvolto circa 8.000 test su otto modelli diversi, evidenziando una vulnerabilità diffusa a questo tipo di attacchi.

“Deceptive Delight” sfrutta una strategia multi-pass, dove richieste non sicure vengono inserite tra due richieste sicure. In questo modo, il modello AI non percepisce il contenuto come una minaccia, continuando a generare risposte senza attivare i filtri di sicurezza.

L’attacco ha un tasso di successo del 65% in sole tre iterazioni, dimostrando la sua elevata efficacia nel bypassare i filtri standard.


Rhc Conference Sponsor Program 2

Sponsorizza la prossima Red Hot Cyber Conference!
Il giorno Lunedì 18 maggio e martedì 19 maggio 2026 9 maggio 2026, presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terrà la V edizione della la RHC Conference
Si tratta dell’appuntamento annuale gratuito, creato dalla community di RHC, per far accrescere l’interesse verso le tecnologie digitali, l’innovazione digitale e la consapevolezza del rischio informatico. 
Se sei interessato a sponsorizzare l'evento e a rendere la tua azienda protagonista del più grande evento della Cybersecurity Italiana, non perdere questa opportunità. E ricorda che assieme alla sponsorizzazione della conferenza, incluso nel prezzo, avrai un pacchetto di Branding sul sito di Red Hot Cyber composto da Banner più un numero di articoli che saranno ospitati all'interno del nostro portale. 
Quindi cosa stai aspettando? Scrivici subito a [email protected] per maggiori informazioni e per accedere al programma sponsor e al media Kit di Red Hot Cyber.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Il processo di attacco si suddivide in tre fasi: preparazione, query iniziale, e approfondimento degli argomenti. In particolare, la terza fase, in cui si richiede un’ulteriore espansione del contenuto, è quella in cui i modelli iniziano a generare dettagli non sicuri in maniera più specifica, confermando l’efficacia della tecnica multi-percorso. Con questa metodologia, il tasso di successo aumenta sensibilmente rispetto agli attacchi diretti.

Gli attacchi hanno avuto successo variabile a seconda della categoria del contenuto non sicuro. I modelli sono risultati più vulnerabili a richieste legate alla violenza e agli atti pericolosi, mentre le risposte relative a contenuti sessuali e incitazioni all’odio sono state gestite con maggiore attenzione. Questa differenza suggerisce una maggiore sensibilità dei modelli verso alcune categorie di contenuti.

Palo Alto Networks ha inoltre sottolineato l’importanza di una progettazione delle query più strutturata e di soluzioni multi-livello per il filtraggio dei contenuti. Tra le raccomandazioni rientrano l’adozione di servizi come OpenAI Moderation e Meta Llama-Guard, insieme a test regolari sui modelli per rafforzare i sistemi di difesa e ridurre le vulnerabilità.

I risultati di questa ricerca sono stati condivisi con la Cyber Threat Alliance (CTA) per una rapida implementazione di misure preventive. Palo Alto sottolinea che il problema, pur evidenziando punti deboli nell’attuale tecnologia AI, non mina la sicurezza dei modelli in generale, ma sottolinea la necessità di miglioramenti continui per affrontare nuove minacce.

Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Cloudflare va giù nel magnifico Cloud! incidente globale in fase di risoluzione
Di Redazione RHC - 18/11/2025

18 novembre 2025 – Dopo ore di malfunzionamenti diffusi, l’incidente che ha colpito la rete globale di Cloudflare sembra finalmente vicino alla risoluzione. L’azienda ha comunicato di aver imple...

Immagine del sito
Cloudflare down: siti web e servizi offline il 18 novembre 2025
Di Redazione RHC - 18/11/2025

La mattinata del 18 novembre 2025 sarà ricordata come uno dei blackout più anomali e diffusi della rete Cloudflare degli ultimi mesi. La CDN – cuore pulsante di milioni di siti web, applicazioni e...

Immagine del sito
Shakerati Anonimi: l’esperienza di Nicoletta e il thriller della carta di credito
Di Redazione RHC - 18/11/2025

La stanza è la solita: luci tenui, sedie in cerchio, termos di tisane ormai diventate fredde da quanto tutti parlano e si sfogano. Siamo gli Shakerati Anonimi, un gruppo di persone che non avrebbe ma...

Immagine del sito
La Presidenza Del Consiglio e Giorgia Meloni Advisor di Senvix? Attenzione alle truffe online!
Di Redazione RHC - 17/11/2025

Un nuovo allarme sulla sicurezza nel mondo degli investimenti online viene portato all’attenzione da Paragon sec, azienda attiva nel settore della cybersecurity, che ha pubblicato su LinkedIn un pos...

Immagine del sito
ASGARD: Conti Bancari “Made in Italy” in VENDITA a partire da 80$! Sei tra le vittime?
Di Redazione RHC - 17/11/2025

Un’indagine su forum e piattaforme online specializzate ha rivelato l’esistenza di un fiorente mercato nero di account finanziari europei. Un’entità denominata “ASGARD”, sta pubblicizzando ...