Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
LECS 970x120 1
320×100
Deceptive Delight: l’AI nuovamente ingannata da una tecnica di hacking con il 65% di Successo

Deceptive Delight: l’AI nuovamente ingannata da una tecnica di hacking con il 65% di Successo

Redazione RHC : 25 Ottobre 2024 10:03

Gli esperti di Palo Alto Networks hanno sviluppato una tecnica innovativa chiamata “Deceptive Delight” per bypassare i meccanismi di difesa dei modelli di intelligenza artificiale (AI) linguistica. Questa tecnica, che unisce contenuti sicuri e non sicuri in un contesto apparentemente innocuo, inganna i modelli spingendoli a generare risposte potenzialmente dannose. Lo studio ha coinvolto circa 8.000 test su otto modelli diversi, evidenziando una vulnerabilità diffusa a questo tipo di attacchi.

“Deceptive Delight” sfrutta una strategia multi-pass, dove richieste non sicure vengono inserite tra due richieste sicure. In questo modo, il modello AI non percepisce il contenuto come una minaccia, continuando a generare risposte senza attivare i filtri di sicurezza.

L’attacco ha un tasso di successo del 65% in sole tre iterazioni, dimostrando la sua elevata efficacia nel bypassare i filtri standard.


Rhc Conference Sponsor Program 2

Sponsorizza la prossima Red Hot Cyber Conference!
Il giorno Lunedì 18 maggio e martedì 19 maggio 2026 9 maggio 2026, presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terrà la V edizione della la RHC Conference
Si tratta dell’appuntamento annuale gratuito, creato dalla community di RHC, per far accrescere l’interesse verso le tecnologie digitali, l’innovazione digitale e la consapevolezza del rischio informatico. 
Se sei interessato a sponsorizzare l'evento e a rendere la tua azienda protagonista del più grande evento della Cybersecurity Italiana, non perdere questa opportunità. E ricorda che assieme alla sponsorizzazione della conferenza, incluso nel prezzo, avrai un pacchetto di Branding sul sito di Red Hot Cyber composto da Banner più un numero di articoli che saranno ospitati all'interno del nostro portale. 
Quindi cosa stai aspettando? Scrivici subito a [email protected] per maggiori informazioni e per accedere al programma sponsor e al media Kit di Red Hot Cyber.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Il processo di attacco si suddivide in tre fasi: preparazione, query iniziale, e approfondimento degli argomenti. In particolare, la terza fase, in cui si richiede un’ulteriore espansione del contenuto, è quella in cui i modelli iniziano a generare dettagli non sicuri in maniera più specifica, confermando l’efficacia della tecnica multi-percorso. Con questa metodologia, il tasso di successo aumenta sensibilmente rispetto agli attacchi diretti.

Gli attacchi hanno avuto successo variabile a seconda della categoria del contenuto non sicuro. I modelli sono risultati più vulnerabili a richieste legate alla violenza e agli atti pericolosi, mentre le risposte relative a contenuti sessuali e incitazioni all’odio sono state gestite con maggiore attenzione. Questa differenza suggerisce una maggiore sensibilità dei modelli verso alcune categorie di contenuti.

Palo Alto Networks ha inoltre sottolineato l’importanza di una progettazione delle query più strutturata e di soluzioni multi-livello per il filtraggio dei contenuti. Tra le raccomandazioni rientrano l’adozione di servizi come OpenAI Moderation e Meta Llama-Guard, insieme a test regolari sui modelli per rafforzare i sistemi di difesa e ridurre le vulnerabilità.

I risultati di questa ricerca sono stati condivisi con la Cyber Threat Alliance (CTA) per una rapida implementazione di misure preventive. Palo Alto sottolinea che il problema, pur evidenziando punti deboli nell’attuale tecnologia AI, non mina la sicurezza dei modelli in generale, ma sottolinea la necessità di miglioramenti continui per affrontare nuove minacce.

Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Google è pronta a lanciare Gemini 3.0: sarà davvero la svolta nella corsa all’AI?
Di Redazione RHC - 16/11/2025

Google si avvicina alla presentazione ufficiale di Gemini 3.0, il nuovo modello di intelligenza artificiale destinato a rappresentare uno dei passaggi più rilevanti nella strategia dell’azienda. Se...

Immagine del sito
Il Louvre ingannato da due burloni belgi! Hanno appeso un loro dipinto accanto alla Gioconda
Di Redazione RHC - 16/11/2025

La sicurezza del Louvre è di nuovo sotto accusa dopo che alcuni burloni sono riusciti a ingannare le guardie e ad appendere il loro dipinto nella stessa stanza della Monna Lisa. Il duo belga Neel e S...

Immagine del sito
I black hacker chiedono il Riscatto? Checkout.com risponde: finanziamo chi vi dà la caccia
Di Redazione RHC - 16/11/2025

Il servizio di pagamento Checkout.com è stato vittima di un tentativo di estorsione: il gruppo ShinyHunters ha affermato di aver avuto accesso a dati aziendali e ha chiesto un riscatto. Un’indagine...

Immagine del sito
Cina, la nuova era dei robot: Shenzhen al centro della rivoluzione tecnologica
Di Redazione RHC - 15/11/2025

I XV Giochi Nazionali della Cina si sono aperti con uno spettacolo che ha unito sport e tecnologia. Tra i protagonisti, robot capaci di suonare antichi strumenti di bronzo, sistemi di intelligenza art...

Immagine del sito
IndonesianFoods: Il worm che sta devastando npm e ha creato 100.000 pacchetti
Di Redazione RHC - 15/11/2025

Un worm auto-propagante, denominato IndonesianFoods, è stato scoperto in npm. Genera nuovi pacchetti ogni sette secondi. Secondo Sonatype, il malware ha già creato oltre 100.000 pacchetti e questo n...