Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
UtiliaCS 970x120
Banner Ransomfeed 320x100 1
Deceptive Delight: l’AI nuovamente ingannata da una tecnica di hacking con il 65% di Successo

Deceptive Delight: l’AI nuovamente ingannata da una tecnica di hacking con il 65% di Successo

Redazione RHC : 25 Ottobre 2024 10:03

Gli esperti di Palo Alto Networks hanno sviluppato una tecnica innovativa chiamata “Deceptive Delight” per bypassare i meccanismi di difesa dei modelli di intelligenza artificiale (AI) linguistica. Questa tecnica, che unisce contenuti sicuri e non sicuri in un contesto apparentemente innocuo, inganna i modelli spingendoli a generare risposte potenzialmente dannose. Lo studio ha coinvolto circa 8.000 test su otto modelli diversi, evidenziando una vulnerabilità diffusa a questo tipo di attacchi.

“Deceptive Delight” sfrutta una strategia multi-pass, dove richieste non sicure vengono inserite tra due richieste sicure. In questo modo, il modello AI non percepisce il contenuto come una minaccia, continuando a generare risposte senza attivare i filtri di sicurezza.

L’attacco ha un tasso di successo del 65% in sole tre iterazioni, dimostrando la sua elevata efficacia nel bypassare i filtri standard.


Cve Enrichment Redhotcyber

CVE Enrichment
Mentre la finestra tra divulgazione pubblica di una vulnerabilità e sfruttamento si riduce sempre di più, Red Hot Cyber ha lanciato un servizio pensato per supportare professionisti IT, analisti della sicurezza, aziende e pentester: un sistema di monitoraggio gratuito che mostra le vulnerabilità critiche pubblicate negli ultimi 3 giorni dal database NVD degli Stati Uniti e l'accesso ai loro exploit su GitHub.

Cosa trovi nel servizio:
✅ Visualizzazione immediata delle CVE con filtri per gravità e vendor.
✅ Pagine dedicate per ogni CVE con arricchimento dati (NIST, EPSS, percentile di rischio, stato di sfruttamento CISA KEV).
✅ Link ad articoli di approfondimento ed exploit correlati su GitHub, per ottenere un quadro completo della minaccia.
✅ Funzione di ricerca: inserisci un codice CVE e accedi subito a insight completi e contestualizzati.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Il processo di attacco si suddivide in tre fasi: preparazione, query iniziale, e approfondimento degli argomenti. In particolare, la terza fase, in cui si richiede un’ulteriore espansione del contenuto, è quella in cui i modelli iniziano a generare dettagli non sicuri in maniera più specifica, confermando l’efficacia della tecnica multi-percorso. Con questa metodologia, il tasso di successo aumenta sensibilmente rispetto agli attacchi diretti.

Gli attacchi hanno avuto successo variabile a seconda della categoria del contenuto non sicuro. I modelli sono risultati più vulnerabili a richieste legate alla violenza e agli atti pericolosi, mentre le risposte relative a contenuti sessuali e incitazioni all’odio sono state gestite con maggiore attenzione. Questa differenza suggerisce una maggiore sensibilità dei modelli verso alcune categorie di contenuti.

Palo Alto Networks ha inoltre sottolineato l’importanza di una progettazione delle query più strutturata e di soluzioni multi-livello per il filtraggio dei contenuti. Tra le raccomandazioni rientrano l’adozione di servizi come OpenAI Moderation e Meta Llama-Guard, insieme a test regolari sui modelli per rafforzare i sistemi di difesa e ridurre le vulnerabilità.

I risultati di questa ricerca sono stati condivisi con la Cyber Threat Alliance (CTA) per una rapida implementazione di misure preventive. Palo Alto sottolinea che il problema, pur evidenziando punti deboli nell’attuale tecnologia AI, non mina la sicurezza dei modelli in generale, ma sottolinea la necessità di miglioramenti continui per affrontare nuove minacce.

  • chatgpt
  • deep learning
  • gemini
  • hacking
  • ia
  • Intelligenza artificiale
  • lamda
  • large language model
  • LLM
  • Prompt injection
  • query
Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
GrapheneOS chiude la sua infrastruttura in Francia per motivi di sicurezza e privacy
Di Redazione RHC - 29/11/2025

Il team di GrapheneOS annuncia la chiusura completa della sua infrastruttura in Francia. Gli sviluppatori stanno accelerando il passaggio dal provider di hosting OVH e accusano dalle autorità frances...

Immagine del sito
La Russia sta deteriorando la connettività WhatsApp e si prevede che presto verrà bloccato
Di Redazione RHC - 28/11/2025

Il Roskomnadzor della Federazione Russa ha annunciato che continua a imporre restrizioni sistematiche all’app di messaggistica WhatsApp a causa di violazioni della legge russa. Secondo l’agenzia, ...

Immagine del sito
Dio è in Cloud: ti hanno hackerato il cervello e ti è piaciuto
Di Fabrizio Saviano - 28/11/2025

Siamo nell’era dell’inganno a pagamento. Ogni tuo click è un referendum privato in cui vincono sempre loro, gli algoritmi. E non sbagliano mai: ti osservano, ti profilano, ti conoscono meglio di ...

Immagine del sito
La Truffa del CEO! l’inganno che sta travolgendo le aziende italiane
Di Redazione RHC - 27/11/2025

Questa mattina Paragon Sec è stata contattata da un’azienda italiana vittima di un nuovo tentativo di frode conosciuto come Truffa del CEO. L’ufficio contabilità ha ricevuto un’e-mail urgente,...

Immagine del sito
Italia: allarme intelligenza artificiale, cliniche e referti falsi circolano online
Di Redazione RHC - 27/11/2025

i ricercatori di Check Point Software, hanno recentemente pubblicato un’indagine sull’aumento delle truffe farmaceutiche basate sull’intelligenza artificiale. È stato rilevato come i criminali ...