Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca
970x20 Itcentric
Banner Ancharia Mobile 1
Deceptive Delight: l’AI nuovamente ingannata da una tecnica di hacking con il 65% di Successo

Deceptive Delight: l’AI nuovamente ingannata da una tecnica di hacking con il 65% di Successo

Redazione RHC : 25 Ottobre 2024 10:03

Gli esperti di Palo Alto Networks hanno sviluppato una tecnica innovativa chiamata “Deceptive Delight” per bypassare i meccanismi di difesa dei modelli di intelligenza artificiale (AI) linguistica. Questa tecnica, che unisce contenuti sicuri e non sicuri in un contesto apparentemente innocuo, inganna i modelli spingendoli a generare risposte potenzialmente dannose. Lo studio ha coinvolto circa 8.000 test su otto modelli diversi, evidenziando una vulnerabilità diffusa a questo tipo di attacchi.

“Deceptive Delight” sfrutta una strategia multi-pass, dove richieste non sicure vengono inserite tra due richieste sicure. In questo modo, il modello AI non percepisce il contenuto come una minaccia, continuando a generare risposte senza attivare i filtri di sicurezza.

L’attacco ha un tasso di successo del 65% in sole tre iterazioni, dimostrando la sua elevata efficacia nel bypassare i filtri standard.


Nuovo Fumetto Betti

CALL FOR SPONSOR - Sponsorizza l'ottavo episodio della serie Betti-RHC

Sei un'azienda innovativa, che crede nella diffusione di concetti attraverso metodi "non convenzionali"? 
Conosci il nostro corso sul cybersecurity awareness a fumetti? 
Red Hot Cyber sta ricercando un nuovo sponsor per una nuova puntata del fumetto Betti-RHC mentre il team è impegnato a realizzare 3 nuovi episodi che ci sono stati commissionati. 
Contattaci tramite WhatsApp al numero 375 593 1011 per richiedere ulteriori informazioni oppure alla casella di posta [email protected]


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Il processo di attacco si suddivide in tre fasi: preparazione, query iniziale, e approfondimento degli argomenti. In particolare, la terza fase, in cui si richiede un’ulteriore espansione del contenuto, è quella in cui i modelli iniziano a generare dettagli non sicuri in maniera più specifica, confermando l’efficacia della tecnica multi-percorso. Con questa metodologia, il tasso di successo aumenta sensibilmente rispetto agli attacchi diretti.

Gli attacchi hanno avuto successo variabile a seconda della categoria del contenuto non sicuro. I modelli sono risultati più vulnerabili a richieste legate alla violenza e agli atti pericolosi, mentre le risposte relative a contenuti sessuali e incitazioni all’odio sono state gestite con maggiore attenzione. Questa differenza suggerisce una maggiore sensibilità dei modelli verso alcune categorie di contenuti.

Palo Alto Networks ha inoltre sottolineato l’importanza di una progettazione delle query più strutturata e di soluzioni multi-livello per il filtraggio dei contenuti. Tra le raccomandazioni rientrano l’adozione di servizi come OpenAI Moderation e Meta Llama-Guard, insieme a test regolari sui modelli per rafforzare i sistemi di difesa e ridurre le vulnerabilità.

I risultati di questa ricerca sono stati condivisi con la Cyber Threat Alliance (CTA) per una rapida implementazione di misure preventive. Palo Alto sottolinea che il problema, pur evidenziando punti deboli nell’attuale tecnologia AI, non mina la sicurezza dei modelli in generale, ma sottolinea la necessità di miglioramenti continui per affrontare nuove minacce.

Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
100 anni di Intelligence italiana! Mattarella celebra il centenario del SIM al Quirinale
Di Redazione RHC - 16/10/2025

Il 15 ottobre 2025 segna un anniversario di eccezionale rilievo nella storia della sicurezza nazionale italiana: cento anni dalla nascita del Servizio Informazioni Militare (SIM), primo servizio di in...

Immagine del sito
Allarme: migliaia di siti italiani a rischio! 526.000 siti e 6.500 db in vendita nel Darkweb
Di Luca Stivali - 16/10/2025

Un nuovo post sul dark web offre l’accesso completo a migliaia di server e database MySQL appartenenti a provider italiani di hosting condiviso. Nelle ultime ore è apparso su un forum underground u...

Immagine del sito
F5 subisce una violazione di sicurezza: codice sorgente e dati sensibili rubati
Di Redazione RHC - 16/10/2025

Un grave incidente di sicurezza è stato segnalato da F5, principale fornitore di soluzioni per la sicurezza e la distribuzione delle applicazioni. Era stato ottenuto l’accesso a lungo termine ai si...

Immagine del sito
Il “Double Bind” porta al Jailbreak di GPT-5: L’AI che è stata convinta di essere schizofrenica
Di Luca Vinciguerra - 15/10/2025

Un nuovo e insolito metodo di jailbreaking, ovvero l’arte di aggirare i limiti imposti alle intelligenze artificiali, è arrivato in redazione. A idearlo è stato Alin Grigoras, ricercatore di sicur...

Immagine del sito
Microsoft Patch Tuesday col botto! 175 bug corretti e due zero-day sfruttati
Di Redazione RHC - 14/10/2025

Nel suo ultimo aggiornamento, il colosso della tecnologia ha risolto 175 vulnerabilità che interessano i suoi prodotti principali e i sistemi sottostanti, tra cui due vulnerabilità zero-day attivame...