
Redazione RHC : 25 Ottobre 2024 10:03
Gli esperti di Palo Alto Networks hanno sviluppato una tecnica innovativa chiamata “Deceptive Delight” per bypassare i meccanismi di difesa dei modelli di intelligenza artificiale (AI) linguistica. Questa tecnica, che unisce contenuti sicuri e non sicuri in un contesto apparentemente innocuo, inganna i modelli spingendoli a generare risposte potenzialmente dannose. Lo studio ha coinvolto circa 8.000 test su otto modelli diversi, evidenziando una vulnerabilità diffusa a questo tipo di attacchi.
“Deceptive Delight” sfrutta una strategia multi-pass, dove richieste non sicure vengono inserite tra due richieste sicure. In questo modo, il modello AI non percepisce il contenuto come una minaccia, continuando a generare risposte senza attivare i filtri di sicurezza.
L’attacco ha un tasso di successo del 65% in sole tre iterazioni, dimostrando la sua elevata efficacia nel bypassare i filtri standard.

CVE Enrichment Mentre la finestra tra divulgazione pubblica di una vulnerabilità e sfruttamento si riduce sempre di più, Red Hot Cyber ha lanciato un servizio pensato per supportare professionisti IT, analisti della sicurezza, aziende e pentester: un sistema di monitoraggio gratuito che mostra le vulnerabilità critiche pubblicate negli ultimi 3 giorni dal database NVD degli Stati Uniti e l'accesso ai loro exploit su GitHub.
Cosa trovi nel servizio: ✅ Visualizzazione immediata delle CVE con filtri per gravità e vendor. ✅ Pagine dedicate per ogni CVE con arricchimento dati (NIST, EPSS, percentile di rischio, stato di sfruttamento CISA KEV). ✅ Link ad articoli di approfondimento ed exploit correlati su GitHub, per ottenere un quadro completo della minaccia. ✅ Funzione di ricerca: inserisci un codice CVE e accedi subito a insight completi e contestualizzati.
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
Il processo di attacco si suddivide in tre fasi: preparazione, query iniziale, e approfondimento degli argomenti. In particolare, la terza fase, in cui si richiede un’ulteriore espansione del contenuto, è quella in cui i modelli iniziano a generare dettagli non sicuri in maniera più specifica, confermando l’efficacia della tecnica multi-percorso. Con questa metodologia, il tasso di successo aumenta sensibilmente rispetto agli attacchi diretti.
Gli attacchi hanno avuto successo variabile a seconda della categoria del contenuto non sicuro. I modelli sono risultati più vulnerabili a richieste legate alla violenza e agli atti pericolosi, mentre le risposte relative a contenuti sessuali e incitazioni all’odio sono state gestite con maggiore attenzione. Questa differenza suggerisce una maggiore sensibilità dei modelli verso alcune categorie di contenuti.
Palo Alto Networks ha inoltre sottolineato l’importanza di una progettazione delle query più strutturata e di soluzioni multi-livello per il filtraggio dei contenuti. Tra le raccomandazioni rientrano l’adozione di servizi come OpenAI Moderation e Meta Llama-Guard, insieme a test regolari sui modelli per rafforzare i sistemi di difesa e ridurre le vulnerabilità.
I risultati di questa ricerca sono stati condivisi con la Cyber Threat Alliance (CTA) per una rapida implementazione di misure preventive. Palo Alto sottolinea che il problema, pur evidenziando punti deboli nell’attuale tecnologia AI, non mina la sicurezza dei modelli in generale, ma sottolinea la necessità di miglioramenti continui per affrontare nuove minacce.
Redazione
Il team di GrapheneOS annuncia la chiusura completa della sua infrastruttura in Francia. Gli sviluppatori stanno accelerando il passaggio dal provider di hosting OVH e accusano dalle autorità frances...

Il Roskomnadzor della Federazione Russa ha annunciato che continua a imporre restrizioni sistematiche all’app di messaggistica WhatsApp a causa di violazioni della legge russa. Secondo l’agenzia, ...

Siamo nell’era dell’inganno a pagamento. Ogni tuo click è un referendum privato in cui vincono sempre loro, gli algoritmi. E non sbagliano mai: ti osservano, ti profilano, ti conoscono meglio di ...

Questa mattina Paragon Sec è stata contattata da un’azienda italiana vittima di un nuovo tentativo di frode conosciuto come Truffa del CEO. L’ufficio contabilità ha ricevuto un’e-mail urgente,...

i ricercatori di Check Point Software, hanno recentemente pubblicato un’indagine sull’aumento delle truffe farmaceutiche basate sull’intelligenza artificiale. È stato rilevato come i criminali ...