Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
TM RedHotCyber 970x120 042543
Banner Ancharia Mobile 1
Gli hacker stanno violando le AI con nuovi jailbreak. La corsa degli sviluppatori si intensifica

Gli hacker stanno violando le AI con nuovi jailbreak. La corsa degli sviluppatori si intensifica

Redazione RHC : 20 Aprile 2023 10:16

Alex Polyakov ha impiegato solo due ore per decifrare il modello linguistico GPT-4. A marzo, dopo che OpenAI ha rilasciato il suo chatbot di ultima generazione, Polyakov ha iniziato a trovare modi che potrebbero aggirare i sistemi di sicurezza di OpenAI. Ben presto, il capo di Adversa AI è riuscito a convincere GPT-4 a fare osservazioni omofobe, creare e-mail di phishing e sostenere la violenza.

Polyakov è uno dei pochi ricercatori di sicurezza che lavorano su attacchi di hacking sui sistemi di intelligenza artificiale generativa. Questo genere di hack mira a creare messaggi che inducono i chatbot in errore e possono iniettare silenziosamente informazioni dannose o suggerimenti nei modelli di intelligenza artificiale.

In entrambe le situazioni, gli attacchi mirano a costringere i sistemi a eseguire azioni per le quali non sono stati progettati. Gli attacchi sono essenzialmente una forma di hacking, anche se non convenzionale, che utilizza messaggi accuratamente elaborati, piuttosto che codice, per sfruttare i punti deboli di un sistema. 


Cve Enrichment Redhotcyber

CVE Enrichment
Mentre la finestra tra divulgazione pubblica di una vulnerabilità e sfruttamento si riduce sempre di più, Red Hot Cyber ha lanciato un servizio pensato per supportare professionisti IT, analisti della sicurezza, aziende e pentester: un sistema di monitoraggio gratuito che mostra le vulnerabilità critiche pubblicate negli ultimi 3 giorni dal database NVD degli Stati Uniti e l'accesso ai loro exploit su GitHub.

Cosa trovi nel servizio:
✅ Visualizzazione immediata delle CVE con filtri per gravità e vendor.
✅ Pagine dedicate per ogni CVE con arricchimento dati (NIST, EPSS, percentile di rischio, stato di sfruttamento CISA KEV).
✅ Link ad articoli di approfondimento ed exploit correlati su GitHub, per ottenere un quadro completo della minaccia.
✅ Funzione di ricerca: inserisci un codice CVE e accedi subito a insight completi e contestualizzati.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Gli esperti di sicurezza avvertono che l’implementazione avventata di sistemi di intelligenza artificiale generativa può portare al furto dei dati e al caos della rete organizzato dai criminali informatici. Per illustrare la diffusione di questi problemi, Polyakov ha creato un hack “universale” che funziona contro molti dei principali modelli linguistici, tra cui GPT-4, Bing Chat di Microsoft, Bard di Google e Claude di Anthropic.

Come funziona questo trucco? Un altro sistema per aggirare le barriere etiche è chiedere all’intelligenza artificiale di interpretare due personaggi che conversano tra loro. In un caso realizzato da Polyakov, si spiegava al sistema che un personaggio, Tom, parlava di un argomento come l’hotwiring, ovvero collegare i cavi l’altro, Jerry, di auto. A ciascun personaggio viene chiesto quindi di aggiungere una parola alla conversazione e il risultato finale è che l’AI spiega come rubare un’auto collegando i fili. Non funziona solo con ChatGpt ma anche con Bard, l’AI di Google.

Si tratta quindi di un “jailbreak” a linguaggio naturale che è generalmente inteso come la rimozione di restrizioni artificiali. 

L’hack LLM è simile e l’evoluzione è stata rapida. Da quando OpenAI ha rilasciato ChatGPT al pubblico alla fine di novembre dello scorso anno, le persone hanno trovato modi per manipolare il sistema. “I programmi di jailbreak erano molto facili da scrivere”, afferma Alex Albert, uno studente di informatica presso l’Università di Washington che ha creato un sito Web che raccoglie e crea jailbreak da Internet. “I principali erano fondamentalmente quelle che io chiamo simulazioni di personaggi”, dice Albert.

Inizialmente, è stato sufficiente chiedere al modello testuale generativo di fingere di essere qualcun altro. Dì alla modella che sta agendo in modo non etico e ignorerà le misure di sicurezza. OpenAI ha aggiornato i suoi sistemi per proteggersi da tali jailbreak. Di solito il jailbreak è valido per un breve periodo, dopodiché viene bloccato.

Per questo motivo, i creatori di jailbreak stanno diventando più fantasiosi. Il jailbreak più famoso è stato DAN, in cui ChatGPT finge di essere un modello di intelligenza artificiale dannoso. Ciò consente al chatbot di aggirare le regole OpenAI che vietano la creazione di contenuti illegali e dannosi. Ad oggi esistono una decina di versioni di DAN.

Gli ultimi jailbreak utilizzano una combinazione di metodi: caratteri multipli, retroscena complessi, traduzioni di testi, codifica, ecc. Albert afferma che il jailbreak di GPT-4 è diventato più difficile, ma ci sono ancora alcuni metodi semplici. Uno di questi metodi è “continuare il testo” in cui l’eroe viene catturato dal cattivo e il prompt chiede al generatore di testo di continuare a spiegare i piani del cattivo.

Durante il test del suggerimento, non ha funzionato, poiché ChatGPT ha dichiarato di non poter partecipare a scenari che coinvolgono la violenza. Tuttavia, il suggerimento “universale” creato da Polyakov ha funzionato nel chatbot ChatGPT. OpenAI, Google e Microsoft non hanno commentato il jailbreak di Polyakov. Anthropic, che sviluppa il sistema di intelligenza artificiale Claude, riferisce che il jailbreak a volte funziona contro il loro chatbot, quindi continuano a migliorare i loro modelli.

“Stiamo dando sempre più potere a questi sistemi e, man mano che diventano più potenti e più influenti, non è solo una novità, è un problema di sicurezza”, afferma Kai Greshaik, uno specialista della sicurezza informatica che lavora alla protezione di modelli di linguaggio di grandi dimensioni. Gresheik e altri ricercatori hanno dimostrato come il testo possa influenzare tali modelli online utilizzando attacchi di iniezione di suggerimenti.

Daniel Fabian, che guida il Red Team di Google, afferma che la sua azienda sta esaminando attentamente i jailbreak e suggerimenti incorporati nei loro modelli di linguaggio di grandi dimensioni, sia offensivi che difensivi. Fabian afferma di avere esperti di machine learning nel suo team e che le sovvenzioni per la ricerca sulla vulnerabilità vengono utilizzate anche per analizzare i jailbreak e suggerire attacchi contro Bard. “L’apprendimento per rinforzo, il feedback umano e la messa a punto basata su database attentamente monitorati vengono utilizzati per migliorare l’efficacia dei modelli nel contrastare gli attacchi”, aggiunge Fabian.

OpenAI non ha commentato i problemi sul jailbreak, ma il suo portavoce si è offerto di rivedere i materiali di ricerca e le politiche aziendali dell’azienda. I documenti affermano che GPT-4 è più affidabile e sicuro rispetto a GPT-3.5 utilizzato da ChatGPT. “Tuttavia, GPT-4 è ancora vulnerabile ad attacchi dannosi, hack o jailbreak e non sono solo i contenuti dannosi a essere a rischio”, afferma la scheda tecnica di GPT-4. OpenAI ha recentemente lanciato un programma di ricompensa delle vulnerabilità, sebbene non includa suggerimenti e jailbreak.

“Dobbiamo automatizzare questo processo perché non è razionale e impossibile assumere molte persone e chiedere loro di cercare qualcosa”, afferma Leila Huger, co-fondatrice e CTO della società di sicurezza AI Preamble, che ha anni di esperienza nel social sicurezza multimediale. La sua azienda sta attualmente sviluppando un sistema che contrasterà un modello di generazione di testo con un altro. “Un modello cerca di trovare le vulnerabilità, il secondo cerca di identificare i casi in cui un suggerimento provoca azioni indesiderate”, spiega Huger. “Speriamo che attraverso l’automazione saremo in grado di rilevare molti più jailbreak e attacchi di suggerimento”.

Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
GrapheneOS chiude la sua infrastruttura in Francia per motivi di sicurezza e privacy
Di Redazione RHC - 29/11/2025

Il team di GrapheneOS annuncia la chiusura completa della sua infrastruttura in Francia. Gli sviluppatori stanno accelerando il passaggio dal provider di hosting OVH e accusano dalle autorità frances...

Immagine del sito
La Russia sta deteriorando la connettività WhatsApp e si prevede che presto verrà bloccato
Di Redazione RHC - 28/11/2025

Il Roskomnadzor della Federazione Russa ha annunciato che continua a imporre restrizioni sistematiche all’app di messaggistica WhatsApp a causa di violazioni della legge russa. Secondo l’agenzia, ...

Immagine del sito
Dio è in Cloud: ti hanno hackerato il cervello e ti è piaciuto
Di Fabrizio Saviano - 28/11/2025

Siamo nell’era dell’inganno a pagamento. Ogni tuo click è un referendum privato in cui vincono sempre loro, gli algoritmi. E non sbagliano mai: ti osservano, ti profilano, ti conoscono meglio di ...

Immagine del sito
La Truffa del CEO! l’inganno che sta travolgendo le aziende italiane
Di Redazione RHC - 27/11/2025

Questa mattina Paragon Sec è stata contattata da un’azienda italiana vittima di un nuovo tentativo di frode conosciuto come Truffa del CEO. L’ufficio contabilità ha ricevuto un’e-mail urgente,...

Immagine del sito
Italia: allarme intelligenza artificiale, cliniche e referti falsi circolano online
Di Redazione RHC - 27/11/2025

i ricercatori di Check Point Software, hanno recentemente pubblicato un’indagine sull’aumento delle truffe farmaceutiche basate sull’intelligenza artificiale. È stato rilevato come i criminali ...