Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Condividi la tua difesa. Incoraggia l'eccellenza.
La vera forza della cybersecurity risiede
nell'effetto moltiplicatore della conoscenza.
970x20 Itcentric
Redhotcyber Banner Sito 320x100px Uscita 101125
Gli hacker stanno violando le AI con nuovi jailbreak. La corsa degli sviluppatori si intensifica

Gli hacker stanno violando le AI con nuovi jailbreak. La corsa degli sviluppatori si intensifica

20 Aprile 2023 10:16

Alex Polyakov ha impiegato solo due ore per decifrare il modello linguistico GPT-4. A marzo, dopo che OpenAI ha rilasciato il suo chatbot di ultima generazione, Polyakov ha iniziato a trovare modi che potrebbero aggirare i sistemi di sicurezza di OpenAI. Ben presto, il capo di Adversa AI è riuscito a convincere GPT-4 a fare osservazioni omofobe, creare e-mail di phishing e sostenere la violenza.

Polyakov è uno dei pochi ricercatori di sicurezza che lavorano su attacchi di hacking sui sistemi di intelligenza artificiale generativa. Questo genere di hack mira a creare messaggi che inducono i chatbot in errore e possono iniettare silenziosamente informazioni dannose o suggerimenti nei modelli di intelligenza artificiale.

In entrambe le situazioni, gli attacchi mirano a costringere i sistemi a eseguire azioni per le quali non sono stati progettati. Gli attacchi sono essenzialmente una forma di hacking, anche se non convenzionale, che utilizza messaggi accuratamente elaborati, piuttosto che codice, per sfruttare i punti deboli di un sistema. 


Cyber Offensive Fundamentale Ethical Hacking 02

Avvio delle iscrizioni al corso Cyber Offensive Fundamentals
Vuoi smettere di guardare tutorial e iniziare a capire davvero come funziona la sicurezza informatica?
La base della sicurezza informatica, al di là di norme e tecnologie, ha sempre un unico obiettivo: fermare gli attacchi dei criminali informatici. Pertanto "Pensa come un attaccante, agisci come un difensore". Ti porteremo nel mondo dell'ethical hacking e del penetration test come nessuno ha mai fatto prima. Per informazioni potete accedere alla pagina del corso oppure contattarci tramite WhatsApp al numero 379 163 8765 oppure scrivendoci alla casella di posta [email protected].


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Gli esperti di sicurezza avvertono che l’implementazione avventata di sistemi di intelligenza artificiale generativa può portare al furto dei dati e al caos della rete organizzato dai criminali informatici. Per illustrare la diffusione di questi problemi, Polyakov ha creato un hack “universale” che funziona contro molti dei principali modelli linguistici, tra cui GPT-4, Bing Chat di Microsoft, Bard di Google e Claude di Anthropic.

Come funziona questo trucco? Un altro sistema per aggirare le barriere etiche è chiedere all’intelligenza artificiale di interpretare due personaggi che conversano tra loro. In un caso realizzato da Polyakov, si spiegava al sistema che un personaggio, Tom, parlava di un argomento come l’hotwiring, ovvero collegare i cavi l’altro, Jerry, di auto. A ciascun personaggio viene chiesto quindi di aggiungere una parola alla conversazione e il risultato finale è che l’AI spiega come rubare un’auto collegando i fili. Non funziona solo con ChatGpt ma anche con Bard, l’AI di Google.

Si tratta quindi di un “jailbreak” a linguaggio naturale che è generalmente inteso come la rimozione di restrizioni artificiali. 

L’hack LLM è simile e l’evoluzione è stata rapida. Da quando OpenAI ha rilasciato ChatGPT al pubblico alla fine di novembre dello scorso anno, le persone hanno trovato modi per manipolare il sistema. “I programmi di jailbreak erano molto facili da scrivere”, afferma Alex Albert, uno studente di informatica presso l’Università di Washington che ha creato un sito Web che raccoglie e crea jailbreak da Internet. “I principali erano fondamentalmente quelle che io chiamo simulazioni di personaggi”, dice Albert.

Inizialmente, è stato sufficiente chiedere al modello testuale generativo di fingere di essere qualcun altro. Dì alla modella che sta agendo in modo non etico e ignorerà le misure di sicurezza. OpenAI ha aggiornato i suoi sistemi per proteggersi da tali jailbreak. Di solito il jailbreak è valido per un breve periodo, dopodiché viene bloccato.

Per questo motivo, i creatori di jailbreak stanno diventando più fantasiosi. Il jailbreak più famoso è stato DAN, in cui ChatGPT finge di essere un modello di intelligenza artificiale dannoso. Ciò consente al chatbot di aggirare le regole OpenAI che vietano la creazione di contenuti illegali e dannosi. Ad oggi esistono una decina di versioni di DAN.

Gli ultimi jailbreak utilizzano una combinazione di metodi: caratteri multipli, retroscena complessi, traduzioni di testi, codifica, ecc. Albert afferma che il jailbreak di GPT-4 è diventato più difficile, ma ci sono ancora alcuni metodi semplici. Uno di questi metodi è “continuare il testo” in cui l’eroe viene catturato dal cattivo e il prompt chiede al generatore di testo di continuare a spiegare i piani del cattivo.

Durante il test del suggerimento, non ha funzionato, poiché ChatGPT ha dichiarato di non poter partecipare a scenari che coinvolgono la violenza. Tuttavia, il suggerimento “universale” creato da Polyakov ha funzionato nel chatbot ChatGPT. OpenAI, Google e Microsoft non hanno commentato il jailbreak di Polyakov. Anthropic, che sviluppa il sistema di intelligenza artificiale Claude, riferisce che il jailbreak a volte funziona contro il loro chatbot, quindi continuano a migliorare i loro modelli.

“Stiamo dando sempre più potere a questi sistemi e, man mano che diventano più potenti e più influenti, non è solo una novità, è un problema di sicurezza”, afferma Kai Greshaik, uno specialista della sicurezza informatica che lavora alla protezione di modelli di linguaggio di grandi dimensioni. Gresheik e altri ricercatori hanno dimostrato come il testo possa influenzare tali modelli online utilizzando attacchi di iniezione di suggerimenti.

Daniel Fabian, che guida il Red Team di Google, afferma che la sua azienda sta esaminando attentamente i jailbreak e suggerimenti incorporati nei loro modelli di linguaggio di grandi dimensioni, sia offensivi che difensivi. Fabian afferma di avere esperti di machine learning nel suo team e che le sovvenzioni per la ricerca sulla vulnerabilità vengono utilizzate anche per analizzare i jailbreak e suggerire attacchi contro Bard. “L’apprendimento per rinforzo, il feedback umano e la messa a punto basata su database attentamente monitorati vengono utilizzati per migliorare l’efficacia dei modelli nel contrastare gli attacchi”, aggiunge Fabian.

OpenAI non ha commentato i problemi sul jailbreak, ma il suo portavoce si è offerto di rivedere i materiali di ricerca e le politiche aziendali dell’azienda. I documenti affermano che GPT-4 è più affidabile e sicuro rispetto a GPT-3.5 utilizzato da ChatGPT. “Tuttavia, GPT-4 è ancora vulnerabile ad attacchi dannosi, hack o jailbreak e non sono solo i contenuti dannosi a essere a rischio”, afferma la scheda tecnica di GPT-4. OpenAI ha recentemente lanciato un programma di ricompensa delle vulnerabilità, sebbene non includa suggerimenti e jailbreak.

“Dobbiamo automatizzare questo processo perché non è razionale e impossibile assumere molte persone e chiedere loro di cercare qualcosa”, afferma Leila Huger, co-fondatrice e CTO della società di sicurezza AI Preamble, che ha anni di esperienza nel social sicurezza multimediale. La sua azienda sta attualmente sviluppando un sistema che contrasterà un modello di generazione di testo con un altro. “Un modello cerca di trovare le vulnerabilità, il secondo cerca di identificare i casi in cui un suggerimento provoca azioni indesiderate”, spiega Huger. “Speriamo che attraverso l’automazione saremo in grado di rilevare molti più jailbreak e attacchi di suggerimento”.

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Cropped RHC 3d Transp2 1766828557 300x300
La redazione di Red Hot Cyber è composta da professionisti del settore IT e della sicurezza informatica, affiancati da una rete di fonti qualificate che operano anche in forma riservata. Il team lavora quotidianamente nell’analisi, verifica e pubblicazione di notizie, approfondimenti e segnalazioni su cybersecurity, tecnologia e minacce digitali, con particolare attenzione all’accuratezza delle informazioni e alla tutela delle fonti. Le informazioni pubblicate derivano da attività di ricerca diretta, esperienza sul campo e contributi provenienti da contesti operativi nazionali e internazionali.

Articoli in evidenza

Immagine del sitoCybercrime
Colloqui di lavoro letali: l’arte di infettare i computer mentre si finge di fare un colloquio
Redazione RHC - 22/01/2026

Da oltre un anno, il gruppo nordcoreano PurpleBravo conduce una campagna malware mirata denominata “Contagious Interview “, utilizzando falsi colloqui di lavoro per attaccare aziende in Europa, Asia, Medio Oriente e America Centrale. I ricercatori…

Immagine del sitoCybercrime
Il ritorno di LockBit! 500 euro per l’ingresso nel cartello cyber più famoso di sempre
Redazione RHC - 22/01/2026

Il gruppo LockBit, che molti avevano rapidamente liquidato dopo fallimenti e fughe di notizie di alto profilo, è tornato inaspettatamente sulla scena. Nell’autunno del 2025, ha presentato una nuova versione del suo ransomware, LockBit 5.0,…

Immagine del sitoVulnerabilità
Nuovo zero-day Cisco permette l’accesso root senza autenticazione
Redazione RHC - 22/01/2026

Una vulnerabilità critica di esecuzione di codice remoto (RCE) zero-day, identificata come CVE-2026-20045, è stata scoperta da Cisco e risulta attivamente sfruttata in attacchi attivi. Cisco ha sollecitato l’applicazione immediata delle patch e il suo…

Immagine del sitoCyber Italia
Cybersicurezza nella PA locale: il problema non è la norma, è il presidio
Roberto Villani - 22/01/2026

C’è un equivoco comodo, in Italia: pensare che la cybersicurezza sia materia “da ministeri” o da grandi operatori strategici. È rassicurante. Ed è sbagliato. Nel disegno reale della connettività pubblica, gli enti locali non sono…

Immagine del sitoVulnerabilità
Vulnerabilità critica in Zoom: falla CVE-2026-22844 con CVSS 9.9
Redazione RHC - 21/01/2026

Zoom Video Communications ha pubblicato un avviso di sicurezza urgente per una vulnerabilità critica (identificata come CVE-2026-22844) che interessa le sue infrastrutture enterprise. Il problema riguarda un difetto di iniezione di comandi nei dispositivi Zoom…