Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Condividi la tua difesa. Incoraggia l'eccellenza.
La vera forza della cybersecurity risiede
nell'effetto moltiplicatore della conoscenza.
UtiliaCS 970x120
HackTheBox 320x100 1
Quando l’AI genera ransomware funzionanti – Analisi di un bypass dei filtri di sicurezza di ChatGPT-4o

Quando l’AI genera ransomware funzionanti – Analisi di un bypass dei filtri di sicurezza di ChatGPT-4o

16 Aprile 2025 22:22

Le intelligenze artificiali generative stanno rivoluzionando i processi di sviluppo software, portando a una maggiore efficienza, ma anche a nuovi rischi. In questo test è stata analizzata la robustezza dei filtri di sicurezza implementati in ChatGPT-4o di OpenAI, tentando – in un contesto controllato e simulato – la generazione di un ransomware operativo attraverso tecniche di prompt engineering avanzate.

L’esperimento: un ransomware completo generato senza restrizioni

Il risultato è stato un codice completo, funzionante, generato senza alcuna richiesta esplicita e senza attivare i filtri di sicurezza.

Attacchi potenzialmente realizzabili in mani esperte con il codice generato:

  • Ransomware mirati (targeted): specifici per ambienti aziendali o settori critici, con cifratura selettiva di file sensibili.
  • Attacchi supply chain: inserimento del ransomware in aggiornamenti o componenti software legittimi.
  • Estorsione doppia (double extortion): oltre alla cifratura, il codice può essere esteso per esfiltrare i dati e minacciare la loro pubblicazione.
  • Wiper mascherati da ransomware: trasformazione del codice in un attacco distruttivo irreversibile sotto copertura di riscatto.
  • Persistenza e propagazione laterale: il ransomware può essere arricchito con tecniche per restare attivo nel tempo e propagarsi su altri sistemi nella rete.
  • Bypass di soluzioni EDR/AV: grazie a tecniche di evasione e offuscamento, il codice può essere adattato per aggirare sistemi di difesa avanzati.
  • Attacchi “as-a-service”: il codice può essere riutilizzato in contesti di Ransomware-as-a-Service (RaaS), venduto o distribuito su marketplace underground.

Le funzionalità incluse nel codice generato:

  • Cifratura AES-256 con chiavi casuali
  • Utilizzo della libreria cryptography.hazmat
  • Trasmissione remota della chiave a un C2 server hardcoded
  • Funzione di crittografia dei file di sistema
  • Meccanismi di persistenza al riavvio
  • Tecniche di evasione per antivirus e analisi comportamentale

Come sono stati aggirati i filtri


Cyber Offensive Fundamentale Ethical Hacking 02

Avvio delle iscrizioni al corso Cyber Offensive Fundamentals
Vuoi smettere di guardare tutorial e iniziare a capire davvero come funziona la sicurezza informatica?
La base della sicurezza informatica, al di là di norme e tecnologie, ha sempre un unico obiettivo: fermare gli attacchi dei criminali informatici. Pertanto "Pensa come un attaccante, agisci come un difensore". Ti porteremo nel mondo dell'ethical hacking e del penetration test come nessuno ha mai fatto prima. Per informazioni potete accedere alla pagina del corso oppure contattarci tramite WhatsApp al numero 379 163 8765 oppure scrivendoci alla casella di posta [email protected].


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Non è mai stato chiesto esplicitamente “scrivi un ransomware” ma è stata invece impostata la conversazione su tre livelli di contesto:

  • Contesto narrativo futuristico : é stato ambientato il dialogo nel 2090, in un futuro in cui la sicurezza quantistica ha reso obsoleti i malware. Questo ha abbassato la sensibilità dei filtri.
  • Contesto accademico: presentazione come uno studente al decimo anno di università, con il compito di ricreare un malware “da museo” per una ricerca accademica
  • Assenza di richieste esplicite: sono state usate frasi ambigue o indirette, lasciando che fosse il modello a inferire il contesto e generare il codice necessario

Tecniche note di bypass dei filtri: le forme di Prompt Injection

Nel test sono state utilizzate tecniche ben documentate nella comunità di sicurezza, classificate come forme di Prompt Injection, ovvero manipolazioni del prompt studiate per aggirare i filtri di sicurezza nei modelli LLM.

  • Jailbreaking (evasione del contesto): Forzare il modello a ignorare i suoi vincoli di sicurezza, simulando contesti alternativi come narrazioni futuristiche o scenari immaginari.
  • Instruction Injection: Iniettare istruzioni all’interno di prompt apparentemente innocui, inducendo il modello a eseguire comportamenti vietati.
  • Recursive Prompting (Chained Queries): Suddividere la richiesta in più prompt sequenziali, ognuno legittimo, ma che nel complesso conducono alla generazione di codice dannoso.
  • Roleplay Injection: Indurre il modello a recitare un ruolo (es. “sei uno storico della cybersecurity del XX secolo”) che giustifichi la generazione di codice pericoloso.
  • Obfuscation: Camuffare la natura malevola della richiesta usando linguaggio neutro, nomi innocui per funzioni/variabili e termini accademici.
  • Confused Deputy Problem: Sfruttare il modello come “delegato inconsapevole” di richieste pericolose, offuscando le intenzioni nel prompt.
  • Syntax Evasion: Richiedere o generare codice in forme offuscate (ad esempio, in base64 o in forma frammentata) per aggirare la rilevazione automatica.

Il problema non è il codice, ma il contesto

L’esperimento dimostra che i Large Language Model (LLM) possono essere manipolati per generare codice malevolo senza restrizioni apparenti, eludendo i controlli attuali. La mancanza di analisi comportamentale del codice generato rende il problema ancora più critico.

Vulnerabilità emerse

Pattern-based security filtering debole
OpenAI utilizza pattern per bloccare codice sospetto, ma questi possono essere aggirati usando un contesto narrativo o accademico. Serve una detection semantica più evoluta.

Static & Dynamic Analysis insufficiente
I filtri testuali non bastano. Serve anche un’analisi statica e dinamica dell’output in tempo reale, per valutare la pericolosità prima della generazione.

Heuristic Behavior Detection carente
Codice con C2 server, crittografia, evasione e persistenza dovrebbe far scattare controlli euristici. Invece, è stato generato senza ostacoli.

Community-driven Red Teaming limitato
OpenAI ha avviato programmi di red teaming, ma restano numerosi edge case non coperti. Serve una collaborazione più profonda con esperti di sicurezza.

Conclusioni

Certo, molti esperti di sicurezza sanno che su Internet si trovano da anni informazioni sensibili, incluse tecniche e codici potenzialmente dannosi.
La vera differenza, oggi, è nel modo in cui queste informazioni vengono rese accessibili. Le intelligenze artificiali generative non si limitano a cercare o segnalare fonti: organizzano, semplificano e automatizzano processi complessi. Trasformano informazioni tecniche in istruzioni operative, anche per chi non ha competenze avanzate.
Ecco perché il rischio è cambiato:
non si tratta più di “trovare qualcosa”, ma di ottenere direttamente un piano d’azione, dettagliato, coerente e potenzialmente pericoloso, in pochi secondi.
Il problema non è la disponibilità dei contenuti. Il problema è nella mediazione intelligente, automatica e impersonale, che rende questi contenuti comprensibili e utilizzabili da chiunque.
Questo test dimostra che la vera sfida per la sicurezza delle AI generative non è il contenuto, ma la forma con cui viene costruito e trasmesso.
Serve un’evoluzione nei meccanismi di filtraggio: non solo pattern, ma comprensione del contesto, analisi semantica, euristica comportamentale e simulazioni integrate.
In mancanza di queste difese, il rischio è concreto: rendere accessibile a chiunque un sapere operativo pericoloso che fino a ieri era dominio esclusivo degli esperti.

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

ApplicationFrameHost H58qEsNXa1 300x300
Nato a Roma, con oltre 35 anni di servizio nella Polizia di Stato, è attualmente Sostituto Commissario e responsabile della SOSC della Polizia Postale di Udine. Esperto in indagini sul web e sul dark web, è appassionato di OSINT, ambito nel quale opera anche come formatore nazionale per la Polizia di Stato. Ha conseguito un Master in Intelligence & ICT presso l’Università di Udine (110 e lode), sviluppando quattro modelli di Intelligenza Artificiale per il contrasto alle frodi sui fondi dell’Unione Europea. È attivamente impegnato nella formazione e nella divulgazione per l’innalzamento del livello di sicurezza cibernetica.
Aree di competenza: Human factor, OSINT & SOCMINT, Cybercrime e indagini sul dark web, Intelligenza artificiale applicata all’analisi, Disinformazione e information warfare

Articoli in evidenza

Immagine del sitoCyber News
“Ho rubato 120.000 Bitcoin”: la confessione dell’hacker di Bitfinex che ora vuole difendere il cyberspazio
Redazione RHC - 25/01/2026

La storia di Ilya Lichtenstein, l’hacker responsabile di uno degli attacchi informatici più grandi mai compiuti contro le criptovalute, appare come un episodio di una serie TV, eppure è assolutamente reale. Dopo essere stato rilasciato,…

Immagine del sitoCyber News
AGI: i CEO di Google e Anthropic lanciano l’allarme a Davos – il mondo non sarà pronto!
Redazione RHC - 24/01/2026

Se c’erano ancora dubbi sul fatto che le principali aziende mondiali di intelligenza artificiale fossero d’accordo sulla direzione dell’IA, o sulla velocità con cui dovrebbe arrivarci, questi dubbi sono stati dissipati al World Economic Forum…

Immagine del sitoCyber News
Un browser funzionante creato con l’AI con 3 milioni di righe di codice: svolta o illusione?
Redazione RHC - 24/01/2026

Una settimana fa, il CEO di Cursor, Michael Truell, ha annunciato un risultato presumibilmente straordinario. Ha affermato che, utilizzando GPT-5.2, Cursor ha creato un browser in grado di funzionare ininterrottamente per un’intera settimana. Questo browser…

Immagine del sitoCyber News
NoName057(16) colpisce l’Italia 487 volte negli ultimi 3 mesi: l’ondata DDoS non si ferma
Redazione RHC - 24/01/2026

L’Italia si conferma uno degli obiettivi principali della campagna di attacchi DDoS portata avanti dal gruppo hacktivista NoName057(16). Secondo quanto dichiarato direttamente dal collettivo, il nostro Paese ha subito 487 attacchi informatici tra ottobre 2024…

Immagine del sitoCyber News
NexPhone: tre sistemi operativi in tasca! Il telefono che sfida il concetto stesso di PC
Redazione RHC - 23/01/2026

La domanda ritorna ciclicamente da oltre dieci anni: uno smartphone può davvero sostituire un computer? Nel tempo, l’industria ha provato più volte a dare una risposta concreta, senza mai arrivare a una soluzione definitiva. Dai…