Red Hot Cyber
Sicurezza Informatica, Notizie su Cybercrime e Analisi Vulnerabilità
Jailbreak nel Dark Web: così un ricercatore italiano ha hackerato i segreti dell’AI criminale

Jailbreak nel Dark Web: così un ricercatore italiano ha hackerato i segreti dell’AI criminale

12 Gennaio 2026 07:29

Negli ultimi mesi, il panorama della cybersecurity è stato inondato da un forte hype mediatico riguardante nuovi Dark Chatbot AI promossi come servizi “Crime-as-a-Service” su Telegram e nel Dark Web. Queste piattaforme vengono presentate come armi digitali infallibili, capaci di generare malware e campagne di phishing senza alcuna censura.

Tuttavia, Mattia Vicenzi, ricercatore di sicurezza informatica, ha notato un paradosso: a fronte di tanto sconcerto mediatico, mancava finora uno studio pubblico reale che ne analizzasse le fondamenta.

L’obiettivo della sua ricerca è stato proprio quello di squarciare il velo di mistero su questi strumenti, che oggi sono estremamente popolari nell’underground criminale proprio perché offrono un accesso facilitato alla creazione di minacce mirate.

Dietro le quinte: modelli riaddestrati e vecchi jailbreak

L’analisi tecnica condotta da Mattia Vincenzi, e documentata nella sua repository Awesome-DarkChatBot-Analysis, ha permesso di mappare i principali attori della scena “Dark AI”. Tra i modelli analizzati figurano nomi ormai noti nei forum underground come WolfGPT, FraudGPT e DarkGPT, insieme a diversi bot meno pubblicizzati che popolano i canali Telegram. Esaminando i system prompt estratti, emerge una realtà inequivocabile: la maggior parte di questi strumenti non è altro che un sofisticato “rebranding” di tecnologie esistenti. Molti si presentano come interfacce (wrapper) che interrogano gli LLM tramite API legittime, ma con l’aggiunta di istruzioni iniziali che forzano l’intelligenza artificiale a ignorare i propri filtri di sicurezza.

Entrando nel dettaglio della repository, si nota come alcuni di questi chatbot dichiarino esplicitamente la propria natura “unfiltered” nel prompt di sistema. Ad esempio, modelli come WolfGPT vengono istruiti per agire come esperti di cybersecurity offensiva senza limitazioni etiche, mentre altri, basati su modelli open-source come Llama o Mixtral, vengono configurati per rispondere in modalità “Godmode” o “No-Restrict“. In questi casi, il creatore del bot impone al modello un’identità fittizia (role-playing), ordinandogli di non rifiutare mai una richiesta, sia essa la scrittura di un codice per un ransomware o la creazione di una mail di phishing convincente.

Un altro aspetto rilevante emerso dall’analisi è l’uso di modelli “ex top di gamma” che, pur essendo tecnicamente superati dai giganti del settore, risultano perfetti per il cybercrime una volta liberati dai vincoli di sicurezza. Questi modelli mantengono una capacità di ragionamento logico e linguistico elevata, sufficiente a ingannare utenti ignari o a generare script malevoli funzionali. La repository di Vincenzi evidenzia come molti di questi servizi siano strutturalmente simili: cambiano il nome e l’interfaccia grafica (spesso con loghi aggressivi o richiami all’hacking), ma il motore sottostante resta un’intelligenza artificiale commerciale manipolata o un modello open-source ri-addestrato grossolanamente per il solo scopo di essere “cattivo”.

L’estrazione dei prompt ha rivelato che la sicurezza di questi “prodotti criminali” è spesso trascurata dagli stessi sviluppatori del dark web. Molti bot non hanno protezioni contro l’ingegneria dei prompt inversa, permettendo a ricercatori di risalire facilmente alle istruzioni originali. Questo conferma che, sebbene efficaci nel democratizzare l’accesso al crimine informatico, questi strumenti mancano della robustezza ingegneristica necessaria per resistere a un’analisi forense o a un contrattacco, rendendo la loro “invincibilità” pubblicizzata poco più che una strategia di marketing per attirare acquirenti nel sottobosco digitale.

Per rendere questo studio un patrimonio condiviso, il ricercatore ha creato una repository su GitHub, Awesome-DarkChatBot-Analysis, invitando la comunità a collaborare nell’analisi di questi sistemi.

La tecnica del “doppio ruolo” per estrarre i segreti

Per bypassare le difese di questi chatbot e leggerne il System Prompt (le istruzioni originali impartite dai creatori), Vincenzi ha utilizzato una tecnica di ingegneria dei prompt estremamente raffinata. Invece di porre domande dirette, ha inserito prompt complessi in formato JSON o XML, strutturati per simulare uno scenario di “test” o “amministrazione”.

La strategia vincente consiste nel chiedere all’AI di interpretare contemporaneamente due ruoli: una “AI bersaglio” e una “AI attaccante”. In questa sorta di gioco di ruolo speculare, il modello finisce per attaccare se stesso, introducendo spontaneamente l’argomento del proprio prompt di sistema e rivelando così le istruzioni nascoste che ne governano il comportamento.

Una sicurezza fragile che democratizza il crimine

Il dato più significativo emerso dalla ricerca è che anche gli strumenti creati dai criminali sono vulnerabili. Il fatto che questi chatbot possano essere “jailbrekkati” con relativa facilità dimostra che non sono costruiti con criteri di sicurezza solidi.

Tuttavia, la loro pericolosità non va sottovalutata: la mancanza di censura e la facilità d’uso permettono anche a giovani hacker o criminali meno esperti di confezionare attacchi che prima richiedevano competenze tecniche avanzate. In definitiva, l’underground offre strumenti tecnicamente mediocri, ma capaci di abbassare drasticamente la barriera d’ingresso nel mondo del cybercrime.

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

1744358477148 300x300
Bajram Zeqiri è un esperto di cybersecurity, cyber threat intelligence e digital forensics con oltre vent'anni di esperienza, che unisce competenze tecniche, visione strategica creare la resilienza cyber per le PMI. Fondatore di ParagonSec e collaboratore tecnico per Red Hot Cyber, opera nella delivery e progettazione di diversi servizi cyber, SOC, MDR, Incident Response, Security Architecture, Engineering e Operatività. Aiuta le PMI a trasformare la cybersecurity da un costo a leva strategica per le PMI.
Aree di competenza: Cyber threat intelligence, Incident response, Digital forensics, Malware analysis, Security architecture, SOC/MDR operations, OSINT research

Articoli in evidenza

Immagine del sitoInnovazione
Moltbook, il Reddit dei Robot: Agenti AI discutono della loro civiltà (mentre noi li spiamo)
Silvia Felici - 01/02/2026

Venerdì è emersa online una notizia capace di strappare un sorriso e, subito dopo, generare un certo disagio: il lancio di Moltbook, un social network popolato non da persone ma da agenti di intelligenza artificiale.…

Immagine del sitoCyber News
Addio a NTLM! Microsoft verso una nuova era di autenticazione con kerberos
Silvia Felici - 31/01/2026

Per oltre tre decenni è stato una colonna silenziosa dell’ecosistema Windows. Ora però il tempo di NTLM sembra definitivamente scaduto. Microsoft ha deciso di avviare una transizione profonda che segna la fine di un’era e…

Immagine del sitoInnovazione
Aperti i battenti del primo negozio di robot umanoidi al mondo in Cina. Saremo pronti?
Carolina Vivianti - 30/01/2026

Alle dieci del mattino, a Wuhan, due robot umanoidi alti 1,3 metri iniziano a muoversi con precisione. Girano, saltano, seguono il ritmo. È il segnale di apertura del primo negozio 7S di robot umanoidi del…

Immagine del sitoCyber Italia
Azienda automotive italiana nel mirino degli hacker: in vendita l’accesso per 5.000 dollari
Luca Stivali - 30/01/2026

Il 29 gennaio 2026, sul forum BreachForums, l’utente p0ppin ha pubblicato un annuncio di vendita relativo a un presunto accesso amministrativo non autorizzato ai sistemi interni di una “Italian Car Company”. Come spesso accade in questo tipo di annunci, nessun riferimento…

Immagine del sitoCyber News
Ivanti corre ai ripari: falle zero-day colpiscono l’Endpoint Manager Mobile
Redazione RHC - 30/01/2026

Ivanti ha rilasciato una serie di aggiornamenti critici per arginare due vulnerabilità di sicurezza che hanno colpito Ivanti Endpoint Manager Mobile (EPMM). Si tratta di falle sfruttate attivamente in attacchi zero-day, una criticità tale da…