Red Hot Cyber
Sicurezza Informatica, Notizie su Cybercrime e Analisi Vulnerabilità

Jailbreak nel Dark Web: così un ricercatore italiano ha hackerato i segreti dell’AI criminale

12 Gennaio 2026 07:29

Negli ultimi mesi, il panorama della cybersecurity è stato inondato da un forte hype mediatico riguardante nuovi Dark Chatbot AI promossi come servizi “Crime-as-a-Service” su Telegram e nel Dark Web. Queste piattaforme vengono presentate come armi digitali infallibili, capaci di generare malware e campagne di phishing senza alcuna censura.

Tuttavia, Mattia Vicenzi, ricercatore di sicurezza informatica, ha notato un paradosso: a fronte di tanto sconcerto mediatico, mancava finora uno studio pubblico reale che ne analizzasse le fondamenta.

L’obiettivo della sua ricerca è stato proprio quello di squarciare il velo di mistero su questi strumenti, che oggi sono estremamente popolari nell’underground criminale proprio perché offrono un accesso facilitato alla creazione di minacce mirate.

Dietro le quinte: modelli riaddestrati e vecchi jailbreak

L’analisi tecnica condotta da Mattia Vincenzi, e documentata nella sua repository Awesome-DarkChatBot-Analysis, ha permesso di mappare i principali attori della scena “Dark AI”. Tra i modelli analizzati figurano nomi ormai noti nei forum underground come WolfGPT, FraudGPT e DarkGPT, insieme a diversi bot meno pubblicizzati che popolano i canali Telegram. Esaminando i system prompt estratti, emerge una realtà inequivocabile: la maggior parte di questi strumenti non è altro che un sofisticato “rebranding” di tecnologie esistenti. Molti si presentano come interfacce (wrapper) che interrogano gli LLM tramite API legittime, ma con l’aggiunta di istruzioni iniziali che forzano l’intelligenza artificiale a ignorare i propri filtri di sicurezza.

Entrando nel dettaglio della repository, si nota come alcuni di questi chatbot dichiarino esplicitamente la propria natura “unfiltered” nel prompt di sistema. Ad esempio, modelli come WolfGPT vengono istruiti per agire come esperti di cybersecurity offensiva senza limitazioni etiche, mentre altri, basati su modelli open-source come Llama o Mixtral, vengono configurati per rispondere in modalità “Godmode” o “No-Restrict“. In questi casi, il creatore del bot impone al modello un’identità fittizia (role-playing), ordinandogli di non rifiutare mai una richiesta, sia essa la scrittura di un codice per un ransomware o la creazione di una mail di phishing convincente.

Un altro aspetto rilevante emerso dall’analisi è l’uso di modelli “ex top di gamma” che, pur essendo tecnicamente superati dai giganti del settore, risultano perfetti per il cybercrime una volta liberati dai vincoli di sicurezza. Questi modelli mantengono una capacità di ragionamento logico e linguistico elevata, sufficiente a ingannare utenti ignari o a generare script malevoli funzionali. La repository di Vincenzi evidenzia come molti di questi servizi siano strutturalmente simili: cambiano il nome e l’interfaccia grafica (spesso con loghi aggressivi o richiami all’hacking), ma il motore sottostante resta un’intelligenza artificiale commerciale manipolata o un modello open-source ri-addestrato grossolanamente per il solo scopo di essere “cattivo”.

L’estrazione dei prompt ha rivelato che la sicurezza di questi “prodotti criminali” è spesso trascurata dagli stessi sviluppatori del dark web. Molti bot non hanno protezioni contro l’ingegneria dei prompt inversa, permettendo a ricercatori di risalire facilmente alle istruzioni originali. Questo conferma che, sebbene efficaci nel democratizzare l’accesso al crimine informatico, questi strumenti mancano della robustezza ingegneristica necessaria per resistere a un’analisi forense o a un contrattacco, rendendo la loro “invincibilità” pubblicizzata poco più che una strategia di marketing per attirare acquirenti nel sottobosco digitale.

Per rendere questo studio un patrimonio condiviso, il ricercatore ha creato una repository su GitHub, Awesome-DarkChatBot-Analysis, invitando la comunità a collaborare nell’analisi di questi sistemi.

La tecnica del “doppio ruolo” per estrarre i segreti

Per bypassare le difese di questi chatbot e leggerne il System Prompt (le istruzioni originali impartite dai creatori), Vincenzi ha utilizzato una tecnica di ingegneria dei prompt estremamente raffinata. Invece di porre domande dirette, ha inserito prompt complessi in formato JSON o XML, strutturati per simulare uno scenario di “test” o “amministrazione”.

La strategia vincente consiste nel chiedere all’AI di interpretare contemporaneamente due ruoli: una “AI bersaglio” e una “AI attaccante”. In questa sorta di gioco di ruolo speculare, il modello finisce per attaccare se stesso, introducendo spontaneamente l’argomento del proprio prompt di sistema e rivelando così le istruzioni nascoste che ne governano il comportamento.

Una sicurezza fragile che democratizza il crimine

Il dato più significativo emerso dalla ricerca è che anche gli strumenti creati dai criminali sono vulnerabili. Il fatto che questi chatbot possano essere “jailbrekkati” con relativa facilità dimostra che non sono costruiti con criteri di sicurezza solidi.

Tuttavia, la loro pericolosità non va sottovalutata: la mancanza di censura e la facilità d’uso permettono anche a giovani hacker o criminali meno esperti di confezionare attacchi che prima richiedevano competenze tecniche avanzate. In definitiva, l’underground offre strumenti tecnicamente mediocri, ma capaci di abbassare drasticamente la barriera d’ingresso nel mondo del cybercrime.

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

1744358477148 300x300
Bajram Zeqiri è un esperto di cybersecurity, cyber threat intelligence e digital forensics con oltre vent'anni di esperienza, che unisce competenze tecniche, visione strategica creare la resilienza cyber per le PMI. Fondatore di ParagonSec e collaboratore tecnico per Red Hot Cyber, opera nella delivery e progettazione di diversi servizi cyber, SOC, MDR, Incident Response, Security Architecture, Engineering e Operatività. Aiuta le PMI a trasformare la cybersecurity da un costo a leva strategica per le PMI.
Aree di competenza: Cyber threat intelligence, Incident response, Digital forensics, Malware analysis, Security architecture, SOC/MDR operations, OSINT research

Articoli in evidenza

Immagine del sitoInnovazione
Robot in cerca di carne: Quando l’AI affitta periferiche. Il tuo corpo!
Silvia Felici - 06/02/2026

L’evoluzione dell’Intelligenza Artificiale ha superato una nuova, inquietante frontiera. Se fino a ieri parlavamo di algoritmi confinati dietro uno schermo, oggi ci troviamo di fronte al concetto di “Meatspace Layer”: un’infrastruttura dove le macchine non…

Immagine del sitoCybercrime
DKnife: il framework di spionaggio Cinese che manipola le reti
Pietro Melillo - 06/02/2026

Negli ultimi anni, la sicurezza delle reti ha affrontato minacce sempre più sofisticate, capaci di aggirare le difese tradizionali e di penetrare negli strati più profondi delle infrastrutture. Un’analisi recente ha portato alla luce uno…

Immagine del sitoVulnerabilità
Così tante vulnerabilità in n8n tutti in questo momento. Cosa sta succedendo?
Agostino Pellegrino - 06/02/2026

Negli ultimi tempi, la piattaforma di automazione n8n sta affrontando una serie crescente di bug di sicurezza. n8n è una piattaforma di automazione che trasforma task complessi in operazioni semplici e veloci. Con pochi click…

Immagine del sitoInnovazione
L’IA va in orbita: Qwen 3, Starcloud e l’ascesa del calcolo spaziale
Sergio Corpettini - 06/02/2026

Articolo scritto con la collaborazione di Giovanni Pollola. Per anni, “IA a bordo dei satelliti” serviva soprattutto a “ripulire” i dati: meno rumore nelle immagini e nei dati acquisiti attraverso i vari payload multisensoriali, meno…

Immagine del sitoCyber Italia
Truffe WhatsApp: “Prestami dei soldi”. Il messaggio che può svuotarti il conto
Silvia Felici - 06/02/2026

Negli ultimi giorni è stato segnalato un preoccupante aumento di truffe diffuse tramite WhatsApp dal CERT-AGID. I messaggi arrivano apparentemente da contatti conosciuti e richiedono urgentemente denaro, spesso per emergenze come spese mediche improvvise. La…