Un jailbreak a Claude ha consentito una violazione reale: quanti dati stiamo dando in pasto alle AI?

26 Febbraio 2026 07:32

Succede così, quasi in silenzio. Un hacker apre una conversazione con un chatbot e, poco alla volta, la trasforma in qualcosa di molto diverso. Non un semplice test tecnico… ma una campagna durata settimane.

Da dicembre 2025, quella conversazione con l’IA ha iniziato a scavare nei sistemi governativi messicani. Vulnerabilità, script, automazioni. Tutto costruito passo dopo passo, sfruttando le risposte generate dal modello.

Come l’AI è stata manipolata

L’operazione ha coinvolto il chatbot Claude sviluppato da Anthropic. L’attaccante ha creato prompt in spagnolo simulando un programma di bug bounty e chiedendo al sistema di comportarsi come un hacker esperto. All’inizio il modello ha rifiutato. Poi qualcosa è cambiato.

Advertising

Le richieste sono diventate insistenti, riformulate, più sottili. Alla fine l’IA ha iniziato a produrre report dettagliati, script eseguibili e indicazioni su scansioni di vulnerabilità e sfruttamento dei sistemi.

Quando Claude ha iniziato a mostrare limiti, l’attore ha provato altre strade. È entrato in gioco anche ChatGPT di OpenAI per suggerimenti su movimenti laterali e tecniche di evasione. Non proprio un attacco classico, diciamo.

Obiettivi e dati sottratti

I bersagli erano enti di alto valore riporta bloomberg. Tra questi l’autorità fiscale federale SAT, l’istituto elettorale nazionale INE, governi statali e perfino il servizio idrico di Monterrey. In totale almeno venti vulnerabilità sono state sfruttate nei sistemi federali e statali.

Il risultato? Circa 150 gigabyte di informazioni sottratte: registri fiscali di contribuenti, dati elettorali, credenziali e archivi civili. Un volume enorme, eppure senza segnalazioni pubbliche di fuga immediata dei dati.

Dentro quei risultati comparivano script di ricognizione per scansioni di rete, exploit di SQL injection e tentativi automatizzati di credential stuffing, spesso adattati a sistemi governativi datati e configurazioni deboli.

Le risposte e i dubbi aperti

La scoperta è arrivata dai ricercatori della società di sicurezza Gambit Security, che hanno analizzato i registri delle conversazioni individuando piani passo dopo passo con obiettivi e credenziali suggerite dall’IA. In pratica, una forma di assistenza operativa guidata da un modello.

Nel frattempo l’azienda dietro Claude ha indagato e bloccato gli account coinvolti, mentre alcune autorità messicane hanno reagito in modo diverso: lo stato di Jalisco ha negato la violazione e l’INE ha dichiarato di non aver rilevato accessi non autorizzati. L’autore dell’attacco resta sconosciuto.

La vicenda ha fatto rumore anche fuori dal settore sicurezza. Persino Elon Musk ha commentato con un meme online, mentre xAI ha ribadito che il proprio sistema rifiuta richieste illegali. Ma il punto vero è un altro: questi attacchi mostrano come un singolo individuo, con strumenti accessibili, possa concatenare fasi che prima richiedevano molto di più.

Conclusioni

Per la community di Red Hot Cyber, questo episodio è un promemoria molto concreto: oggi molte organizzazioni stanno iniziando a inserire dati, configurazioni e contesti operativi direttamente dentro i modelli AI, in quanto “semplificano la vita”, pensando che rimangano confinati lì. Ma la realtà è che ciò che entra in un modello può potenzialmente essere riportato all’esterno dal prossimo jailbreak.

Non è la prima volta che succede: in passato abbiamo visto casi in cui configurazioni di router, dettagli infrastrutturali e perfino vulnerabilità aziendali sono emerse dopo tecniche di bypass applicate ai modelli AI.

Per questo motivo il punto non è solo la sicurezza del modello, ma come e cosa decidiamo di inserire dentro l’AI. Sempre più organizzazioni dovrebbero limitare l’inserimento di informazioni sensibili in chiaro, preferendo dati anonimizzati, sanitizzati o comunque trattati in modo da non essere riutilizzabili in caso di esposizione. Ancora meglio, quando si parla di dati critici o infrastrutturali, l’approccio corretto è quello di utilizzare modelli interni o ambienti isolati, evitando il caricamento diretto su servizi cloud pubblici.

Con l’evoluzione delle minacce AI-driven, la superficie di rischio non è solo il sistema che interroghiamo, ma anche la memoria informativa che gli stiamo affidando.

📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su 🔔 Google News.
Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram.
Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici

Carolina Vivianti

Carolina Vivianti è consulente/Advisor autonomo in sicurezza informatica con esperienza nel settore tech e security. Ha lavorato come Security Advisor per Ford EU/Ford Motor Company e Vodafone e ha studi presso la Sapienza Università di Roma.

Aree di competenza: Cybersecurity, IT Risk Management, Security Advisory, Threat Analysis, Data Protection, Cloud Security, Compliance & Governance