Il nuovo fronte oscuro dell’AI: quando i modelli LLM vengono “bucati” a pezzi

16 Giugno 2026 12:13

In sintesi

La vicenda Anthropic Fable 5 e Mythos 5 evidenzia nuovi rischi di sicurezza AI: bypass tramite richieste frammentate e intenzioni distribuite, simili a malware staged. La difesa deve passare dalla singola query ai workflow complessi e agentici.

La vicenda su Anthropic Fable 5 e Mythos 5, deve essere esaminata con attenzione per evitarla di archiviare come “l’ennesima storia di jailbreak” o di governi che intervengono in modo veloce per motivi di sicurezza nazionale.

Infatti, c’è qualcosa di molto più interessante e preoccupante. La sicurezza dei modelli di intelligenza artificiale è sempre più simile ad una cybersecurity tradizionale, con catene d’attacco, payload scomposti e tecniche di evasione. Anthropic, ha presentato recentemente il modello Fable 5 come inizialmente protetto da potenziali bypass, mentre il modello Mythos 5 era destinato a partner selezionati, fornendo maggiore libertà operativa in ottica cybersecurity.

Il punto è che qualcuno è riuscito a bypassare il sistema non con un trucco che sembra semplice, ma con una richiesta suddivisa in più parti, distribuendola in piccoli frammenti che apparentemente sembrano innocui. La tecnica utilizzata da Pliny the Liberator, è una strategia di attacco multi-agente chiamata “pack hunt”. il metodo sposta l’attenzione dal singolo messaggio ad una sequenza di differenti messaggi e iterazioni agentiche. La richiesta è stata resa meno evidente e il controllo di sicurezza puntuale ha perso la sua efficacia.

Advertising

Per chi si occupa di sicurezza informatica, l’analogia con i “malware staged” è piuttosto naturale. Il contenuto dannoso non è sempre presente fin dall’inizio, ma viene “spezzettato” in payload diversi che, quando si ricompongono, eseguono il flusso dell’attacco completo.

La sicurezza dei modelli di intelligenza artificiale non può più limitarsi a valutare la singola interazione. I modelli avanzati non sono più semplici generatori di testo, ma sistemi che possono analizzare codice, produrre script e coordinare passaggi.

Occorre comprendere che ora non si attacca più solo la risposta del modello, ma un intero workflow che porta ad una riposta complessiva. Quindi, il problema non più solo quello di capire se un modello si possa convincere a dire qualcosa che non dovrebbe dire. In questo nuovo paradigma, risulta necessario capire se un insieme di richieste, agenti, strumenti e passaggi possano produrre ad un risultato che viola le regole di sicurezza.

La sicurezza deve iniziare a chiedersi non solo “questa richiesta è consentita?”, ma anche “questa sequenza dove sta andando?”.

La sicurezza dell’AI dovrà fare un salto simile a quello della cybersecurity. Dovremo passare dalla moderazione della singola richiesta alla rilevazione dell’intenzione distribuita.

Advertising

L’intenzione distribuita è un problema serio per i prossimi anni. L’attaccante non chiede mai direttamente la cosa vietata. Spezza l’obiettivo in più parti, distribuisce i pezzi su moduli diversi e lascia che sia il sistema a ricomporre quello che non doveva ricomporre.

La richiesta dannosa non esiste come singolo atto: emerge dalla somma di azioni innocue. Ed è qui che fallisce il modello difensivo.

Il caso Fable/Mythos porta alla luce due questioni distinte ma collegate.

La prima è tecnica, le protezioni statiche oggi non bastano più quando il rischio diventa “agentico”, e quindi distribuito e ricomponibile.
La seconda è politica, pertanto se un governo può imporre la sospensione degli accessi a un modello per ragioni di sicurezza nazionale, la frontiera dell’AI non è solo un mercato tecnologico, ma una capacità che viene soggetta a logiche di sovranità, controllo, export, accesso selettivo e governance geopolitica.

Va anche detto che una velocità di questo genere non è compatibile con una governance lenta, opaca oppure palesemente improvvisata. Qua non si parla di scelta tra sicurezza e innovazione. La sicurezza è necessaria, ma deve essere proporzionata e verificabile, pertanto non si tratta di un atto di fede.

L’innovazione è importante, ma chi la sostiene non può più ignorare che i modelli agentici saranno sempre più capaci di diventare strumenti di potere anche per chi li usa in modo non corretto.

Un’AI senza sicurezza è un punto debole enorme, come una sicurezza senza proporzionalità è un freno che può essere usato come una enorme leva di potere. La vera minaccia che abbiamo di fronte, è una rete complessa di modelli, strumenti e contesti che possono lavorare assieme per creare qualcosa che nessun controllo atomico può vedere nella sua interezza.

Il caso di Anthropic, Fable e Mythos non è solo una polemica momentanea, ma un segnale concreto di come la sicurezza sarà messa alla prova nei prossimi anni.

Immaginate ad esempio un malware che si attiva solo in determinate condizioni. Allo stesso modo, nei sistemi basati su agenti intelligenti, l’intenzione potrebbe emergere solo quando tutti gli elementi sono allineati ad uno specifico contesto. Per coloro che si occupano seriamente di sicurezza informatica, questa non è fantascienza. Sembra piuttosto la prossima frontiera della minaccia. È presumibilmente il nuovo terreno di battaglia su cui dobbiamo essere pronti a difenderci.

📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su 🔔 Google News.
Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram.
Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici

Sandro Sana

CISO, Head of Cybersecurity del gruppo Eurosystem SpA. Membro del gruppo di Red Hot Cyber Dark Lab e direttore del Red Hot Cyber PodCast. Si occupa d'Information Technology dal 1990 e di Cybersecurity dal 2014 (CEH - CIH - CISSP - CSIRT Manager - CTI Expert), relatore a SMAU 2017 e SMAU 2018, docente SMAU Academy & ITS, membro ISACA. Fa parte del Comitato Scientifico del Competence Center nazionale Cyber 4.0, dove contribuisce all’indirizzo strategico delle attività di ricerca, formazione e innovazione nella cybersecurity. Autore del libro "IL FUTURO PROSSIMO"

Aree di competenza: Cyber Threat Intelligence, NIS2, Governance & Compliance della Sicurezza, CSIRT & Crisis Management, Ricerca, Divulgazione e Cultura Cyber

Visita il sito web dell'autore