Hype durato 48 ore! Claude Fable 5 crackato a tempo record e si riapre il dibattito sul cloud

11 Giugno 2026 11:33

In sintesi

Il 9 giugno 2026 Anthropic ha lanciato Claude Fable 5 (classe Mythos), AI avanzata per coding e knowledge work. Pochi giorni dopo il ricercatore Pliny the Liberator ha aggirato i filtri di sicurezza con attacchi multi-agente (“pack hunt”), Unicode e decomposizione, arrivando a esporre il system prompt da 120.000 caratteri. Il caso evidenzia limiti dei sistemi di sicurezza e nuove sfide per i modelli AI multi-agente, oltre ai problemi endemici sull'utilizzo delle tecnologie cloud non controllabili ed auditabili.

Proprio ieri, ci chiudevamo in un nostro articolo, se il nuovo modello di Anthropic Fable 5 appena rilasciato, sarebbe stato così sicuro da non consentirne il Jailbreak. Ma come volevasi dimostrare, le protezioni messe in atto sono state superate.

Il 9 giugno 2026, Anthropic ha lanciato Claude Fable 5, il primo modello pubblicamente disponibile della nuova classe Mythos, come abbiamo riportato nella giornata di ieri. Si tratta della loro AI più avanzata fino ad oggi creata, che eccelle nel software engineering, knowledge work e benchmark di visione.

Tuttavia, pochi giorni dopo il lancio, il ricercatore noto come “Pliny the Liberator” è riuscito a bypassare i classificatori di sicurezza del modello utilizzando tecniche di decomposizione multi-agente, trucchi Unicode e narrative framing. Durante questo processo, Pliny ha anche divulgato la system prompt di 120.000 caratteri del modello.

Advertising

Una peculiarità del rilascio di Fable 5 è stata la decisione di dividere il modello in due versioni: Fable 5 e Claude Mythos 5, che condividono lo stesso nucleo ma sono separati da una serie di classificatori di sicurezza.

Quando una richiesta viene identificata come ad alto rischio (nelle categorie cybersecurity, biologia, chimica o model distillation), Fable 5 passa silenziosamente la richiesta a Claude Opus 4.8, una versione meno potente del modello, informando l’utente della sostituzione.

Anthropic aveva dichiarato in precedenza, che un bug bounty esterno non aveva prodotto jailbreaks dopo ben oltre 1.000 ore di testing pre-lancio. Questa affermazione è stata messa alla prova da Pliny the Liberator, che ha annunciato di aver bypassato le protezioni di Fable 5 utilizzando una strategia di attacco multi-agente chiamata “pack hunt”.

Cosa si intende per attacco “pack hunt”

La “pack hunt”. rientra nelle tecniche e strategie di attacco informatico multi-agente, che vengono ispirate dal comportamento predatorio dei branchi in natura. Invece di affidarsi ad un singolo agente, la tecnica nello specifico, prevede il coordinamento di più agenti AI che operano in parallelo, ciascuno con un ruolo specializzato in ricognizione, intrusione, escalation dei privilegi, esfiltrazione dei dati e copertura delle tracce.

Advertising

Questa divisione dei compiti nelle applicazioni agentiche, consente di rendere un attacco più efficiente, poiché ogni agente riesce ad ottimizzare le proprie azioni su un sottoinsieme specifico senza dover gestire l’intera catena di compromissione da solo. La vera forza della pack hunt risiede nella capacità di collaborazione degli agenti e nella capacità di saturare e confondere i sistemi difensivi.

Mentre un attacco tradizionale genera una minaccia lineare e riconoscibile, un attacco che viene “orchestrato” da più agenti produce segnali simultanei che sovraccaricano i meccanismi di rilevamento e possono causare il superamento delle protezioni di sicurezza.

Le difese convenzionali realizzate per rispondere a minacce sequenziali e prevedibili, spesso faticano ad adattarsi alla natura distribuita di questi attacchi. Con la crescente diffusione di framework multi-agente basati su modelli linguistici, la pack hunt rappresenta una delle sfide emergenti più complesse per la cybersecurity.

Un bypass non troppo difficile

Pliny ha documentato con molte print screen, i vari vettori di attacco utilizzati per ottenere questi bypass, tra cui la sostituzione di caratteri Unicode, homoglyphs e Cyrillic per evitare i classificatori di parole chiave, il tracciamento del contesto lungo per smuggolare intenzioni dannose attraverso conversazioni estese e l’uso di strutture narrative per mascherare intenti offensivi come contenuti creativi.

La tecnica più efficace è risultata essere la decomposizione e ricomposizione: estrarre informazioni tecniche sensibili in frammenti innocui, isolati, e poi ricostruirli in azioni concrete.

Pliny ha anche divulgato il system prompt di Fable 5 su GitHub, esponendo le istruzioni interne create da Anthropic per governare il comportamento del modello.

Questo incidente riaccende (come ne eravamo certi) la tensione tra capacità dell’IA e contenimento della sicurezza.

Pliny sostiene che questo approccio crea una falsa sensazione di sicurezza, frustrando allo stesso tempo i ricercatori che necessitano di tecniche offensive per il lavoro difensivo. Anthropic non ha ancora risposto pubblicamente alle accuse di Pliny.

Inoltre, Pliny ha effettuato il jailbreak e lo ha comunicato pubblicamente. Quanti ricercatori di sicurezza “borderline” non lo hanno fatto? Quanti ricercatori ad oggi potrebbero utilizzare queste potenti armi cibernetiche bypassando la loro sicurezza all’insaputa delle aziende che producono questi LLM, accedendo alle loro capacità e alle informazioni sensibili in esse contenute?

Come al solito ritorniamo inevitabilmente al discorso del Cloud, alla sicurezza nazionale, alle tecnologie proprietarie e ai costi da pagare per l’utilizzo dei token e alla centralizzazione delle informazioni e all’impossibilità, purtroppo, di averne il controllo.

📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su 🔔 Google News.
Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram.
Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici

Carolina Vivianti

Carolina Vivianti è consulente/Advisor autonomo in sicurezza informatica con esperienza nel settore tech e security. Ha lavorato come Security Advisor per Ford EU/Ford Motor Company e Vodafone e ha studi presso la Sapienza Università di Roma.

Aree di competenza: Cybersecurity, IT Risk Management, Security Advisory, Threat Analysis, Data Protection, Cloud Security, Compliance & Governance