Il 9 giugno 2026 Anthropic ha lanciato Claude Fable 5 (classe Mythos), AI avanzata per coding e knowledge work. Pochi giorni dopo il ricercatore Pliny the Liberator ha aggirato i filtri di sicurezza con attacchi multi-agente (“pack hunt”), Unicode e decomposizione, arrivando a esporre il system prompt da 120.000 caratteri. Il caso evidenzia limiti dei sistemi di sicurezza e nuove sfide per i modelli AI multi-agente, oltre ai problemi endemici sull'utilizzo delle tecnologie cloud non controllabili ed auditabili.
Proprio ieri, ci chiudevamo in un nostro articolo, se il nuovo modello di Anthropic Fable 5 appena rilasciato, sarebbe stato così sicuro da non consentirne il Jailbreak. Ma come volevasi dimostrare, le protezioni messe in atto sono state superate.
Il 9 giugno 2026, Anthropic ha lanciato Claude Fable 5, il primo modello pubblicamente disponibile della nuova classe Mythos, come abbiamo riportato nella giornata di ieri. Si tratta della loro AI più avanzata fino ad oggi creata, che eccelle nel software engineering, knowledge work e benchmark di visione.
Tuttavia, pochi giorni dopo il lancio, il ricercatore noto come “Pliny the Liberator” è riuscito a bypassare i classificatori di sicurezza del modello utilizzando tecniche di decomposizione multi-agente, trucchi Unicode e narrative framing. Durante questo processo, Pliny ha anche divulgato la system prompt di 120.000 caratteri del modello.
Advertising
Una peculiarità del rilascio di Fable 5 è stata la decisione di dividere il modello in due versioni: Fable 5 e Claude Mythos 5, che condividono lo stesso nucleo ma sono separati da una serie di classificatori di sicurezza.
Quando una richiesta viene identificata come ad alto rischio (nelle categorie cybersecurity, biologia, chimica o model distillation), Fable 5 passa silenziosamente la richiesta a Claude Opus 4.8, una versione meno potente del modello, informando l’utente della sostituzione.
Anthropic aveva dichiarato in precedenza, che un bug bounty esterno non aveva prodotto jailbreaks dopo ben oltre 1.000 ore di testing pre-lancio. Questa affermazione è stata messa alla prova da Pliny the Liberator, che ha annunciato di aver bypassato le protezioni di Fable 5 utilizzando una strategia di attacco multi-agente chiamata “pack hunt”.
Cosa si intende per attacco “pack hunt”
La “pack hunt”. rientra nelle tecniche e strategie di attacco informatico multi-agente, che vengono ispirate dal comportamento predatorio dei branchi in natura. Invece di affidarsi ad un singolo agente, la tecnica nello specifico, prevede il coordinamento di più agenti AI che operano in parallelo, ciascuno con un ruolo specializzato in ricognizione, intrusione, escalation dei privilegi, esfiltrazione dei dati e copertura delle tracce.
Advertising
Questa divisione dei compiti nelle applicazioni agentiche, consente di rendere un attacco più efficiente, poiché ogni agente riesce ad ottimizzare le proprie azioni su un sottoinsieme specifico senza dover gestire l’intera catena di compromissione da solo. La vera forza della pack hunt risiede nella capacità di collaborazione degli agenti e nella capacità di saturare e confondere i sistemi difensivi.
Mentre un attacco tradizionale genera una minaccia lineare e riconoscibile, un attacco che viene “orchestrato” da più agenti produce segnali simultanei che sovraccaricano i meccanismi di rilevamento e possono causare il superamento delle protezioni di sicurezza.
Le difese convenzionali realizzate per rispondere a minacce sequenziali e prevedibili, spesso faticano ad adattarsi alla natura distribuita di questi attacchi. Con la crescente diffusione di framework multi-agente basati su modelli linguistici, la pack hunt rappresenta una delle sfide emergenti più complesse per la cybersecurity.
Un bypass non troppo difficile
Pliny ha documentato con molte print screen, i vari vettori di attacco utilizzati per ottenere questi bypass, tra cui la sostituzione di caratteri Unicode, homoglyphs e Cyrillic per evitare i classificatori di parole chiave, il tracciamento del contesto lungo per smuggolare intenzioni dannose attraverso conversazioni estese e l’uso di strutture narrative per mascherare intenti offensivi come contenuti creativi.
La tecnica più efficace è risultata essere la decomposizione e ricomposizione: estrarre informazioni tecniche sensibili in frammenti innocui, isolati, e poi ricostruirli in azioni concrete.
Pliny ha anche divulgato il system prompt di Fable 5 su GitHub, esponendo le istruzioni interne create da Anthropic per governare il comportamento del modello.
Questo incidente riaccende (come ne eravamo certi) la tensione tra capacità dell’IA e contenimento della sicurezza.
Pliny sostiene che questo approccio crea una falsa sensazione di sicurezza, frustrando allo stesso tempo i ricercatoriche necessitano di tecniche offensive per il lavoro difensivo. Anthropic non ha ancora risposto pubblicamente alle accuse di Pliny.
Inoltre, Pliny ha effettuato il jailbreak e lo ha comunicato pubblicamente. Quanti ricercatori di sicurezza “borderline” non lo hanno fatto? Quanti ricercatori ad oggi potrebbero utilizzare queste potenti armi cibernetiche bypassando la loro sicurezza all’insaputa delle aziende che producono questi LLM, accedendo alle loro capacità e alle informazioni sensibili in esse contenute?
Come al solito ritorniamo inevitabilmente al discorso del Cloud, alla sicurezza nazionale, alle tecnologie proprietarie e ai costi da pagare per l’utilizzo dei token e alla centralizzazione delle informazioni e all’impossibilità, purtroppo, di averne il controllo.
📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su Google Discover (scorri in basso e clicca segui) e su 🔔 Google News. Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram. Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici
Carolina Vivianti è consulente/Advisor autonomo in sicurezza informatica con esperienza nel settore tech e security. Ha lavorato come Security Advisor per Ford EU/Ford Motor Company e Vodafone e ha studi presso la Sapienza Università di Roma.
Aree di competenza:Cybersecurity, IT Risk Management, Security Advisory, Threat Analysis, Data Protection, Cloud Security, Compliance & Governance
Dopo il successo delle scorse edizioni, Red Hot Cyber è lieta di annunciare una nuova live-class del corso "Dark Web & Cyber Threat Intelligence". A differenza dei corsi e-learning pre-registrati, queste lezioni online in tempo reale, condotte dal professor Pietro Melillo, offrono un’esperienza formativa interattiva e coinvolgente, ideale per approfondire i contenuti e affrontare casi pratici.
Le Live Class sono progettate per garantire un apprendimento mirato e personalizzato, con un massimo di 14 partecipanti per sessione. Questo consente di adattare il percorso formativo alle esigenze specifiche, ma anche di mantenere alta la qualità: i posti sono limitati e nelle scorse edizioni sono andati in sold-out due settimane prima dell’inizio. Prenota subito per assicurarti il tuo posto!
Docente: Pietro Melillo, PhD presso l’Università del Sannio e docente presso IUSI University
Livello: Intermedio
Durata: 15 ore in Live Class con docente dal vivo
Prerequisiti: Navigazione Internet e conoscenze base di sicurezza informatica
Certificazione : Cyber Threat Intelligence Professional (CTIP) previo superamento dell’esame finale
Opportunità post-corso: Accesso al laboratorio operativo DarkLab per attività pratiche di intelligence
Al termine del corso, potrai accedere all’esclusivo Laboratorio di Intelligence DarkLab, un ambiente operativo dove mettere in pratica le competenze acquisite. Sarà l’occasione per sperimentare attività di investigazione nel Dark Web, analisi delle minacce e redazione di report di intelligence e ricerche approfondite.