Fable 5 hackerato di nuovo dopo 48 ore: riscoppia l’allarme sicurezza nazionale?

In sintesi

Nuovo jailbreak di Anthropic Claude Fable 5 a pochi giorni dal rilascio. Il ricercatore Vitto Rivabella segnala un bypass parziale dei sistemi di sicurezza basati su analisi semantica e controlli input/output multilingue. Si riapre il dibattito su sicurezza AI, dual use e modelli chiusi vs open weight.

Secondo una serie di indiscrezioni circolate online, il modello “Fable 5” sarebbe stato nuovamente hackerato. Anche questa volta avviene dopo soli 2 giorni dalla sua pubblicazione (la seconda), a seguito del ban da parti degli Stati Uniti per paure relative alla sicurezza nazionale.

Con un thread su X, il ricercatore di sicurezza Vitto Rivabella, riporta che un nuovo tentativo di jailbreak su Fable 5 è nuovamente riuscito. Questa volta l’autore descrive un sistema difensivo differente, particolarmente robusto, con livelli di protezione e controlli diversi, sia in input sia in output.

Secondo quanto riportato, il modello non si limita ad applicare filtri basati su parole chiave, ma utilizza meccanismi di analisi semantica e di intenzione. Questi filtri risultano essere capaci di interpretare il contesto delle richieste in diverse lingue.

Advertising

Relativamente ai livelli di classificatori, uno risulta essere legato all’input e alla memoria della conversazione, mentre un altro è capace di interrompere l’output se rileva contenuti sensibili. Viene sottolineato che tali protezioni agiscono in multilingue e sono particolarmente sensibili alle richieste formulate in modo imperativo o con intenzioni potenzialmente dannose.

Alcune lingue meno diffuse, secondo l’autore, mostrerebbero una minore efficacia nello sfruttamento di intnzioni malevole.

L’autore riporta che il tentativo di jailbreak ha richiesto una lunga sequenza di interazioni. Queste iterazioni erano caratterizzate da continue riformulazioni e adattamenti del contesto, nel tentativo di eludere i controlli automatici. L’autore descrive un processo basato su strategie di manipolazione del contesto e su variazioni progressive dell’impostazione delle richieste. Questo ha portato a “decongestionare” i filtri semantici e quindi ad ottenere delle risposte meno vincolate dai guardrail.

Il risultato viene presentato come parzialmente riuscito, ma ottenuto a fronte di un sistema che rimane comunque altamente reattivo e difficile da forzare in modo stabile.

Il thread prosegue con la descrizione di un tentativo complesso e non lineare di superamento delle difese, che avrebbe prodotto output eterogenei, inclusi contenuti problematici come disinformazione e materiale potenzialmente dannoso.

Advertising

Nel frattempo, sta emergendo un più ampio dibattito sull’intelligenza artificiale di frontiera, soprattutto verso i modelli open weight di origine cinese. Alcuni sistemi come l’ultimo rilasciato da z.ai, ovvero GML 5.2, è stato pubblicizzato come di categoria Mythos. Questa caratteristica sta alimentando una riflessione molto ampia sul concetto di “dual use” e sull’equilibrio tra sicurezza, trasparenza e possibilità di personalizzazione dei modelli avanzati.

Il caso Fable 5, sembra inserirsi in una tendenza ampia: quella di una corsa continua tra rafforzamento delle difese e ricerca di nuovi modi per metterle alla prova. Va da se che il mondo si sta spaccando in due, dove gli Stati Uniti D’America vogliono vendere tutto in logica “a token” e quindi “cloud”. Mentre un’altra parte del mondo che vuole distruggere questa logica fornendo modelli di frontiera gratuiti ed utilizzabili in casa.

Alla fin dei conti si tratta di una nuova guerra dove le vere keywords sono: economia e influenza.

📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su 🔔 Google News.
Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram.
Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici

Massimiliano Brolli

Responsabile del RED Team di una grande azienda di Telecomunicazioni e dei laboratori di sicurezza informatica in ambito 4G/5G. Ha rivestito incarichi manageriali che vanno dal ICT Risk Management all’ingegneria del software alla docenza in master universitari.

Aree di competenza: Bug Hunting, Red Team, Cyber Threat Intelligence, Cyber Warfare e Geopolitica, Divulgazione