Il modello Fable 5 è stato nuovamente hackerato nonostante i suoi sistemi di difesa avanzati, con analisi semantica e controlli multilingue. La notizia segue una serie di indiscrezioni online e solleva interrogativi sulla sicurezza dei modelli di intelligenza artificiale.
Secondo una serie di indiscrezioni circolate online, il modello “Fable 5” sarebbe stato nuovamente hackerato. Anche questa volta avviene dopo soli 2 giorni dalla sua pubblicazione (la seconda), a seguito del ban da parti degli Stati Uniti per paure relative alla sicurezza nazionale.
Con un thread su X, il ricercatore di sicurezza Vitto Rivabella, riporta che un nuovo tentativo di jailbreak su Fable 5 è nuovamente riuscito. Questa volta l’autore descrive un sistema difensivo differente, particolarmente robusto, con livelli di protezione e controlli diversi, sia in input sia in output.
Secondo quanto riportato, il modello non si limita ad applicare filtri basati su parole chiave, ma utilizza meccanismi di analisi semantica e di intenzione. Questi filtri risultano essere capaci di interpretare il contesto delle richieste in diverse lingue.
Advertising
Relativamente ai livelli di classificatori, uno risulta essere legato all’input e alla memoria della conversazione, mentre un altro è capace di interrompere l’output se rileva contenuti sensibili. Viene sottolineato che tali protezioni agiscono in multilingue e sono particolarmente sensibili alle richieste formulate in modo imperativo o con intenzioni potenzialmente dannose.
Alcune lingue meno diffuse, secondo l’autore, mostrerebbero una minore efficacia nello sfruttamento di intnzioni malevole.
L’autore riporta che il tentativo di jailbreak ha richiesto una lunga sequenza di interazioni. Queste iterazioni erano caratterizzate da continue riformulazioni e adattamenti del contesto, nel tentativo di eludere i controlli automatici. L’autore descrive un processo basato su strategie di manipolazione del contesto e su variazioni progressive dell’impostazione delle richieste. Questo ha portato a “decongestionare” i filtri semantici e quindi ad ottenere delle risposte meno vincolate dai guardrail.
Il risultato viene presentato come parzialmente riuscito, ma ottenuto a fronte di un sistema che rimane comunque altamente reattivo e difficile da forzare in modo stabile.
Il thread prosegue con la descrizione di un tentativo complesso e non lineare di superamento delle difese, che avrebbe prodotto output eterogenei, inclusi contenuti problematici come disinformazione e materiale potenzialmente dannoso.
Advertising
Nel frattempo, sta emergendo un più ampio dibattito sull’intelligenza artificiale di frontiera, soprattutto verso i modelli open weight di origine cinese. Alcuni sistemi come l’ultimo rilasciato da z.ai, ovvero GML 5.2, è stato pubblicizzato come di categoria Mythos. Questa caratteristica sta alimentando una riflessione molto ampia sul concetto di “dual uese” e sull’equilibrio tra sicurezza, trasparenza e possibilità di personalizzazione dei modelli avanzati.
Il caso Fable 5, sembra inserirsi in una tendenza ampia: quella di una corsa continua tra rafforzamento delle difese e ricerca di nuovi modi per metterle alla prova. Va da se che il mondo si sta spaccando in due, dove gli Stati Uniti D’America vogliono vendere tutto in logica “a token” e quindi “cloud”. Mentre un’altra parte del mondo che vuole distruggere questa logica fornendo modelli di frontiera gratuiti ed utilizzabili in casa.
Alla fin dei conti si tratta di una nuova guerra dove le vere keywords sono: economia e influenza.
📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su Google Discover (scorri in basso e clicca segui) e su 🔔 Google News. Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram. Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici
Responsabile del RED Team di una grande azienda di Telecomunicazioni e dei laboratori di sicurezza informatica in ambito 4G/5G. Ha rivestito incarichi manageriali che vanno dal ICT Risk Management all’ingegneria del software alla docenza in master universitari.
Aree di competenza:Bug Hunting, Red Team, Cyber Threat Intelligence, Cyber Warfare e Geopolitica, Divulgazione
Betti RHC, la prima graphic novel al mondo dedicata alla cybersecurity awareness, ha finalmente il suo sito ufficiale. Uno spazio tutto suo dove scoprire il progetto, sfogliare le copertine degli episodi e immergersi nel mondo di Betti: la giovane laureanda in informatica che, dopo la morte misteriosa del padre, si trasforma nell'hacker più potente del mondo. Una storia avvincente che, episodio dopo episodio, affronta una minaccia digitale diversa — dal phishing al ransomware, fino al cyberbullismo — e insegna a riconoscerla e a difendersi, senza che sembri mai una lezione.
Sul sito trovate tutto ciò che rende Betti un progetto diverso dal solito: la sua filosofia, le anteprime delle tavole e il racconto di come nasce ogni volume. Perché dietro Betti RHC c'è solo lavoro umano: ogni tavola è disegnata interamente a mano dagli artisti del Gruppo Arte di Red Hot Cyber, senza alcun uso di intelligenza artificiale. E a garantire che ogni storia sia realistica e tecnicamente corretta c'è la supervisione degli hacker etici del gruppo HackerHood, che mantengono il racconto fedele al mondo reale della sicurezza informatica.
C'è spazio anche per le aziende, che possono usare Betti come strumento di awareness diverso dai soliti corsi: acquistare i volumi, personalizzarli con il proprio brand o sponsorizzare nuovi episodi. E come primo regalo, l'episodio "Byte the Silence", dedicato al cyberbullismo, è scaricabile gratuitamente per uso personale.