Anthropic ha affermato che Project Glasswing ha già rilevato più di 10.000 vulnerabilità critiche e di elevata gravità nei software chiave. Il progetto è stato lanciato un mese fa come iniziativa congiunta con circa 50 partner: l’obiettivo è rafforzare in modo proattivo il codice prima che potenti modelli di intelligenza artificiale inizino a essere utilizzati in massa per trovare e sfruttare i bug.
Il risultato principale delle prime settimane sembra essere negativo per l’intero settore della sicurezza: il collo di bottiglia è cambiato. In precedenza, sviluppatori e ricercatori erano limitati dalla velocità di individuazione di nuove vulnerabilità. Ora Claude Mythos Preview li trova così velocemente che non ci sono abbastanza persone per esaminarli, divulgarli in modo responsabile e preparare le correzioni.
Anthropic non rivela i dettagli tecnici di questa iniziativa ed è un male. L’industria segue da tempo una procedura rigorosa: di solito una nuova vulnerabilità viene resa pubblica 90 giorni dopo la scoperta, o circa 45 giorni dopo il rilascio di una patch se la correzione è apparsa prima. Questo periodo è necessario affinché gli utenti abbiano il tempo di aggiornarsi prima che i dettagli arrivino agli aggressori. Pertanto, l’azienda ora fornisce solo cifre aggregate ed esempi, anziché un’analisi completa di tutti gli errori rilevati.
I partner del progetto Glasswing mantengono i sistemi software da cui dipendono Internet e le infrastrutture critiche. Nel primo mese, la maggior parte dei partecipanti ha riscontrato centinaia di vulnerabilità elevate o critiche nel proprio codice. Diverse aziende hanno riferito che la velocità di individuazione dei bug è aumentata di oltre 10 volte. Su Cloudflare, ad esempio, il modello ha rilevato 2.000 bug nei sistemi critici, di cui 400 hanno ricevuto una valutazione alta o critica. Lo stesso Cloudflare ha riscontrato che il tasso di falsi positivi è migliore di quello dei tester umani.
Gli audit esterni hanno mostrato risultati simili. L’AI Safety Institute del Regno Unito ha affermato che Mythos Preview è stato il primo modello a superare entrambi i test informatici dall’inizio alla fine. Tali poligoni simulano attacchi in più fasi, dove non è sufficiente trovare un errore: è necessario costruire una catena di azioni. Mozilla ha rilevato e corretto 271 vulnerabilità in Firefox 150 durante i test di Mythos Preview. Questo è più di 10 volte superiore a quello trovato in Firefox 148 con Claude Opus 4.6.
La piattaforma indipendente XBOW ha definito Mythos Preview un miglioramento significativo rispetto ai modelli esistenti nei test delle prestazioni web. Anche le suite accademiche ExploitBench ed ExploitGym, che misurano la capacità di un’intelligenza artificiale di sviluppare exploit, hanno posizionato Mythos Preview in cima ai modelli testati.
Le prime conseguenze sono già visibili nelle patch. Nell’ultima versione di Palo Alto Networks sono state apportate correzioni oltre 5 volte superiori al solito. Microsoft ha avvertito che il numero di nuove patch continuerà a crescere per qualche tempo. Oracle ha inoltre iniziato a individuare e risolvere le vulnerabilità nei suoi prodotti e nel cloud molto più velocemente di prima.
Mythos Preview è stato utile non solo per l’analisi del codice. Presso una delle banche partecipanti al progetto Glasswing, il modello ha contribuito a individuare e bloccare un trasferimento fraudolento di 1,5 milioni di dollari. Prima di ciò, l’aggressore aveva compromesso l’e-mail del cliente e utilizzato telefonate false.
Separatamente, Anthropic esamina il codice open source. Negli ultimi mesi, l’azienda ha scansionato più di 1.000 progetti open source che alimentano una parte significativa di Internet e dell’infrastruttura propria di Anthropic. Il modello ha rilevato 23.019 potenziali vulnerabilità di tutti i livelli di gravità. Di questi, ne ha valutati 6.202 come elevati o critici.
Alcuni dei risultati sono già stati verificati da 6 società di sicurezza indipendenti e dalla stessa Anthropic. Delle 1.752 vulnerabilità elevate o critiche, il 90,6% erano problemi reali e il 62,4% è stato confermato di gravità iniziale. In numeri assoluti, si tratta di 1.587 vulnerabilità reali e 1.094 errori confermati di livello elevato o critico. Se l’attuale tasso di conferma venisse mantenuto, anche senza nuove scoperte, Mythos Preview potrebbe esporre quasi 3.900 gravi vulnerabilità open source.
Un esempio riguarda wolfSSL, una libreria di crittografia open source utilizzata da miliardi di dispositivi. Mythos Preview ha creato un exploit per un bug che consente lo spoofing dei certificati. In uno scenario pratico, un utente malintenzionato potrebbe creare un falso sito Web di una banca o di un servizio di posta elettronica che sembrerebbe legittimo a un utente medio. La vulnerabilità è già stata chiusa, le è stato assegnato il numero CVE-2026-5194 e Anthropic promette di pubblicare un’analisi tecnica nelle prossime settimane.
La verifica di tali reperti richiede molto lavoro manuale. Innanzitutto, gli specialisti riproducono il problema, rivalutano il pericolo, verificano le soluzioni e solo dopo preparano un rapporto dettagliato per gli sviluppatori del progetto. Anthropic sottolinea che i manutentori open source devono avvicinarsi a loro con cautela: sono già inondati di report generati dall’intelligenza artificiale di bassa qualità. Diversi team hanno chiesto ad Anthropic di rallentare la rivelazione perché hanno bisogno di più tempo per la patch. In media, una vulnerabilità grave rilevata da Mythos Preview viene chiusa in 2 settimane.
A volte gli sviluppatori chiedono di segnalare direttamente i bug, senza ulteriori verifiche. Pertanto, Anthropic ha già divulgato 1.129 risultati non verificati, di cui il modello ha valutato 175 come elevati o critici. In totale, sono state segnalate ai manutentori 530 vulnerabilità gravi. Anthropic prevede di risolvere altri 827 problemi confermati il più rapidamente possibile.
Al momento sono presenti meno patch rispetto ai bug rilevati. Delle 530 vulnerabilità elevate o critiche segnalate, 75 sono state risolte e 65 hanno ricevuto avvisi pubblici. Anthropic spiega la rottura per 3 ragioni. Innanzitutto, molti ritrovamenti rientrano ancora nella finestra di scoperta coordinata di 90 giorni. Secondo: alcuni progetti risolvono i bug senza bollettini pubblici, quindi devi cercare le patch separatamente. Il terzo è più importante degli altri: anche il ritmo cauto della divulgazione sta già travolgendo l’ecosistema della sicurezza.
Per gli sviluppatori si avvicina un pericoloso periodo transitorio. I modelli Mythos Preview riducono drasticamente i tempi e i costi di ricerca delle vulnerabilità, ma il rilascio e l’installazione delle patch sono ancora più lenti. In futuro, tali sistemi potrebbero aiutare a scrivere codice più sicuro anche prima del rilascio. Ora il settore ha ricevuto molte nuove scoperte e i consueti processi di verifica e aggiornamento non riescono a tenere il passo con la velocità dell’intelligenza artificiale.
Anthropic consiglia agli sviluppatori di abbreviare i cicli di patch, fornire correzioni agli utenti più rapidamente e semplificare l’installazione degli aggiornamenti. Le organizzazioni che proteggono le reti devono accelerare i test e l’implementazione delle patch e non rimandare le nozioni di base: impostazioni predefinite solide, autenticazione a più fattori e robusti registri di indagine sugli incidenti. Tali misure riducono il rischio anche quando non è stata ancora installata una patch separata.
L’azienda ha già iniziato a donare alcuni dei suoi strumenti ai difensori. Claude Security è ora in versione beta pubblica per i clienti Claude Enterprise. Il servizio esegue la scansione delle basi di codice, cerca vulnerabilità e suggerisce correzioni. Nelle prime 3 settimane, Claude Opus 4.7 è stato utilizzato per chiudere più di 2.100 vulnerabilità. Nel codice aziendale, il processo è più veloce che nei progetti open source, perché le aziende gestiscono i propri sistemi, invece di aspettare manutentori volontari e una procedura di divulgazione coordinata.
Anthropic ha anche lanciato un programma di verifica informatica. Il programma consente ai professionisti della sicurezza di utilizzare modelli per attività legittime, tra cui ricerca di vulnerabilità, test di penetrazione e simulazione di attacchi, senza alcune delle restrizioni necessarie per la protezione dagli abusi. Per i clienti qualificati l’azienda mette a disposizione gli strumenti che essa stessa ha utilizzato con Mythos Preview: serie di istruzioni per attività ripetitive, un quadro per l’analisi del codice base, l’esecuzione di subagenti, l’ordinamento dei risultati e la preparazione di report, nonché un progettista di modelli di minaccia che aiuta a capire quali parti del progetto sono più interessanti per l’aggressore.
Carolina Vivianti è consulente/Advisor autonomo in sicurezza informatica con esperienza nel settore tech e security. Ha lavorato come Security Advisor per Ford EU/Ford Motor Company e Vodafone e ha studi presso la Sapienza Università di Roma.
Aree di competenza: Cybersecurity, IT Risk Management, Security Advisory, Threat Analysis, Data Protection, Cloud Security, Compliance & Governance