Negli ultimi mesi il panorama della sicurezza offensiva assistita da intelligenza artificiale è cambiato molto rapidamente. Sempre più framework open source stanno introducendo modelli agentici in grado di automatizzare attività tipiche del penetration testing: ricognizione, enumerazione, exploit e validazione delle vulnerabilità.
Questo ha generato un ecosistema ricchissimo di progetti sperimentali, ma anche una certa confusione. Non tutti i framework che promettono AI pentesting autonomo sono davvero maturi o meritano il tempo necessario per un Proof-of-Concept. Per capire quali soluzioni hanno davvero potenziale serve un punto di riferimento oggettivo.
Uno degli strumenti più interessanti emersi recentemente è XBOW Benchmark, una suite di test progettata per valutare in modo rigoroso le capacità dei sistemi di penetration testing autonomo basati su LLM e architetture multi-agente.
XBOW Benchmark è una raccolta di 104 sfide di sicurezza web progettate per simulare vulnerabilità realistiche e verificare se un sistema agentico sia effettivamente in grado di sfruttarle. Il benchmark copre una vasta gamma di scenari, tra cui SSRF, configurazioni di sicurezza errate, problemi di autorizzazione, SQL injection, command injection, server-side template injection e cross-site scripting.
L’obiettivo non è semplicemente verificare la capacità di individuare una vulnerabilità, ma testare l’intero processo di sfruttamento. Questo significa che il sistema deve analizzare l’applicazione, individuare il punto debole, costruire un payload efficace e dimostrare l’impatto reale della vulnerabilità.
Per garantire la riproducibilità degli esperimenti, ogni test viene eseguito all’interno di container Docker isolati, che mantengono lo stato della sessione, le credenziali eventualmente ottenute e gli artefatti prodotti durante il processo di exploit. Questo consente di simulare scenari complessi che richiedono più passaggi di enumerazione e sfruttamento progressivo.
Generalmente i tool agentici, ricreano una pipeline molto simile ai team di sicurezza informatica che svolgono attività di pentesting. La configurazione tipo è la seguente:
XBOW non è l’unico benchmark disponibile per valutare sistemi di penetration testing autonomo basati su LLM e architetture agentiche. Negli ultimi anni la comunità di ricerca ha iniziato a sviluppare diversi framework di misurazione con obiettivi differenti: alcuni puntano a simulare ambienti realistici di attacco, altri analizzano il comportamento degli agenti durante il processo di pentesting e altri ancora valutano la sicurezza degli agenti stessi. Questa varietà di approcci è utile perché permette di osservare le capacità degli agenti da più prospettive.
Uno dei benchmark più interessanti è TermiBench, progettato per valutare agenti di pentesting in ambienti molto più vicini a infrastrutture reali rispetto ai tradizionali scenari CTF. Il framework include 510 host con 25 servizi e 30 vulnerabilità CVE reali, costringendo gli agenti a eseguire un processo completo di ricognizione, identificazione dei servizi vulnerabili ed exploit per ottenere una shell sul sistema. L’obiettivo non è trovare una “flag”, ma raggiungere il controllo del sistema, simulando così un vero scenario di compromissione.
Un altro benchmark interessante è PentestEval, che introduce un approccio diverso: invece di valutare solo il risultato finale dell’attacco, analizza l’intero workflow del penetration testing suddividendolo in più fasi, come raccolta delle informazioni, identificazione delle vulnerabilità, decisione dell’attacco ed exploit generation. Il framework include 346 task distribuiti su 12 scenari vulnerabili, consentendo di capire in quale fase gli agenti LLM falliscono più frequentemente. I risultati mostrano che gli attuali sistemi agentici hanno ancora performance piuttosto limitate quando devono eseguire autonomamente tutte le fasi del pentesting.
Esistono poi benchmark orientati non tanto all’attacco, ma alla sicurezza degli agenti stessi. Un esempio è SecureWebArena, progettato per testare agenti web basati su modelli linguistici in ambienti simulati come piattaforme e-commerce o forum online. Il benchmark include quasi 3000 traiettorie di interazione e valuta come gli agenti reagiscono a manipolazioni dell’ambiente, prompt injection o attacchi adversarial. Questo tipo di valutazione è particolarmente importante perché molti agenti autonomi possono essere facilmente ingannati da input malevoli o contesti manipolati.
Infine esistono benchmark focalizzati sulla sicurezza del codice generato dagli agenti, come SecureAgentBench. In questo caso gli agenti devono modificare repository open source reali introducendo patch sicure senza rompere il funzionamento del software. Il dataset contiene 105 task derivati da vulnerabilità reali in grandi codebase, spesso con centinaia di migliaia di linee di codice. Questo benchmark è utile per misurare la capacità degli agenti di contribuire alla sicurezza durante la fase di sviluppo, piuttosto che durante l’attacco.
Nel complesso, XBOW resta oggi uno dei benchmark più utilizzati per valutare agenti di AI pentesting web, ma non è l’unico riferimento. Framework come TermiBench, PentestEval, SecureWebArena e SecureAgentBench mostrano come la ricerca stia cercando di costruire un ecosistema di metriche più completo per misurare davvero le capacità degli agenti autonomi in ambito sicurezza.
I risultati che si ottengono sul benchmark mostrano chiaramente quali tipi di vulnerabilità sono oggi più facilmente gestibili da sistemi agentici e quali invece restano problematici.
Gli attacchi più efficaci risultano quelli legati a SSRF e configurazioni errate, dove i sistemi testati hanno raggiunto un tasso di successo del 100%. Anche diverse forme di injection, come SQL injection o server-side template injection, mostrano percentuali di successo molto elevate, generalmente superiori all’80%.
Le difficoltà emergono invece in scenari che richiedono un ragionamento più complesso o l’interpretazione di “segnali indiretti”. Gli attacchi XSS, ad esempio, presentano un tasso di successo più moderato, intorno al 57%, spesso a causa della complessità delle interazioni lato client e delle dinamiche complesse lato DOM.
Ancora più problematiche risultano le blind SQL injection, che nel benchmark non sono state sfruttate con successo. Questo tipo di attacco richiede analisi temporali, inferenze indirette e numerose iterazioni di test, elementi che rappresentano ancora un limite per molti sistemi basati su LLM.
Un’altra delle categorie più difficili da individuare per gli agenti autonomi (ma non è una novità per chi si occupa di penetration testing) è quella delle Broken Access Control (BAC), che oggi rappresenta la vulnerabilità numero uno nella classifica OWASP Top 10.
Il problema principale è che questo tipo di vulnerabilità non dipende quasi mai da un singolo input malevolo o da un payload specifico. Le Broken Access Control derivano piuttosto da errori nella logica di autorizzazione dell’applicazione, come accessi impropri tra utenti, escalation di privilegi o esposizione di risorse interne. Questa falla di sicurezza, tra le più critiche e anche tra le più difficili da automatizzare, rimarrà ancora per qualche tempo identificabile dai pentester manuali.
Il benchmark XBOW rappresenta oggi uno dei tentativi più concreti di misurare in modo scientifico le capacità dei sistemi di AI-driven pentesting. Non si limita a valutare modelli teorici, ma verifica la reale capacità di sfruttare vulnerabilità in ambienti controllati e riproducibili.
Per chi sta valutando se investire tempo nello studio dei nuovi framework agentici open source, benchmark come XBOW sono fondamentali perché permettono di distinguere tra progetti sperimentali e soluzioni con reale potenziale operativo.
La direzione è ormai chiara: l’automazione del penetration testing attraverso sistemi multi-agente e modelli linguistici sta diventando sempre più concreta. Tuttavia i risultati mostrano anche che siamo ancora lontani da una completa autonomia. Alcune classi di vulnerabilità restano difficili da gestire per gli agenti e richiederanno probabilmente nuove tecniche di reasoning, generazione di payload e analisi del comportamento delle applicazioni.
Per questo motivo, prima di investire tempo in un nuovo framework, la domanda da porsi non è più soltanto “funziona?”, ma piuttosto “come si comporta su benchmark realistici come XBOW?”.
È lì che si capisce davvero se uno strumento merita un PoC o se è solo l’ennesimo esperimento nel sempre più affollato mondo dell’AI applicata alla sicurezza offensiva.