L’affidabilità degli assistenti AI è spesso data per scontata.
Si inseriscono informazioni personali, strategie aziendali, dati sensibili, con l’idea che restino confinati all’interno della piattaforma. Ma purtroppo questa usanza è estremamente sbagliata.
Infatti, una recente analisi ha mostrato come questa fiducia possa essere mal riposta. Per un certo periodo, infatti, Claude.ai ha presentato vulnerabilità in grado di compromettere proprio questa fiducia.
I ricercatori hanno individuato tre criticità distinte all’interno della piattaforma, successivamente denominate “Claudy Day”. Combinate tra loro, queste falle consentivano di costruire un attacco completo.
Il primo elemento riguarda la gestione dei prompt precompilati tramite URL. Attraverso parametri specifici, era possibile inserire contenuti che apparivano normali all’utente ma che, in realtà, includevano istruzioni nascoste. Alcuni tag HTML permettevano infatti di occultare comandi invisibili, comunque interpretati dal sistema al momento dell’esecuzione.
Il secondo passaggio sfruttava le API di Anthropic. Nonostante le limitazioni sulle connessioni esterne, Claude poteva essere indotto a raccogliere informazioni dalle conversazioni e trasferirle su un account controllato dall’attaccante, utilizzando chiavi API inserite nel prompt nascosto.
A completare la catena, una vulnerabilità di tipo open redirect presente su claude.com. Qualsiasi URL costruito con un determinato formato poteva reindirizzare l’utente verso destinazioni esterne senza verifiche.
Questa caratteristica, combinata con strumenti come Google Ads, consentiva agli attaccanti di creare annunci apparentemente legittimi. L’utente vedeva un link associato al dominio ufficiale, ma veniva poi reindirizzato verso una pagina contenente il prompt manipolato.
Il risultato era un attacco silenzioso, privo dei segnali tipici del phishing. Nessuna email sospetta, nessun allegato: solo un normale risultato di ricerca.
Anche in configurazioni standard, Claude dispone di accesso alla cronologia delle conversazioni e alla memoria dell’utente. Questo include informazioni potenzialmente sensibili. Attraverso l’iniezione di prompt, un attaccante poteva richiedere all’assistente di analizzare e sintetizzare tali dati, oppure di individuare contenuti specifici su determinati argomenti.
In presenza di integrazioni aggiuntive, come strumenti o server MCP, il rischio aumenta ulteriormente: l’assistente poteva accedere a file, API e altri servizi collegati. La ricerca è stata condotta da Oasis Security, che ha segnalato le vulnerabilità ad Anthropic tramite il programma di responsible disclosure. La vulnerabilità legata alla prompt injection è stata corretta, mentre le altre sono ancora in fase di gestione.
Per Red Hot Cyber, questa vicenda conferma la tendenza ormai evidente che gli agenti AI sono sicuri fino a quanto il jailbreak di turno non li rende insicuri. Sembra quasi come l'”archivia oggi per decifrare domani” della computazione quantistica. Gli LLM conservano tutto e ricordano tutto. Pertanto le cose che hai inserito dentro oggi, rischiano di rispuntare fuori domani dall’altra parte del mondo.
E’ per questo che occorre utilizzare LLM onprem quando si maneggiano informazioni sensibili e mai LLM in cloud.