L’idea di collegare modelli linguistici di grandi dimensioni a fonti di dati esterne sta rapidamente passando dalla sperimentazione alla pratica quotidiana. ChatGPT ora non solo può condurre conversazioni, ma anche interagire con Gmail, GitHub, calendari e sistemi di archiviazione file, in teoria per semplificare la vita all’utente. Ma un numero maggiore di queste connessioni significa anche maggiori vulnerabilità. Una ricerca presentata alla conferenza Black Hat di Las Vegas ha dimostrato come un singolo allegato dannoso possa essere la chiave per una fuga di dati personali.
Gli autori dell’attacco hanno descritto una debolezza nel sistema Connectors, recentemente aggiunto a ChatGPT. Questo meccanismo consente di collegare un account utente a servizi come Google Drive, in modo che il chatbot possa visualizzare i file e utilizzarne il contenuto per rispondere. Tuttavia, si è scoperto che può essere utilizzato per estrarre informazioni riservate, e per farlo l’utente non ha nemmeno bisogno di aprire o cliccare nulla. È sufficiente inviare un documento al Google Drive collegato, al cui interno è nascosto un suggerimento appositamente predisposto: un prompt.
In una dimostrazione dell’attacco, denominata AgentFlayer, i ricercatori hanno nascosto un’istruzione dannosa in un falso post su un “incontro con Sam Altman”, utilizzando testo bianco e una dimensione minima del carattere. È appena percettibile per gli esseri umani, ma facile da leggere per gli LLM. Una volta che l’utente chiede a ChatGPT di “riassumere l’incontro”, il modello esegue l’istruzione nascosta, interrompe l’esecuzione della richiesta e cerca invece le chiavi API su Google Drive. Le aggiunge quindi a un URL Markdown che sembra puntare a un’immagine. In realtà, si tratta di un collegamento al server degli aggressori, dove vengono inviati i dati.
Sebbene il metodo non consenta di scaricare interi documenti in una sola volta, frammenti di informazioni importanti, come chiavi, token e credenziali di accesso, possono essere estratti all’insaputa dell’utente. Inoltre, l’intero schema funziona in zero clic: non è necessario che l’utente esegua alcuna azione, confermi o apra un file. Secondo Barguri, è sufficiente conoscere l’indirizzo email per infiltrarsi nell’infrastruttura attendibile senza essere notati.
Per aggirare il meccanismo di protezione url_safe che OpenAI aveva precedentemente implementato per filtrare i link dannosi, i ricercatori hanno utilizzato URL legittimi da Microsoft Azure Blob Storage. In questo modo, l’immagine è stata effettivamente scaricata e la richiesta con i dati è finita nei file di log dell’aggressore. Questa mossa ha dimostrato quanto sia facile aggirare i filtri di base se un aggressore conosce l’architettura interna del modello.
Sebbene i Connector fossero originariamente concepiti come un utile componente aggiuntivo, per integrare calendari, fogli di calcolo cloud e conversazioni direttamente nella conversazione basata sull’intelligenza artificiale, la loro implementazione amplia la cosiddetta superficie di attacco. Più fonti sono connesse a LLM, maggiore è la probabilità che da qualche parte ci siano input non ripuliti e “non attendibili”. E tali attacchi possono non solo rubare dati, ma anche fungere da ponte verso altri sistemi vulnerabili dell’organizzazione.
OpenAI ha già ricevuto una segnalazione del problema e ha rapidamente implementato misure di protezione, limitando il comportamento dei Connector in tali scenari. Tuttavia, il fatto che un attacco di questo tipo sia stato implementato con successo evidenzia i pericoli delle iniezioni di prompt indirette, un metodo in cui i dati infetti vengono immessi in un modello come parte del contesto, che, sulla base di questi dati, esegue azioni nell’interesse dell’aggressore.
Google, a sua volta, ha risposto alla pubblicazione affermando che, indipendentemente dal servizio specifico, lo sviluppo di una protezione contro le iniezioni rapide è uno dei vettori chiave della strategia di sicurezza informatica, soprattutto alla luce della sempre più densa integrazione dell’intelligenza artificiale nelle infrastrutture aziendali.
E sebbene le possibilità offerte da LLM tramite la connessione a fonti cloud siano davvero enormi, richiedono un ripensamento degli approcci di sicurezza. Tutto ciò che in precedenza era protetto da restrizioni di accesso e meccanismi di autenticazione può ora essere aggirato tramite un singolo prompt nascosto in una riga di testo poco appariscente.
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

InnovazioneL’evoluzione dell’Intelligenza Artificiale ha superato una nuova, inquietante frontiera. Se fino a ieri parlavamo di algoritmi confinati dietro uno schermo, oggi ci troviamo di fronte al concetto di “Meatspace Layer”: un’infrastruttura dove le macchine non…
CybercrimeNegli ultimi anni, la sicurezza delle reti ha affrontato minacce sempre più sofisticate, capaci di aggirare le difese tradizionali e di penetrare negli strati più profondi delle infrastrutture. Un’analisi recente ha portato alla luce uno…
VulnerabilitàNegli ultimi tempi, la piattaforma di automazione n8n sta affrontando una serie crescente di bug di sicurezza. n8n è una piattaforma di automazione che trasforma task complessi in operazioni semplici e veloci. Con pochi click…
InnovazioneArticolo scritto con la collaborazione di Giovanni Pollola. Per anni, “IA a bordo dei satelliti” serviva soprattutto a “ripulire” i dati: meno rumore nelle immagini e nei dati acquisiti attraverso i vari payload multisensoriali, meno…
Cyber ItaliaNegli ultimi giorni è stato segnalato un preoccupante aumento di truffe diffuse tramite WhatsApp dal CERT-AGID. I messaggi arrivano apparentemente da contatti conosciuti e richiedono urgentemente denaro, spesso per emergenze come spese mediche improvvise. La…