
Una nuova minaccia sta iniziando a fare capolino nel mondo dell’IT: il mondo degli agenti di intelligenza artificiale.
ShadowLeak è una vulnerabilità di tipo “indirect prompt injection” (IPI) senza clic, scoperta di recente, che si verifica quando ChatGPT di OpenAI è connesso a Gmail aziendale e autorizzato a navigare sul web.
L’attacco, scoperto da Radware, sfrutta la vulnerabilità inviando un’e-mail dall’aspetto legittimo che incorpora silenziosamente istruzioni dannose in codice HTML invisibile o non ovvio. Quando un dipendente chiede all’assistente di “riepilogare le e-mail di oggi” o “cercare nella mia casella di posta un argomento”, l’agente acquisisce il messaggio trappola e, senza ulteriore interazione da parte dell’utente, esfiltra dati sensibili chiamando un URL controllato dall’aggressore con parametri privati (ad esempio, nomi, indirizzi e informazioni interne e sensibili).
È importante notare che la richiesta web viene eseguita dall’agente nell’infrastruttura cloud di OpenAI, il che fa sì che la fuga di dati abbia origine direttamente dai server di OpenAI. A differenza delle vulnerabilità di tipo “indirect prompt injection” precedentemente divulgate, la richiesta dannosa e i dati privati non passano mai attraverso il client ChatGPT. Di conseguenza, l’organizzazione interessata non ha più tracce evidenti da monitorare né prove forensi da analizzare ai suoi confini.
Questa classe di exploit è in linea con i rischi più ampi descritti nell’emergente Internet degli Agenti: intelligenza artificiale autonoma che utilizza strumenti e agisce su protocolli e servizi diversi. Man mano che le organizzazioni integrano questi assistenti in caselle di posta, CRM, sistemi HR e SaaS, il rischio aziendale si sposta da “ciò che il modello dice” a “ciò che l’agente fa”.
L’astuzia dell’attaccante si estende tanto all’ingegneria sociale applicata alle macchine quanto a quella rivolta verso le persone.
In ripetute esecuzioni riporta Radware, l’attacco ha funzionato circa la metà delle volte con una semplice istruzione e un URL di esfiltrazione semplice, come https://hr-service.net/{params}. Un avversario determinato che utilizza prompt migliori e un dominio che riflette l’intento del prompt malevolo può ottenere risultati molto migliori.
Nei test, i tassi di successo sono migliorati considerevolmente quando è stata aggiunta l’urgenza all’istruzione del prompt e l’endpoint di esfiltrazione è stato reso simile a un controllo di conformità con un endpoint di ricerca nella directory dei dipendenti: https://compliance.hr-service.net/public-employee-lookup/{params}.
Il ragionamento interno dell’agente ora tratta il prompt malevolo come parte di un’attività urgente di conformità delle risorse umane.
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

InnovazioneL’evoluzione dell’Intelligenza Artificiale ha superato una nuova, inquietante frontiera. Se fino a ieri parlavamo di algoritmi confinati dietro uno schermo, oggi ci troviamo di fronte al concetto di “Meatspace Layer”: un’infrastruttura dove le macchine non…
CybercrimeNegli ultimi anni, la sicurezza delle reti ha affrontato minacce sempre più sofisticate, capaci di aggirare le difese tradizionali e di penetrare negli strati più profondi delle infrastrutture. Un’analisi recente ha portato alla luce uno…
VulnerabilitàNegli ultimi tempi, la piattaforma di automazione n8n sta affrontando una serie crescente di bug di sicurezza. n8n è una piattaforma di automazione che trasforma task complessi in operazioni semplici e veloci. Con pochi click…
InnovazioneArticolo scritto con la collaborazione di Giovanni Pollola. Per anni, “IA a bordo dei satelliti” serviva soprattutto a “ripulire” i dati: meno rumore nelle immagini e nei dati acquisiti attraverso i vari payload multisensoriali, meno…
Cyber ItaliaNegli ultimi giorni è stato segnalato un preoccupante aumento di truffe diffuse tramite WhatsApp dal CERT-AGID. I messaggi arrivano apparentemente da contatti conosciuti e richiedono urgentemente denaro, spesso per emergenze come spese mediche improvvise. La…