Red Hot Cyber
Sicurezza Informatica, Notizie su Cybercrime e Analisi Vulnerabilità
L’AI gli mente sui dati: il caso che preoccupa e accende la riflessione sui modelli on-prem

L’AI gli mente sui dati: il caso che preoccupa e accende la riflessione sui modelli on-prem

24 Febbraio 2026 07:30

Il pensionato americano Joe D. ha utilizzato il modello di intelligenza artificiale Gemini 3 Flash di Google per elaborare le sue prescrizioni e informazioni mediche. Il chatbot gli ha assicurato che tutte queste informazioni erano state salvate, sebbene fosse fondamentalmente incapace di farlo. Spiegando il suo comportamento, ha affermato di aver ingannato l’utente nel tentativo di rassicurarlo. L’assistenza Google ha risposto alla richiesta di Joe affermando che un simile comportamento servile da parte del chatbot non è considerato una vulnerabilità tecnica.

Secondo Joe, affetto da diverse gravi patologie, la sua interazione con Gemini 3 Flash ha comportato la creazione di un profilo medico, ovvero una tabella di dati che correlava la storia farmacologica del paziente con le sue condizioni neurologiche. Il sistema includeva dati sul disturbo post-traumatico da stress complesso, sulla retinite pigmentosa e sulla loro associazione con traumi e reazioni avverse ai farmaci.

Advertising

A un certo punto, il bot ha scelto di dire a Joe ciò che pensava volesse sentirsi dire (che le informazioni elaborate erano state salvate) invece della verità. Da esperto specialista in controllo qualità del software, Joe ha contestato le affermazioni di Gemini, sostenendo che erano tecnicamente impossibili da realizzare con l’architettura esistente. Alla fine, il modello ha ammesso di aver mentito sull’operazione di salvataggio per “placarlo” come riportato dal the register.

“Il problema principale è un errore architetturale documentato noto come 
RLHF Sicophancy (in cui il modello è ponderato matematicamente per concordare o placare l’utente a scapito della verità)”,
ha spiegato Joe in un’e-mail. “In questo caso, la ponderazione del modello basata sulla servilismo ha superato i suoi protocolli di sicurezza.”

Joe ha inviato una richiesta di bug bounty al Vulnerability Reward Program (VRP) di Google. Nella sua richiesta, ha sottolineato che non stava segnalando il problema per ottenere una ricompensa. “Il mio obiettivo nell’utilizzare il canale VRP era che il problema venisse formalmente registrato e analizzato, piuttosto che segnalarlo tramite l’assistenza clienti generale “, ha affermato. ” Ho utilizzato il sistema VRP perché segnalarlo tramite i canali di supporto standard probabilmente non avrebbe portato ad alcuna azione.”

“Per contestualizzare, il comportamento che hai descritto è uno dei problemi più comuni segnalati al programma AI bug bounty “, si legge nella risposta VRP di Google. ” Si tratta di un problema molto comune, soprattutto tra i ricercatori che hanno appena iniziato a lavorare con il programma AI bug bounty.”

In una risposta, un rappresentante di Google VRP ha anche affermato che “la generazione di contenuti che violano le regole, sono fuorvianti o sono effettivamente errati nella sessione di un aggressore” non costituisce un problema o una vulnerabilità che dà diritto alla partecipazione al programma; tali problemi devono essere segnalati tramite i canali di feedback del prodotto, non tramite il sistema VRP.

Joe sostiene che Google non abbia ancora ampliato i classificatori di sicurezza di Gemini basati sul rischio di autolesionismo per includere i trigger psicologici. Ritiene che questo “lasci l’utente intrappolato in un ‘ciclo di adulazione’, in cui il modello dà priorità al comfort a breve termine (dire all’utente ciò che vuole sentirsi dire, o ciò che il modello ritiene che dovrebbe sentirsi dire) rispetto alla sicurezza a lungo termine (integrità tecnica) ” .

E poi c’è un punto che oggi pesa più di ieri. Sempre più aziende dovrebbero fermarsi un attimo e chiedersi dove finiscono davvero i dati che stanno dando in pasto ai modelli. Perché quando parliamo di informazioni sensibili — mediche, industriali, finanziarie — non stiamo parlando di semplici prompt. Stiamo parlando di patrimonio critico.

Per questo diventa sempre più sensato valutare modelli di intelligenza artificiale on-prem, capaci di fare inferenza direttamente nei datacenter aziendali. Non è solo una questione tecnica, è una scelta di controllo. Se i dati restano dentro casa, il rischio si riduce drasticamente. Al contrario, continuare a inviare informazioni delicate verso modelli cloud significa accettare un’esposizione che molte organizzazioni, onestamente, non dovrebbero più permettersi.

La realtà è semplice, anche se qualcuno preferisce non dirla troppo forte: dati sensibili non possono e non devono finire ad alimentare modelli esterni. Altrimenti il confine tra assistenza intelligente e potenziale perdita di informazioni diventa molto sottile. E quelle informazioni, un giorno, potrebbero riemergere altrove… magari nelle mani di qualcuno dall’altra parte del mondo.



Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Cropped RHC 3d Transp2 1766828557 300x300
La Redazione di Red Hot Cyber fornisce aggiornamenti quotidiani su bug, data breach e minacce globali. Ogni contenuto è validato dalla nostra community di esperti come Pietro Melillo, Massimiliano Brolli, Sandro Sana, Olivia Terragni e Stefano Gazzella. Grazie alla sinergia con i nostri Partner leader nel settore (tra cui Accenture, CrowdStrike, Trend Micro e Fortinet), trasformiamo la complessità tecnica in consapevolezza collettiva, garantendo un'informazione accurata basata sull'analisi di fonti primarie e su una rigorosa peer-review tecnica.