I ricercatori sostengono che l’anonimato online potrebbe presto scomparire.
Questo perché i grandi modelli linguistici sono in grado di identificare in massa i proprietari di account social anonimi, e lo fanno già con una precisione del 68%.
Un gruppo di esperti, tra cui ricercatori del Politecnico federale di Zurigo, del programma di ricerca MATS (ML Alignment & Theory Scholars) e di Anthropic, ha pubblicato un articolo che descrive esperimenti volti a confrontare le identità di specifici individui con i loro account e post su diverse piattaforme.
Advertising
I risultati hanno mostrato che il ricordo (la percentuale di utenti deanonimizzati con successo) ha raggiunto il 68% e la precisione (la percentuale di risposte corrette) il 90%. I metodi classici basati sull’assemblaggio manuale di set di dati strutturati producono in genere risultati più modesti.
“I nostri risultati hanno importanti implicazioni per la privacy online. L’utente medio di Internet ha a lungo dato per scontato che la pseudonimizzazione fornisca una protezione sufficiente, poiché la deanonimizzazione mirata richiede uno sforzo significativo. Gli LLM mettono in discussione questa ipotesi”, scrivono gli autori nello studio.
Per i loro esperimenti, i ricercatori hanno utilizzato diversi set di dati compilati a partire da informazioni pubblicamente disponibili.
In uno, hanno collegato i post di Hacker News ai profili LinkedIn tramite menzioni multipiattaforma, quindi hanno rimosso tutti i dati identificativi e hanno fornito le informazioni a LLM. Un altro set di dati è stato creato utilizzando vecchi dati di Netflix (micro-identificatori di preferenze, raccomandazioni e registri delle transazioni). Un terzo esperimento ha frammentato le cronologie degli utenti di Reddit.
“Abbiamo scoperto che gli agenti di intelligenza artificiale possono fare qualcosa che in precedenza era considerato estremamente difficile: partendo da un testo libero (come la trascrizione di un’intervista resa anonima), possono dedurre l’identità completa di una persona”, ha detto ad Ars Technica Simon Lermen, uno degli autori dello studio .
Advertising
In un esperimento separato, gli esperti hanno analizzato le risposte di 125 partecipanti al sondaggio Anthropic sul loro utilizzo quotidiano dell’IA. Sulla base di questi dati, sono stati in grado di identificare con precisione il 7% degli intervistati. Si tratta di una cifra bassa, ma, come sottolinea Lerman, il solo fatto che ciò sia possibile è allarmante.
Un altro test si è basato sui commenti del subreddit r/movies e di cinque community cinematografiche correlate (r/horror, r/MovieSuggestions, r/Letterboxd, r/TrueFilm e r/MovieDetails).
Più film venivano discussi da un utente, più facile era identificarlo.
Tra coloro che menzionavano un solo film, il 3,1% degli utenti è stato identificato con successo con una precisione del 90%. Per coloro che discutevano da cinque a nove film, la percentuale saliva all’8,4%, e per coloro che discutevano da dieci o più film, raggiungeva il 48,1%.
Nel terzo esperimento, gli autori dello studio hanno confrontato l’approccio LLM con il classico attacco Netflix Prize, utilizzando un set di dati di 5.000 utenti Reddit (più 5.000 profili esca per distrarre). Il modello linguistico ha superato significativamente il metodo classico: l’accuratezza degli attacchi tradizionali è diminuita rapidamente, mentre l’approccio LLM ha dimostrato una maggiore robustezza.
Gli esperti suggeriscono diverse misure per proteggersi da tale deanonimizzazione: le piattaforme dovrebbero limitare la frequenza delle richieste API ai dati degli utenti, rilevare lo scraping automatico e bloccare l’esportazione di dati in blocco. I fornitori di LLM, a loro volta, possono monitorare l’uso dei modelli di deanonimizzazione e integrare opportune restrizioni nei loro prodotti.
Se le capacità dell’LLM continueranno a crescere, avvertono i ricercatori, i governi potrebbero utilizzare tali tecniche per prendere di mira i critici online, le aziende per creare profili pubblicitari estremamente accurati e gli aggressori per lanciare attacchi di ingegneria sociale personalizzati.
📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su Google Discover (scorri in basso e clicca segui) e su 🔔 Google News. Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram. Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici
Carolina Vivianti è consulente/Advisor autonomo in sicurezza informatica con esperienza nel settore tech e security. Ha lavorato come Security Advisor per Ford EU/Ford Motor Company e Vodafone e ha studi presso la Sapienza Università di Roma.
Aree di competenza:Cybersecurity, IT Risk Management, Security Advisory, Threat Analysis, Data Protection, Cloud Security, Compliance & Governance
Ritorna lunedì 18 e martedì 19 maggio la Red Hot Cyber Conference 2026, l’evento gratuito creato dalla community di Red Hot Cyber, che si terrà a Roma in Via Bari 18, presso il Teatro Italia. L’iniziativa è pensata per promuovere la cultura della sicurezza informatica, dell’innovazione digitale e della consapevolezza del rischio cyber. Rappresenta un punto di incontro tra professionisti, studenti, aziende e appassionati del settore, offrendo contenuti tecnici, workshop e momenti di confronto ad alto valore formativo.
L’edizione 2026 si svolgerà a Roma nelle giornate del 18 e 19 maggio presso il Teatro Italia e includerà attività formative, sessioni pratiche e la tradizionale Capture The Flag. L’evento è completamente gratuito, ma la partecipazione è subordinata a registrazione obbligatoria tramite i canali ufficiali, al fine di garantire una corretta organizzazione e gestione degli accessi.
Le iscrizioni saranno disponibili a partire dal 16 marzo 2026 attraverso la piattaforma Eventbrite, dove sarà possibile registrarsi ai diversi percorsi dell’evento: workshop, conferenza principale e competizione CTF. I link ufficiali di registrazione saranno pubblicati sui canali di Red Hot Cyber e costituiranno l’unico punto valido per la prenotazione dei posti all’evento.