Aniello Giugliano : 21 Ottobre 2025 08:00
In un’epoca in cui la produzione e la condivisione di dati personali avviene in maniera massiva e quotidiana, il concetto di anonimizzazione assume un ruolo centrale nel dibattito sulla tutela della privacy e sul riutilizzo etico dei dati. Con l’avvento del General Data Protection Regulation (GDPR), il quadro normativo europeo ha introdotto definizioni precise e obblighi stringenti per il trattamento dei dati personali, distinguendo in maniera netta tra dati identificabili, pseudonimizzati e completamente anonimizzati.
Secondo il GDPR, un dato può essere considerato anonimo solo quando è reso tale in modo irreversibile, ovvero quando non è più possibile identificare, direttamente o indirettamente, l’interessato, anche attraverso l’uso di informazioni supplementari o tecniche di inferenza. Tuttavia, raggiungere un livello di anonimizzazione assoluto è tutt’altro che banale: i dataset possono contenere identificatori diretti (come nomi o numeri di documento) e quasi-identificatori (informazioni come localizzazione, età o preferenze), che, se combinati, possono consentire la ri-identificazione degli individui.
L’interesse verso l’anonimizzazione è cresciuto in parallelo con l’aumento esponenziale della quantità di dati disponibili online. Oggi, oltre la metà della popolazione mondiale è connessa a Internet, e molte organizzazioni – grandi e piccole – analizzano i dati per individuare pattern, comportamenti e profili, sia a fini interni che per finalità commerciali. Spesso, questi dati vengono condivisi con terze parti o resi pubblici per scopi di ricerca, aumentando il rischio di esposizione di informazioni personali.
![]() Sponsorizza la prossima Red Hot Cyber Conference!Il giorno Lunedì 18 maggio e martedì 19 maggio 2026 9 maggio 2026, presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terrà la V edizione della la RHC Conference. Si tratta dell’appuntamento annuale gratuito, creato dalla community di RHC, per far accrescere l’interesse verso le tecnologie digitali, l’innovazione digitale e la consapevolezza del rischio informatico. Se sei interessato a sponsorizzare l'evento e a rendere la tua azienda protagonista del più grande evento della Cybersecurity Italiana, non perdere questa opportunità. E ricorda che assieme alla sponsorizzazione della conferenza, incluso nel prezzo, avrai un pacchetto di Branding sul sito di Red Hot Cyber composto da Banner più un numero di articoli che saranno ospitati all'interno del nostro portale. Quindi cosa stai aspettando? Scrivici subito a [email protected] per maggiori informazioni e per accedere al programma sponsor e al media Kit di Red Hot Cyber.
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
Negli anni si sono verificati numerosi casi in cui processi di anonimizzazione inadeguati hanno portato alla ri-identificazione degli utenti, con gravi conseguenze per la loro privacy. Eclatante il caso del 2006, in cui una piattaforma di streaming pubblicò un dataset contenente milioni di valutazioni di film dichiarate “anonime”, che furono però facilmente associate ai rispettivi utenti tramite dati incrociati. Similmente, nel 2013, il Dipartimento dei trasporti di New York rese pubblici i dati dei taxi cittadini, ma un’errata anonimizzazione consentì di risalire alle licenze originali e persino all’identità di alcuni conducenti.
Questi esempi dimostrano come l’anonimizzazione non sia solo una questione tecnica, ma anche normativa, etica e metodologica. Le domande che emergono sono molteplici:
L’obiettivo di questo articolo è fare chiarezza su questi interrogativi, offrendo una panoramica delle principali tecniche di anonimizzazione oggi in uso, analizzando i rischi connessi alla ri-identificazione e illustrando come strumenti e metodologie possano supportare una pubblicazione sicura dei dati, conforme ai principi della privacy-by-design e della data protection. In particolare, si approfondiranno le differenze tra l’anonimizzazione dei dati relazionali e quella dei dati strutturati in forma di grafo, sempre più diffusi nell’ambito dei social network e delle analisi comportamentali.
Il Regolamento Generale sulla Protezione dei Dati (GDPR) introduce una distinzione fondamentale tra dati personali, dati pseudonimizzati e dati anonimizzati, concetti che vengono spesso confusi, ma che hanno implicazioni molto diverse sul piano normativo, tecnico e operativo.
L’articolo 4 del GDPR fornisce le seguenti definizioni:
Questa distinzione è tutt’altro che formale. Secondo il Considerando 26 del GDPR:
“I principi della protezione dei dati non dovrebbero applicarsi a informazioni anonime, ossia a informazioni che non si riferiscono a una persona fisica identificata o identificabile, o a dati personali resi anonimi in modo tale che l’interessato non sia più identificabile.”
In altre parole, una volta che i dati sono stati anonimizzati correttamente, non rientrano più nell’ambito di applicazione del GDPR. Ciò li rende estremamente preziosi per l’elaborazione, l’analisi e la condivisione, soprattutto in settori come la sanità, la statistica, il marketing e la ricerca scientifica.
Una delle convinzioni più diffuse – e pericolose – è ritenere che pseudonimizzazione e anonimizzazione siano equivalenti. In realtà, il GDPR è molto chiaro nel distinguere i due concetti.
Quindi, se esiste una possibilità – anche remota – di risalire all’identità di una persona, i dati non possono essere considerati anonimi, ma semplicemente pseudonimizzati.
La scelta della tecnica di anonimizzazione più adatta dipende strettamente dallo scopo per cui i dati devono essere anonimizzati. Ogni metodo comporta compromessi tra livello di privacy garantita e utilità residua del dato: più i dati sono protetti, minore sarà, in genere, la loro granularità e quindi il loro valore analitico.
Le principali modalità attraverso cui i dati possono essere trasformati a fini di anonimizzazione sono tre:
L’obiettivo, in ogni caso, è quello di garantire la privacy dei soggetti coinvolti senza compromettere l’utilizzabilità dei dati, soprattutto quando si tratta di analisi statistiche, ricerca o studi di mercato.
In questa sezione verranno presentate alcune delle principali tecniche di anonimizzazione, con indicazioni sul loro corretto utilizzo in base al contesto.
La soppressione è una delle tecniche più semplici e dirette: consiste nella rimozione di uno o più attributi da un dataset. È particolarmente utile quando:
Immaginiamo di voler analizzare le prestazioni di un gruppo di studenti in un test di valutazione. Il dataset a nostra disposizione contiene tre attributi per ciascun partecipante:
Studente | Docente | Voto Ottenuto |
Mirandola L. | Deufemia C. | 28/30 |
Perillo G. | Deufemia C. | 29/30 |
Mirandola L. | La Rocca L. | 18/30 |
Valletta F. | Valtorta R. | 22/30 |
Perillo G. | Valtorta R. | 24/30 |
Poiché l’obiettivo dell’analisi è di tipo statistico e non richiede l’identificazione dei singoli studenti, il nome dello studente risulta essere un’informazione non necessaria e altamente identificativa. Per garantire la privacy degli interessati, applichiamo la tecnica della soppressione, eliminando completamente la colonna contenente i nomi.
Docente | Voto Ottenuto |
Deufemia C. | 28/30 |
Deufemia C. | 29/30 |
La Rocca L. | 18/30 |
Valtorta R. | 22/30 |
Valtorta R. | 24/30 |
Dopo questa operazione, il dataset mantiene la propria utilità analitica, in quanto consente ancora di osservare e confrontare i risultati dei test in relazione ai diversi docenti o a gruppi di studenti, ma senza esporre informazioni personali.
In alcuni casi, la soppressione può riguardare anche interi record. Questo avviene, ad esempio, quando la combinazione di più attributi (come età, localizzazione geografica, e materia del test) rende un soggetto potenzialmente riconoscibile, soprattutto in campioni di piccole dimensioni. Se non è possibile anonimizzare efficacemente quei record con altre tecniche, la rimozione totale rappresenta la misura più sicura per tutelare la privacy.
La soppressione è una tecnica semplice ed efficace, in quanto elimina completamente le informazioni sensibili, rendendole irrecuperabili e garantendo così un elevato livello di protezione della privacy. Tuttavia, questa efficacia ha un costo: la rimozione di attributi o record può compromettere la qualità e l’utilità del dataset, soprattutto se le informazioni eliminate sono rilevanti per l’analisi. Inoltre, un uso non bilanciato della soppressione può introdurre distorsioni (bias) nei risultati, riducendo l’affidabilità delle conclusioni ottenute.
La sostituzione di caratteri è una tecnica di anonimizzazione che consiste nel mascherare parzialmente il contenuto di un attributo, sostituendo alcuni caratteri con simboli predefiniti, come ad esempioX o*. Si tratta di un approccio utile quando si desidera nascondere parte dell’informazione, mantenendo però una certa struttura del dato, utile a fini analitici o di verifica. Questa tecnica non elimina l’attributo, ma oscura solo i dati più sensibili, rendendoli meno identificabili. La sostituzione può essere applicata, ad esempio, ai codici postali, ai numeri di telefono, agli indirizzi email o a qualsiasi campo testuale potenzialmente riconducibile a una persona.
Supponiamo di voler analizzare la distribuzione geografica degli utenti di un servizio, utilizzando il codice postale. Se il codice completo può rendere identificabile l’individuo, è possibile mascherarne le ultime cifre.
Prima della sostituzione:
Dopo la sostituzione:
In questo modo, è ancora possibile condurre un’analisi per area geografica generale (es. quartieri o zone urbane), ma si elimina la precisione che potrebbe portare alla localizzazione esatta e quindi all’identificazione indiretta del soggetto.
La sostituzione di caratteri è facile da implementare e consente di mantenere una buona utilità del dato, ma è meno sicura rispetto ad altre tecniche più radicali, come la soppressione. Infatti, se il contesto circostante è troppo ricco di informazioni, o se vengono incrociati più attributi, può comunque emergere un rischio di re-identificazione.
Per questo motivo, questa tecnica è indicata soprattutto in dataset di grandi dimensioni, dove l’attributo mascherato non è sufficiente, da solo, a identificare una persona, ma può contribuire ad aumentare la protezione complessiva se combinato con altre tecniche.
La tecnica del rimescolamento, oshuffling, consiste nel riorganizzare in modo casuale i valori di un determinato attributo all’interno del dataset, mantenendo inalterata la lista dei valori ma disassociandoli dai relativi record originali. Questa tecnica è utile quando si vuole preservare la distribuzione statistica di un attributo, ma non è necessario mantenere la relazione tra quell’attributo e gli altri presenti nel dataset. In sostanza, i valori non vengono alterati, ma permessi tra i diversi record, rendendo più difficile il collegamento diretto tra un’informazione sensibile e un individuo specifico.
Immaginiamo di avere un dataset che contiene:
Se l’obiettivo è analizzare la distribuzione degli importi spesi per area geografica, ma senza voler collegare l’importo specifico al singolo cliente, possiamo applicare lo shuffling all’attributo “importo speso”, rimescolandone i valori tra i diversi record.
Prima dello shuffling:
ID | Regione | Importo |
001 | Nord | 120 |
002 | Sud | 250 |
003 | Centro | 180 |
Dopo lo shuffling dell’importo:
ID | Regione | |
001 | Nord | 180 |
002 | Sud | 120 |
003 | Centro | 250 |
In questo modo, si preservano i dati regionali e la distribuzione aggregata degli importi, ma si interrompe la correlazione diretta tra individuo e valore economico, riducendo il rischio di identificazione.
Sebbene semplice da applicare, lo shuffling non garantisce da solo un’adeguata anonimizzazione. In alcuni casi, soprattutto quando i dataset sono piccoli o gli attributi fortemente correlati, potrebbe essere possibile ricostruire le associazioni originali attraverso tecniche di inferenza.
Per questo motivo, il rimescolamento viene spesso utilizzato in combinazione con altre tecniche, come la soppressione o la generalizzazione, per rafforzare la protezione dei dati.
L’aggiunta di rumore è una tecnica di anonimizzazione molto diffusa e consiste nel modificare leggermente i valori dei dati, introducendo delle variazioni artificiali che nascondono i valori reali, pur mantenendo l’informazione statisticamente utile. L’obiettivo è ridurre la precisione del dato per renderlo meno identificabile, ma senza compromettere l’utilità complessiva, soprattutto quando viene analizzato in aggregato.
Supponiamo di avere un dataset con le date di nascita dei pazienti in un’analisi epidemiologica. Per ridurre il rischio di identificazione, possiamo aggiungere o sottrarre casualmente alcuni giorni o mesi a ciascuna data.
Data originale:
Dopo l’aggiunta di rumore (± qualche giorno):
Queste variazioni non alterano in modo significativo l’analisi, ad esempio per fasce di età o tendenze temporali, ma rendono molto più difficile collegare con certezza una data a un individuo specifico.
Un elemento critico di questa tecnica è determinare quanto rumore aggiungere: troppo poco può non essere sufficiente a proteggere la privacy, mentre troppo può distorcere i risultati dell’analisi. Per questo motivo, è essenziale valutare attentamente il contesto di utilizzo e, quando possibile, applicare tecniche di aggiunta di rumore controllata, come nel caso della Differential Privacy, che vedremo più avanti.
La generalizzazione è un’altra tecnica di anonimizzazione in cui i dati vengono semplificati o aggregati in modo da ridurre il livello di dettaglio, e quindi la possibilità di identificazione. In pratica, si sostituisce un valore specifico con uno più generico, modificando la scala o il livello di precisione dell’attributo.
Nel caso delle date, invece di riportare giorno, mese e anno, possiamo decidere di conservare solo l’anno.
Data originale:
Un altro esempio classico riguarda l’età: anziché indicare “33 anni”, possiamo scrivere “30-35” o “30+”, riducendo la precisione ma mantenendo l’informazione utile per analisi demografiche.
La generalizzazione è particolarmente utile quando si vuole preservare l’analisi su gruppi (cluster), ma è meno efficace per studi che richiedono una precisione individuale. Inoltre, non sempre garantisce un livello sufficiente di anonimizzazione, soprattutto se i dati generalizzati possono essere incrociati con altre fonti.
È per questo motivo che la generalizzazione è spesso combinata con altre tecniche, o applicata attraverso modelli più evoluti come il k-anonimato e l-diversità, che vedremo nelle prossime sezioni.
L’idea alla base è quella di garantire che ogni record in un dataset non sia distinguibile da almeno altri k - 1 record, rispetto a un insieme di attributi considerati potenzialmente identificativi (dettiquasi-identificatori).
In altre parole, un dataset soddisfa il criterio di k-anonimato se, per ogni combinazione di attributi sensibili, esistono almeno k record identici, rendendo molto difficile risalire all’identità di una singola persona.
Supponiamo di avere un dataset con le seguenti colonne:
Se questi attributi vengono considerati quasi-identificatori, e applichiamo il k-anonimato con k = 3, allora ogni combinazione di età e CAP dovrà comparire in almeno tre record.
Età | CAP | Patologia |
34 | 20156 | Diabete |
35 | 20156 | Diabete |
36 | 20156 | Diabete |
Età | CAP | Patologia |
30-39 | 201XX | Diabete |
30-39 | 201XX | Diabete |
30-39 | 201XX | Diabete |
In questo esempio, l’età è stata generalizzata e il CAP parzialmente mascherato, in modo da creare un gruppo indistinguibile di almeno tre record. Di conseguenza, la probabilità di identificare un individuo specifico in quel gruppo è al massimo 1 su 3.
Il k-anonimato non protegge dai cosiddetti attacchi di background knowledge: se un avversario conosce informazioni aggiuntive (es. una persona vive in un certo CAP e ha una certa età), potrebbe comunque risalire alla sua patologia, anche se presente in un gruppo di k elementi. Per mitigare questo rischio, si ricorre ad approcci più sofisticati, come l-diversità e t-closeness, che introducono ulteriori vincoli sulla distribuzione dei dati sensibili all’interno dei gruppi.
La l-diversità è una tecnica che estende e rafforza il concetto di k-anonimato, con l’obiettivo di evitare che all’interno dei gruppi di equivalenza (ossia i gruppi di record resi indistinguibili tra loro) ci sia scarsa varietà nei dati sensibili.
Infatti, anche se un dataset è k-anonimo, può comunque essere vulnerabile: se in un gruppo di 3 record tutti i soggetti condividono lo stesso valore per un attributo sensibile (es. una malattia), un attaccante potrebbe facilmente dedurre quell’informazione, pur non sapendo esattamente a chi appartiene. Con l-diversità, si impone una regola aggiuntiva: ogni gruppo di equivalenza deve contenere almeno L valori distinti per l’attributo sensibile. Questo aumenta il livello di incertezza per chi tenta di effettuare una re-identificazione.
Riprendiamo l’esempio di un dataset sanitario con i seguenti attributi:
Supponiamo di aver ottenuto gruppi indistinguibili tramite k-anonimato, ma che tutti i soggetti abbiano la stessa diagnosi:
Età | CAP | Patologia |
30-39 | 201XX | Diabete |
30-39 | 201XX | Diabete |
30-39 | 201XX | Diabete |
Un gruppo come questo rispetta il k-anonimato (k=3), ma è altamente vulnerabile, perché un attaccante sa che chiunque in quel gruppo ha il diabete.
Età | CAP | Patologia |
30-39 | 201XX | HIV |
30-39 | 201XX | Diabete |
30-39 | 201XX | Asma |
Ora, anche se il gruppo è indistinguibile rispetto ai quasi-identificatori, l’attributo sensibile “diagnosi” ha almeno tre valori diversi, il che limita la possibilità di dedurre informazioni certe.
La l-diversità è efficace nel:
Tuttavia, non è infallibile: in situazioni in cui la distribuzione dei dati sensibili è fortemente sbilanciata (es. 9 diagnosi comuni e 1 rara), anche con l-diversità può verificarsi un attacco per inferenza probabilistica, dove l’informazione meno frequente può comunque essere dedotta con alta probabilità.
Anche dopo l’anonimizzazione, esiste sempre un rischio residuo che un individuo possa essere identificato, ad esempio incrociando i dati con informazioni esterne o tramite inferenze. Per questo motivo, è fondamentale valutare attentamente il rischio prima di condividere o pubblicare un dataset.
I rischi si suddividono in tre categorie:
Questi rischi sono gerarchici: se un dataset è protetto contro il rischio più elevato (prosecutor), è considerato sicuro anche rispetto agli altri.
Ogni organizzazione dovrebbe definire il livello di rischio accettabile, in base alle finalità e al contesto del trattamento dei dati.
L’anonimizzazione dei dati rappresenta oggi una sfida cruciale nel bilanciare due esigenze spesso contrapposte: da un lato la protezione della privacy degli individui, dall’altro la valorizzazione del dato come risorsa per l’analisi, la ricerca e l’innovazione.
È fondamentale comprendere che nessuna tecnica, da sola, garantisce la protezione assoluta: l’efficacia dell’anonimizzazione dipende dalla struttura del dataset, dal contesto d’uso e dalla presenza di dati esterni che potrebbero essere incrociati per effettuare attacchi di re-identificazione.
In un’epoca dominata dai big data e dall’intelligenza artificiale, la corretta gestione dei dati personali è un dovere etico oltre che legale. L’anonimizzazione, se ben progettata e valutata, può essere uno strumento potente per abilitare l’innovazione nel rispetto dei diritti fondamentali.
Il ricercatore di sicurezza Alessandro Sgreccia, membro del team HackerHood di Red Hot Cyber, ha segnalato a Zyxel due nuove vulnerabilità che interessano diversi dispositivi della famiglia ZLD (ATP ...
La Cybersecurity and Infrastructure Security Agency (CISA) e il Multi-State Information Sharing & Analysis Center (MS-ISAC) pubblicano questo avviso congiunto sulla sicurezza informatica (CSA) in ...
Un’importante interruzione dei servizi cloud di Amazon Web Services (AWS) ha causato problemi di connessione diffusi in tutto il mondo, coinvolgendo piattaforme di grande rilievo come Snapchat, Fort...
L’azienda cinese “Unitree Robotics” ha sfidato il primato della robotica statunitense con il lancio del suo umanoide H2 “Destiny Awakening”. L’umanoide unisce la forma umana a movimenti so...
Il 20 ottobre 2025 segna un anniversario importante per la storia dell’informatica: il processore Intel 80386, noto anche come i386, celebra il suo 40° compleanno. Ed è un compleanno importante! L...