Anonimización de datos: proteger la privacidad sin perder utilidad

Aniello Giugliano : 21 octubre 2025 08:03

En una era donde los datos personales se generan y comparten masivamente a diario, el concepto de anonimización adquiere un papel central en el debate sobre la protección de la privacidad y la reutilización ética de los datos. Con la llegada del Reglamento General de Protección de Datos (RGPD), el marco regulatorio europeo introdujo definiciones precisas y obligaciones estrictas para el tratamiento de datos personales, distinguiendo claramente entre datos identificables, seudonimizados y totalmente anonimizados.

Según el RGPD, los datos solo pueden considerarse anónimos cuando se convierten en irreversibles, es decir, cuando ya no es posible identificar directa o indirectamente al interesado, ni siquiera mediante información adicional o técnicas de inferencia. Sin embargo, lograr un nivel absoluto de anonimización no es nada fácil: los conjuntos de datos pueden contener identificadores directos (como nombres o números de identificación) y cuasiidentificadores (información como ubicación, edad o preferencias), que, al combinarse, permiten reidentificar a las personas.

El interés por la anonimización ha crecido a la par del aumento exponencial de la cantidad de datos disponibles en línea. Hoy en día, más de la mitad de la población mundial está conectada a internet, y muchas organizaciones, grandes y pequeñas, analizan datos para identificar patrones, comportamientos y perfiles, tanto para fines internos como comerciales. Estos datos suelen compartirse con terceros o hacerse públicos con fines de investigación, lo que aumenta el riesgo de exponer información personal.

A lo largo de los años, se han dado numerosos casos en los que procesos de anonimización inadecuados han llevado a la reidentificación de usuarios, con graves consecuencias para su privacidad. Un caso notable ocurrió en 2006, cuando una plataforma de streaming publicó un conjunto de datos con millones de calificaciones de películas declaradas «anónimas», pero que se relacionaban fácilmente con sus respectivos usuarios mediante referencias cruzadas. De igual manera, en 2013, el Departamento de Transporte de la Ciudad de Nueva York publicó datos sobre taxis urbanos, pero una anonimización inadecuada permitió rastrear las licencias originales e incluso la identidad de algunos conductores.

Estos ejemplos demuestran que la anonimización no es solo una cuestión técnica, sino también regulatoria, ética y metodológica. Surgen muchas preguntas:

¿Cuándo pueden considerarse los datos verdaderamente anónimos?
¿Las técnicas de anonimización son siempre irreversibles?
¿Cómo se mide la eficacia de la anonimización frente a la pérdida de utilidad de los datos?

El objetivo de este artículo es aclarar estas cuestiones ofreciendo una visión general de las principales técnicas de anonimización actualmente en uso, analizando los riesgos asociados a la reidentificación e ilustrando cómo las herramientas y metodologías pueden facilitar la divulgación segura de datos, de conformidad con los principios de privacidad desde el diseño y protección de datos. En particular, se explorarán las diferencias entre la anonimización de datos relacionales y la de datos de grafos estructurados, cada vez más extendida en redes sociales y análisis de comportamiento.

Indice dei contenuti nascondi

1. Técnicas de protección de datos: una comparación entre seudonimización y anonimización

2. Técnicas de anonimización de datos

2.1. Suprimir atributos o registros

2.2. Ejemplo práctico

3. Reemplazo de personajes

3.1. Ejemplo práctico

4. Mezcla de datos

4.1. Ejemplo práctico

5. Adición de ruido

5.1. Ejemplo práctico

6. Generalización

6.1. Ejemplo práctico

7. K-Anonimato

7.1. Ejemplo práctico

7.1.1. Antes de la anonimización:

7.1.2. Después de la anonimización con K = 3:

7.2. Las principales características del k-anonimato son:

8. L-Diversidad

8.1. Ejemplo práctico

8.1.1. Ejemplo de un grupo con baja diversidad:

8.1.2. Aplicando L-Diversidad (L=3):

8.2. Riesgos de reidentificación

9. Conclusiones

Técnicas de protección de datos: una comparación entre seudonimización y anonimización

El Reglamento General de Protección de Datos (RGPD) introduce una distinción fundamental entre datos personales, datos seudonimizados y datos anonimizados. Estos conceptos suelen confundirse, pero tienen implicaciones regulatorias, técnicas y operativas muy diferentes.

El artículo 4 del RGPD establece las siguientes definiciones:

Dato personal: cualquier información relativa a una persona física identificada o identificable ( el interesado ), directa o indirectamente.
Seudonimización: Tratamiento de datos personales de tal manera que ya no puedan atribuirse a un interesado sin utilizar información adicional, que deberá conservarse por separado y protegerse mediante medidas técnicas y organizativas adecuadas.
Anonimización: Proceso mediante el cual los datos personales se alteran de forma irreversible, haciendo imposible identificar directa o indirectamente al individuo al que se refieren.

Esta distinción dista mucho de ser formal. Según el considerando 26 del RGPD:

«Los principios de protección de datos no deben aplicarse a la información anónima, es decir, a aquella que no se refiere a una persona física identificada o identificable, ni a los datos personales anonimizados de tal manera que el interesado ya no sea identificable.»

En otras palabras, una vez que los datos se han anonimizado correctamente, ya no están sujetos al RGPD. Esto los hace extremadamente valiosos para su procesamiento, análisis y compartición, especialmente en áreas como la salud, la estadística, el marketing y la investigación científica.

Una de las creencias más extendidas —y peligrosas— es que la seudonimización y la anonimización son equivalentes. En realidad, el RGPD es muy claro al distinguir ambos conceptos.

La seudonimización reduce el riesgo de exposición de datos personales, pero no elimina el vínculo con la identidad del individuo. Cualquier persona con información adicional (por ejemplo, tablas de correspondencia o claves de descifrado) puede restaurar fácilmente la identidad.
La anonimización, por otro lado, elimina permanentemente cualquier posibilidad de reidentificación. Los datos anonimizados no pueden vincularse a la persona y, por lo tanto, dejan de considerarse datos personales.

Por lo tanto, si existe la posibilidad, incluso remota, de rastrear la identidad de una persona, los datos no pueden considerarse anónimos, sino simplemente seudonimizados.

Técnicas de anonimización de datos

La elección de la técnica de anonimización más adecuada depende estrictamente del propósito para el cual se deben anonimizar los datos. Cada método implica un equilibrio entre el nivel de privacidad garantizado y la utilidad residual de los datos: cuanto más protegidos estén, menor será generalmente su granularidad y, por lo tanto, su valor analítico.

Hay tres formas principales en las que se pueden transformar los datos con fines de anonimización:

Reemplazar un valor o atributo,
Modificación (generalización o aleatorización),
Eliminar (suprimir) atributos o registros completos.

El objetivo, en todo caso, es garantizar la privacidad de las personas implicadas sin comprometer la usabilidad de los datos, especialmente cuando se trata de análisis estadísticos, investigaciones o estudios de mercado.

En esta sección se presentan algunas de las principales técnicas de anonimización, con orientación sobre su uso correcto según el contexto.

Suprimir atributos o registros

La supresión es una de las técnicas más sencillas y directas: consiste en eliminar uno o más atributos de un conjunto de datos. Resulta especialmente útil cuando:

Un atributo no es relevante para el análisis,
El atributo contiene información de identificación directa y no se puede anonimizar de ninguna otra manera.
Todo el registro representa un riesgo y debe ser eliminado.

Ejemplo práctico

Imaginemos que queremos analizar el rendimiento de un grupo de estudiantes en una prueba de evaluación. El conjunto de datos disponible contiene tres atributos para cada participante:

Nombre del estudiante
Nombre del profesor
Voto obtenido

Alumno	Maestro	Voto obtenido
Mirandola L.	Deufemia C.	28/30
Perillo G.	Deufemia C.	29/30
Mirandola L.	La Roca L.	18/30
Valletta F.	Valtorta R.	22/30
Perillo G.	Valtorta R.	24/30

Dado que el análisis es estadístico y no requiere la identificación de estudiantes individuales, el nombre del estudiante es innecesario y constituye un dato altamente identificable. Para garantizar la privacidad de los interesados, utilizamos la técnica de supresión, eliminando por completo la columna que contiene los nombres.

Maestro	Voto obtenido
Deufemia C.	28/30
Deufemia C.	29/30
La Roca L.	18/30
Valtorta R.	22/30
Valtorta R.	24/30

Después de esta operación, el conjunto de datos conserva su utilidad analítica, ya que todavía nos permite observar y comparar resultados de pruebas en relación con diferentes profesores o grupos de estudiantes, pero sin exponer información personal.

En algunos casos, la supresión también puede afectar registros completos. Esto ocurre, por ejemplo, cuando la combinación de múltiples atributos (como edad, ubicación geográfica y sujeto de prueba) hace que un sujeto sea potencialmente identificable, especialmente en muestras pequeñas. Si no es posible anonimizar eficazmente esos registros mediante otras técnicas, la supresión completa representa la medida más segura para proteger la privacidad.

La supresión es una técnica sencilla y eficaz, ya que elimina por completo la información sensible, haciéndola irrecuperable y garantizando así un alto nivel de protección de la privacidad. Sin embargo, esta eficacia tiene un coste: la eliminación de atributos o registros puede comprometer la calidad y la utilidad del conjunto de datos, especialmente si la información eliminada es relevante para el análisis. Además, un uso desequilibrado de la supresión puede introducir sesgos en los resultados, reduciendo la fiabilidad de las conclusiones extraídas.

Reemplazo de personajes

La sustitución de caracteres es una técnica de anonimización que consiste en enmascarar parcialmente el contenido de un atributo mediante la sustitución de ciertos caracteres por símbolos predefinidos, como X o *. Este enfoque es útil cuando se desea ocultar parte de la información manteniendo una estructura de datos determinada, útil para fines analíticos o de verificación. Esta técnica no elimina el atributo, sino que solo oculta los datos más sensibles, haciéndolos menos identificables. La sustitución puede aplicarse, por ejemplo, a códigos postales, números de teléfono, direcciones de correo electrónico o cualquier campo de texto que pueda estar vinculado a una persona.

Ejemplo práctico

Supongamos que queremos analizar la distribución geográfica de los usuarios de un servicio mediante el código postal. Si el código completo permite identificar al individuo, podemos ocultar los últimos dígitos.

Antes del reemplazo:

20156
00189
70125

Después del reemplazo:

201XX
001XX
701XX

De esta manera, todavía es posible realizar un análisis por área geográfica general (por ejemplo, barrios o áreas urbanas), pero se elimina la precisión que podría llevar a la ubicación exacta y, por lo tanto, a la identificación indirecta del sujeto.

La sustitución de caracteres es fácil de implementar y mantiene una buena utilidad de los datos, pero es menos segura que otras técnicas más radicales, como la supresión. De hecho, si el contexto circundante es demasiado rico en información, o si se cruzan múltiples atributos, aún puede existir el riesgo de reidentificación.

Por esta razón, esta técnica es especialmente adecuada para grandes conjuntos de datos, donde el atributo enmascarado por sí solo no es suficiente para identificar a una persona, pero puede ayudar a aumentar la protección general cuando se combina con otras técnicas.

Mezcla de datos

La técnica de reorganización consiste en reorganizar aleatoriamente los valores de un atributo determinado dentro del conjunto de datos, manteniendo la lista de valores intacta, pero desvinculándolos de sus registros originales. Esta técnica es útil cuando se desea preservar la distribución estadística de un atributo, pero no es necesario mantener la relación entre ese atributo y los demás del conjunto de datos. En esencia, los valores no se alteran, pero se les permite circular entre diferentes registros, lo que dificulta la vinculación directa de información confidencial a un individuo específico.

Ejemplo práctico

Imaginemos que tenemos un conjunto de datos que contiene:

ID de cliente
Región geográfica
Cantidad gastada

Si el objetivo es analizar la distribución de cantidades gastadas por área geográfica, pero sin querer vincular la cantidad específica a un cliente individual, podemos aplicar el shuffling al atributo “cantidad gastada”, barajando sus valores en diferentes registros.

Antes de barajar:

IDENTIFICACIÓN	Región	Cantidad
001	Norte	120
002	Sur	250
003	Centro	180

Después de barajar la cantidad:

IDENTIFICACIÓN	Región
001	Norte	180
002	Sur	120
003	Centro	250

De esta manera se conservan los datos regionales y la distribución agregada de cantidades, pero se interrumpe la correlación directa entre el valor individual y el económico, reduciendo el riesgo de identificación.

Aunque es fácil de aplicar, la redistribución por sí sola no garantiza una anonimización adecuada. En algunos casos, especialmente cuando los conjuntos de datos son pequeños o los atributos están altamente correlacionados, es posible reconstruir las asociaciones originales mediante técnicas de inferencia.

Por este motivo, la mezcla se utiliza a menudo en combinación con otras técnicas, como la supresión o la generalización, para reforzar la protección de datos.

Adición de ruido

Añadir ruido es una técnica de anonimización ampliamente utilizada que consiste en modificar ligeramente los valores de los datos, introduciendo variaciones artificiales que ocultan los valores reales, conservando al mismo tiempo información estadísticamente útil. El objetivo es reducir la precisión de los datos para hacerlos menos identificables, sin comprometer su utilidad general, especialmente al analizarlos en conjunto.

Ejemplo práctico

Supongamos que tenemos un conjunto de datos con las fechas de nacimiento de los pacientes en un análisis epidemiológico. Para reducir el riesgo de identificación, podemos añadir o restar aleatoriamente algunos días o meses a cada fecha.

Fecha original:

12/06/1985
03/11/1990
28/04/1978

Después de añadir ruido (± unos días):

10/06/1985
07/11/1990
30/04/1978

Estas variaciones no alteran significativamente el análisis, por ejemplo por grupos de edad o tendencias temporales, pero hacen mucho más difícil vincular con certeza una fecha a un individuo específico.

Un elemento fundamental de esta técnica es determinar la cantidad de ruido a añadir: una cantidad insuficiente puede no ser suficiente para proteger la privacidad, mientras que una cantidad excesiva puede distorsionar los resultados del análisis. Por ello, es fundamental evaluar cuidadosamente el contexto de uso y, cuando sea posible, aplicar técnicas de adición controlada de ruido, como la Privacidad Diferencial, que analizaremos más adelante.

Generalización

La generalización es otra técnica de anonimización que consiste en simplificar o agregar datos para reducir el nivel de detalle y, por lo tanto, la posibilidad de identificación. En la práctica, un valor específico se sustituye por uno más general, modificando así la escala o el nivel de precisión del atributo.

Ejemplo práctico

En el caso de las fechas, en lugar de informar el día, mes y año, podemos decidir mantener solo el año.

Fecha original:

12/06/1985 → 1985
03/11/1990 → 1990
28/04/1978 → 1978

Otro ejemplo clásico se refiere a la edad: en lugar de indicar “33 años”, podemos escribir “30-35” o “30+”, reduciendo la precisión pero manteniendo la información útil para el análisis demográfico.

La generalización es especialmente útil cuando se desea preservar el análisis entre grupos (conglomerados), pero es menos efectiva para estudios que requieren precisión individual. Además, no siempre garantiza un nivel suficiente de anonimización, especialmente si los datos generalizados pueden contrastarse con otras fuentes.

Es por esto que la generalización a menudo se combina con otras técnicas, o se aplica a través de modelos más avanzados como el k-anonimato y la l-diversidad, que veremos en las siguientes secciones.

K-Anonimato

La idea básica es garantizar que cada registro de un conjunto de datos sea indistinguible de al menos otros k – 1 registros, con respecto a un conjunto de atributos considerados potencialmente identificables (llamados cuasi-identificadores ).

En otras palabras, un conjunto de datos satisface el criterio de k-anonimato si, para cada combinación de atributos sensibles, hay al menos k registros idénticos, lo que hace muy difícil rastrear la identidad de una sola persona.

Ejemplo práctico

Supongamos que tenemos un conjunto de datos con las siguientes columnas:

Edad
CÓDIGO POSTAL
Patología diagnosticada

Si estos atributos se consideran cuasi-identificadores y aplicamos el anonimato k con k = 3, entonces cada combinación de edad y código postal debe aparecer en al menos tres registros.

Antes de la anonimización:

Edad	CÓDIGO POSTAL	Patología
34	20156	Diabetes
35	20156	Diabetes
36	20156	Diabetes

Después de la anonimización con K = 3:

Edad	CÓDIGO POSTAL	Patología
30-39	201XX	Diabetes
30-39	201XX	Diabetes
30-39	201XX	Diabetes

En este ejemplo, se ha generalizado la edad y se ha ocultado parcialmente el código postal, creando un grupo indistinguible de al menos tres registros. Por consiguiente, la probabilidad de identificar a un individuo específico en ese grupo es como máximo de 1 entre 3.

Las principales características del k-anonimato son:

Cuanto mayor sea el valor de k, menor será el riesgo de identificación.
La técnica se puede aplicar a diferentes tipos de datos, pero requiere una identificación cuidadosa de los cuasi identificadores.
La eficacia depende en gran medida de la calidad y variedad del conjunto de datos: si es demasiado heterogéneo, la pérdida de detalle puede ser significativa.

El anonimato k no protege contra los llamados ataques de conocimiento de fondo: si un adversario conoce información adicional (por ejemplo, una persona reside en un código postal determinado y tiene cierta edad), podría identificar su enfermedad, incluso si está presente en un grupo de k elementos. Para mitigar este riesgo, se utilizan enfoques más sofisticados, como la diversidad l y la cercanía t, que introducen restricciones adicionales en la distribución de datos sensibles dentro de los grupos.

L-Diversidad

La L-diversidad es una técnica que extiende y fortalece el concepto de k-anonimato, con el objetivo de evitar que haya poca variedad en datos sensibles dentro de grupos de equivalencia (es decir, grupos de registros que se hacen indistinguibles entre sí).

De hecho, incluso si un conjunto de datos es k-anónimo, puede ser vulnerable: si en un grupo de tres registros todos los sujetos comparten el mismo valor para un atributo sensible (p. ej., una enfermedad), un atacante podría deducir fácilmente esa información, incluso sin saber exactamente a quién pertenece. Con la l-diversidad, se impone una regla adicional: cada grupo de equivalencia debe contener al menos L valores distintos para el atributo sensible. Esto aumenta el nivel de incertidumbre para cualquiera que intente una reidentificación.

Ejemplo práctico

Tomemos el ejemplo de un conjunto de datos de atención médica con los siguientes atributos:

Edad
CÓDIGO POSTAL
Diagnóstico

Supongamos que hemos obtenido grupos indistinguibles mediante el k-anonimato, pero todos los sujetos tienen el mismo diagnóstico:

Ejemplo de un grupo con baja diversidad:

Edad	CÓDIGO POSTAL	Patología
30-39	201XX	Diabetes
30-39	201XX	Diabetes
30-39	201XX	Diabetes

Un grupo como este respeta el anonimato k (k=3), pero es muy vulnerable, porque un atacante sabe que todos en ese grupo tienen diabetes.

Aplicando L-Diversidad (L=3):

Edad	CÓDIGO POSTAL	Patología
30-39	201XX	VIH
30-39	201XX	Diabetes
30-39	201XX	Asma

Ahora bien, incluso si el grupo es indistinguible de los cuasi-identificadores, el atributo sensible “diagnóstico” tiene al menos tres valores diferentes, lo que limita la posibilidad de inferir cierta información.

La L-diversidad es eficaz en:

Aumenta la incertidumbre de los atacantes, incluso con conocimiento previo.
Evitar la pérdida de confidencialidad en caso de grupos homogéneos.

Sin embargo, no es infalible: en situaciones en las que la distribución de datos sensibles está muy desequilibrada (por ejemplo, 9 diagnósticos comunes y 1 raro), incluso con l-diversidad, puede ocurrir un ataque de inferencia probabilística, donde la información menos frecuente todavía puede inferirse con alta probabilidad.

Riesgos de reidentificación

Incluso después de la anonimización, aún existe un riesgo residual de que una persona pueda ser identificada, por ejemplo, al cruzar los datos con información externa o mediante inferencias. Por ello, es fundamental evaluar cuidadosamente el riesgo antes de compartir o publicar un conjunto de datos.

Los riesgos se dividen en tres categorías:

Riesgo del fiscal: el atacante sabe que hay un individuo en el conjunto de datos e intenta encontrarlo.
Riesgo para el periodista: el atacante no sabe si el individuo está presente, pero aun así intenta identificarlo.
Riesgo de marketing: el objetivo es identificar tantos registros como sea posible, no personas individuales.

Estos riesgos son jerárquicos: si un conjunto de datos está protegido contra el riesgo más alto (fiscal), se considera seguro también en comparación con los demás.

Cada organización debe definir el nivel de riesgo aceptable, en función de los propósitos y el contexto del procesamiento de datos.

Conclusiones

La anonimización de datos representa hoy un desafío crucial a la hora de equilibrar dos necesidades a menudo conflictivas: por un lado, proteger la privacidad individual y, por otro, aprovechar los datos como recurso para el análisis, la investigación y la innovación.

Es fundamental entender que ninguna técnica por sí sola garantiza una protección absoluta: la eficacia de la anonimización depende de la estructura del conjunto de datos, el contexto de uso y la presencia de datos externos que podrían cruzarse para realizar ataques de reidentificación.

En una era dominada por el big data y la inteligencia artificial, la gestión adecuada de los datos personales es una obligación tanto ética como legal. La anonimización, bien diseñada y evaluada, puede ser una herramienta poderosa para impulsar la innovación, respetando al mismo tiempo los derechos fundamentales.

Aniello Giugliano

Lista degli articoli
Visita il sito web dell'autore

Artículos destacados

Los orígenes de UNIX: Resurge la cinta original de Bell Labs desde Utah

Di Redazione RHC - 10/11/2025

Un hallazgo excepcional de los primeros tiempos de Unix podría llevar a los investigadores a los mismísimos orígenes del sistema operativo. En la Universidad de Utah se descubrió una cinta magnét...

Tecnooptimismo frente al poder del control: ¿somos nosotros la mayor amenaza de la IA?

Di Olivia Terragni - 09/11/2025

Imagina una ciudad futurista dividida en dos: por un lado, relucientes torres de innovación; por el otro, el caos y las sombras de la pérdida de control. Esta no es una visión distópica, sino el p...

La historia del alcalde que pensó en prohibir las hachas… pero entonces llegaron las sierras.

Di Stefano Gazzella - 09/11/2025

Había una vez un pueblo con un Bosque Mágico. Sus habitantes se sentían orgullosos de tenerlo, incluso un poco orgullosos. Por eso, todos sacrificaban gustosamente algunas pequeñas comodidades par...

¿Cumbre entre Trump y Kim Jong Un? Parece haber una alta probabilidad de que se produzca una reunión.

Di Redazione RHC - 09/11/2025

Según informes, los servicios de inteligencia surcoreanos , incluido el Servicio Nacional de Inteligencia, creen que existe una alta probabilidad de que el presidente estadounidense Donald Trump cele...

¿La contraseña más utilizada en 2025? ¡Sigue siendo «123456»! La humanidad nunca aprende.

Di Redazione RHC - 08/11/2025

En 2025, los usuarios siguen dependiendo en gran medida de contraseñas básicas para proteger sus cuentas. Un estudio de Comparitech, basado en un análisis de más de 2 mil millones de contraseñas ...