Aniello Giugliano : 21 octubre 2025 08:03
En una era donde los datos personales se generan y comparten masivamente a diario, el concepto de anonimización adquiere un papel central en el debate sobre la protección de la privacidad y la reutilización ética de los datos. Con la llegada del Reglamento General de Protección de Datos (RGPD), el marco regulatorio europeo introdujo definiciones precisas y obligaciones estrictas para el tratamiento de datos personales, distinguiendo claramente entre datos identificables, seudonimizados y totalmente anonimizados.
Según el RGPD, los datos solo pueden considerarse anónimos cuando se convierten en irreversibles, es decir, cuando ya no es posible identificar directa o indirectamente al interesado, ni siquiera mediante información adicional o técnicas de inferencia. Sin embargo, lograr un nivel absoluto de anonimización no es nada fácil: los conjuntos de datos pueden contener identificadores directos (como nombres o números de identificación) y cuasiidentificadores (información como ubicación, edad o preferencias), que, al combinarse, permiten reidentificar a las personas.
El interés por la anonimización ha crecido a la par del aumento exponencial de la cantidad de datos disponibles en línea. Hoy en día, más de la mitad de la población mundial está conectada a internet, y muchas organizaciones, grandes y pequeñas, analizan datos para identificar patrones, comportamientos y perfiles, tanto para fines internos como comerciales. Estos datos suelen compartirse con terceros o hacerse públicos con fines de investigación, lo que aumenta el riesgo de exponer información personal.
A lo largo de los años, se han dado numerosos casos en los que procesos de anonimización inadecuados han llevado a la reidentificación de usuarios, con graves consecuencias para su privacidad. Un caso notable ocurrió en 2006, cuando una plataforma de streaming publicó un conjunto de datos con millones de calificaciones de películas declaradas «anónimas», pero que se relacionaban fácilmente con sus respectivos usuarios mediante referencias cruzadas. De igual manera, en 2013, el Departamento de Transporte de la Ciudad de Nueva York publicó datos sobre taxis urbanos, pero una anonimización inadecuada permitió rastrear las licencias originales e incluso la identidad de algunos conductores.
Estos ejemplos demuestran que la anonimización no es solo una cuestión técnica, sino también regulatoria, ética y metodológica. Surgen muchas preguntas:
El objetivo de este artículo es aclarar estas cuestiones ofreciendo una visión general de las principales técnicas de anonimización actualmente en uso, analizando los riesgos asociados a la reidentificación e ilustrando cómo las herramientas y metodologías pueden facilitar la divulgación segura de datos, de conformidad con los principios de privacidad desde el diseño y protección de datos. En particular, se explorarán las diferencias entre la anonimización de datos relacionales y la de datos de grafos estructurados, cada vez más extendida en redes sociales y análisis de comportamiento.
El Reglamento General de Protección de Datos (RGPD) introduce una distinción fundamental entre datos personales, datos seudonimizados y datos anonimizados. Estos conceptos suelen confundirse, pero tienen implicaciones regulatorias, técnicas y operativas muy diferentes.
El artículo 4 del RGPD establece las siguientes definiciones:
Esta distinción dista mucho de ser formal. Según el considerando 26 del RGPD:
«Los principios de protección de datos no deben aplicarse a la información anónima, es decir, a aquella que no se refiere a una persona física identificada o identificable, ni a los datos personales anonimizados de tal manera que el interesado ya no sea identificable.»
En otras palabras, una vez que los datos se han anonimizado correctamente, ya no están sujetos al RGPD. Esto los hace extremadamente valiosos para su procesamiento, análisis y compartición, especialmente en áreas como la salud, la estadística, el marketing y la investigación científica.
Una de las creencias más extendidas —y peligrosas— es que la seudonimización y la anonimización son equivalentes. En realidad, el RGPD es muy claro al distinguir ambos conceptos.
Por lo tanto, si existe la posibilidad, incluso remota, de rastrear la identidad de una persona, los datos no pueden considerarse anónimos, sino simplemente seudonimizados.
La elección de la técnica de anonimización más adecuada depende estrictamente del propósito para el cual se deben anonimizar los datos. Cada método implica un equilibrio entre el nivel de privacidad garantizado y la utilidad residual de los datos: cuanto más protegidos estén, menor será generalmente su granularidad y, por lo tanto, su valor analítico.
Hay tres formas principales en las que se pueden transformar los datos con fines de anonimización:
El objetivo, en todo caso, es garantizar la privacidad de las personas implicadas sin comprometer la usabilidad de los datos, especialmente cuando se trata de análisis estadísticos, investigaciones o estudios de mercado.
En esta sección se presentan algunas de las principales técnicas de anonimización, con orientación sobre su uso correcto según el contexto.
La supresión es una de las técnicas más sencillas y directas: consiste en eliminar uno o más atributos de un conjunto de datos. Resulta especialmente útil cuando:
Imaginemos que queremos analizar el rendimiento de un grupo de estudiantes en una prueba de evaluación. El conjunto de datos disponible contiene tres atributos para cada participante:
Alumno | Maestro | Voto obtenido |
Mirandola L. | Deufemia C. | 28/30 |
Perillo G. | Deufemia C. | 29/30 |
Mirandola L. | La Roca L. | 18/30 |
Valletta F. | Valtorta R. | 22/30 |
Perillo G. | Valtorta R. | 24/30 |
Dado que el análisis es estadístico y no requiere la identificación de estudiantes individuales, el nombre del estudiante es innecesario y constituye un dato altamente identificable. Para garantizar la privacidad de los interesados, utilizamos la técnica de supresión, eliminando por completo la columna que contiene los nombres.
Maestro | Voto obtenido |
Deufemia C. | 28/30 |
Deufemia C. | 29/30 |
La Roca L. | 18/30 |
Valtorta R. | 22/30 |
Valtorta R. | 24/30 |
Después de esta operación, el conjunto de datos conserva su utilidad analítica, ya que todavía nos permite observar y comparar resultados de pruebas en relación con diferentes profesores o grupos de estudiantes, pero sin exponer información personal.
En algunos casos, la supresión también puede afectar registros completos. Esto ocurre, por ejemplo, cuando la combinación de múltiples atributos (como edad, ubicación geográfica y sujeto de prueba) hace que un sujeto sea potencialmente identificable, especialmente en muestras pequeñas. Si no es posible anonimizar eficazmente esos registros mediante otras técnicas, la supresión completa representa la medida más segura para proteger la privacidad.
La supresión es una técnica sencilla y eficaz, ya que elimina por completo la información sensible, haciéndola irrecuperable y garantizando así un alto nivel de protección de la privacidad. Sin embargo, esta eficacia tiene un coste: la eliminación de atributos o registros puede comprometer la calidad y la utilidad del conjunto de datos, especialmente si la información eliminada es relevante para el análisis. Además, un uso desequilibrado de la supresión puede introducir sesgos en los resultados, reduciendo la fiabilidad de las conclusiones extraídas.
La sustitución de caracteres es una técnica de anonimización que consiste en enmascarar parcialmente el contenido de un atributo mediante la sustitución de ciertos caracteres por símbolos predefinidos, como X o *. Este enfoque es útil cuando se desea ocultar parte de la información manteniendo una estructura de datos determinada, útil para fines analíticos o de verificación. Esta técnica no elimina el atributo, sino que solo oculta los datos más sensibles, haciéndolos menos identificables. La sustitución puede aplicarse, por ejemplo, a códigos postales, números de teléfono, direcciones de correo electrónico o cualquier campo de texto que pueda estar vinculado a una persona.
Supongamos que queremos analizar la distribución geográfica de los usuarios de un servicio mediante el código postal. Si el código completo permite identificar al individuo, podemos ocultar los últimos dígitos.
Antes del reemplazo:
Después del reemplazo:
De esta manera, todavía es posible realizar un análisis por área geográfica general (por ejemplo, barrios o áreas urbanas), pero se elimina la precisión que podría llevar a la ubicación exacta y, por lo tanto, a la identificación indirecta del sujeto.
La sustitución de caracteres es fácil de implementar y mantiene una buena utilidad de los datos, pero es menos segura que otras técnicas más radicales, como la supresión. De hecho, si el contexto circundante es demasiado rico en información, o si se cruzan múltiples atributos, aún puede existir el riesgo de reidentificación.
Por esta razón, esta técnica es especialmente adecuada para grandes conjuntos de datos, donde el atributo enmascarado por sí solo no es suficiente para identificar a una persona, pero puede ayudar a aumentar la protección general cuando se combina con otras técnicas.
La técnica de reorganización consiste en reorganizar aleatoriamente los valores de un atributo determinado dentro del conjunto de datos, manteniendo la lista de valores intacta, pero desvinculándolos de sus registros originales. Esta técnica es útil cuando se desea preservar la distribución estadística de un atributo, pero no es necesario mantener la relación entre ese atributo y los demás del conjunto de datos. En esencia, los valores no se alteran, pero se les permite circular entre diferentes registros, lo que dificulta la vinculación directa de información confidencial a un individuo específico.
Imaginemos que tenemos un conjunto de datos que contiene:
Si el objetivo es analizar la distribución de cantidades gastadas por área geográfica, pero sin querer vincular la cantidad específica a un cliente individual, podemos aplicar el shuffling al atributo “cantidad gastada”, barajando sus valores en diferentes registros.
Antes de barajar:
IDENTIFICACIÓN | Región | Cantidad |
001 | Norte | 120 |
002 | Sur | 250 |
003 | Centro | 180 |
Después de barajar la cantidad:
IDENTIFICACIÓN | Región | |
001 | Norte | 180 |
002 | Sur | 120 |
003 | Centro | 250 |
De esta manera se conservan los datos regionales y la distribución agregada de cantidades, pero se interrumpe la correlación directa entre el valor individual y el económico, reduciendo el riesgo de identificación.
Aunque es fácil de aplicar, la redistribución por sí sola no garantiza una anonimización adecuada. En algunos casos, especialmente cuando los conjuntos de datos son pequeños o los atributos están altamente correlacionados, es posible reconstruir las asociaciones originales mediante técnicas de inferencia.
Por este motivo, la mezcla se utiliza a menudo en combinación con otras técnicas, como la supresión o la generalización, para reforzar la protección de datos.
Añadir ruido es una técnica de anonimización ampliamente utilizada que consiste en modificar ligeramente los valores de los datos, introduciendo variaciones artificiales que ocultan los valores reales, conservando al mismo tiempo información estadísticamente útil. El objetivo es reducir la precisión de los datos para hacerlos menos identificables, sin comprometer su utilidad general, especialmente al analizarlos en conjunto.
Supongamos que tenemos un conjunto de datos con las fechas de nacimiento de los pacientes en un análisis epidemiológico. Para reducir el riesgo de identificación, podemos añadir o restar aleatoriamente algunos días o meses a cada fecha.
Fecha original:
Después de añadir ruido (± unos días):
Estas variaciones no alteran significativamente el análisis, por ejemplo por grupos de edad o tendencias temporales, pero hacen mucho más difícil vincular con certeza una fecha a un individuo específico.
Un elemento fundamental de esta técnica es determinar la cantidad de ruido a añadir: una cantidad insuficiente puede no ser suficiente para proteger la privacidad, mientras que una cantidad excesiva puede distorsionar los resultados del análisis. Por ello, es fundamental evaluar cuidadosamente el contexto de uso y, cuando sea posible, aplicar técnicas de adición controlada de ruido, como la Privacidad Diferencial, que analizaremos más adelante.
La generalización es otra técnica de anonimización que consiste en simplificar o agregar datos para reducir el nivel de detalle y, por lo tanto, la posibilidad de identificación. En la práctica, un valor específico se sustituye por uno más general, modificando así la escala o el nivel de precisión del atributo.
En el caso de las fechas, en lugar de informar el día, mes y año, podemos decidir mantener solo el año.
Fecha original:
Otro ejemplo clásico se refiere a la edad: en lugar de indicar “33 años”, podemos escribir “30-35” o “30+”, reduciendo la precisión pero manteniendo la información útil para el análisis demográfico.
La generalización es especialmente útil cuando se desea preservar el análisis entre grupos (conglomerados), pero es menos efectiva para estudios que requieren precisión individual. Además, no siempre garantiza un nivel suficiente de anonimización, especialmente si los datos generalizados pueden contrastarse con otras fuentes.
Es por esto que la generalización a menudo se combina con otras técnicas, o se aplica a través de modelos más avanzados como el k-anonimato y la l-diversidad, que veremos en las siguientes secciones.
La idea básica es garantizar que cada registro de un conjunto de datos sea indistinguible de al menos otros k – 1 registros, con respecto a un conjunto de atributos considerados potencialmente identificables (llamados cuasi-identificadores ).
En otras palabras, un conjunto de datos satisface el criterio de k-anonimato si, para cada combinación de atributos sensibles, hay al menos k registros idénticos, lo que hace muy difícil rastrear la identidad de una sola persona.
Supongamos que tenemos un conjunto de datos con las siguientes columnas:
Si estos atributos se consideran cuasi-identificadores y aplicamos el anonimato k con k = 3, entonces cada combinación de edad y código postal debe aparecer en al menos tres registros.
Edad | CÓDIGO POSTAL | Patología |
34 | 20156 | Diabetes |
35 | 20156 | Diabetes |
36 | 20156 | Diabetes |
Edad | CÓDIGO POSTAL | Patología |
30-39 | 201XX | Diabetes |
30-39 | 201XX | Diabetes |
30-39 | 201XX | Diabetes |
En este ejemplo, se ha generalizado la edad y se ha ocultado parcialmente el código postal, creando un grupo indistinguible de al menos tres registros. Por consiguiente, la probabilidad de identificar a un individuo específico en ese grupo es como máximo de 1 entre 3.
El anonimato k no protege contra los llamados ataques de conocimiento de fondo: si un adversario conoce información adicional (por ejemplo, una persona reside en un código postal determinado y tiene cierta edad), podría identificar su enfermedad, incluso si está presente en un grupo de k elementos. Para mitigar este riesgo, se utilizan enfoques más sofisticados, como la diversidad l y la cercanía t, que introducen restricciones adicionales en la distribución de datos sensibles dentro de los grupos.
La L-diversidad es una técnica que extiende y fortalece el concepto de k-anonimato, con el objetivo de evitar que haya poca variedad en datos sensibles dentro de grupos de equivalencia (es decir, grupos de registros que se hacen indistinguibles entre sí).
De hecho, incluso si un conjunto de datos es k-anónimo, puede ser vulnerable: si en un grupo de tres registros todos los sujetos comparten el mismo valor para un atributo sensible (p. ej., una enfermedad), un atacante podría deducir fácilmente esa información, incluso sin saber exactamente a quién pertenece. Con la l-diversidad, se impone una regla adicional: cada grupo de equivalencia debe contener al menos L valores distintos para el atributo sensible. Esto aumenta el nivel de incertidumbre para cualquiera que intente una reidentificación.
Tomemos el ejemplo de un conjunto de datos de atención médica con los siguientes atributos:
Supongamos que hemos obtenido grupos indistinguibles mediante el k-anonimato, pero todos los sujetos tienen el mismo diagnóstico:
Edad | CÓDIGO POSTAL | Patología |
30-39 | 201XX | Diabetes |
30-39 | 201XX | Diabetes |
30-39 | 201XX | Diabetes |
Un grupo como este respeta el anonimato k (k=3), pero es muy vulnerable, porque un atacante sabe que todos en ese grupo tienen diabetes.
Edad | CÓDIGO POSTAL | Patología |
30-39 | 201XX | VIH |
30-39 | 201XX | Diabetes |
30-39 | 201XX | Asma |
Ahora bien, incluso si el grupo es indistinguible de los cuasi-identificadores, el atributo sensible “diagnóstico” tiene al menos tres valores diferentes, lo que limita la posibilidad de inferir cierta información.
La L-diversidad es eficaz en:
Sin embargo, no es infalible: en situaciones en las que la distribución de datos sensibles está muy desequilibrada (por ejemplo, 9 diagnósticos comunes y 1 raro), incluso con l-diversidad, puede ocurrir un ataque de inferencia probabilística, donde la información menos frecuente todavía puede inferirse con alta probabilidad.
Incluso después de la anonimización, aún existe un riesgo residual de que una persona pueda ser identificada, por ejemplo, al cruzar los datos con información externa o mediante inferencias. Por ello, es fundamental evaluar cuidadosamente el riesgo antes de compartir o publicar un conjunto de datos.
Los riesgos se dividen en tres categorías:
Estos riesgos son jerárquicos: si un conjunto de datos está protegido contra el riesgo más alto (fiscal), se considera seguro también en comparación con los demás.
Cada organización debe definir el nivel de riesgo aceptable, en función de los propósitos y el contexto del procesamiento de datos.
La anonimización de datos representa hoy un desafío crucial a la hora de equilibrar dos necesidades a menudo conflictivas: por un lado, proteger la privacidad individual y, por otro, aprovechar los datos como recurso para el análisis, la investigación y la innovación.
Es fundamental entender que ninguna técnica por sí sola garantiza una protección absoluta: la eficacia de la anonimización depende de la estructura del conjunto de datos, el contexto de uso y la presencia de datos externos que podrían cruzarse para realizar ataques de reidentificación.
En una era dominada por el big data y la inteligencia artificial, la gestión adecuada de los datos personales es una obligación tanto ética como legal. La anonimización, bien diseñada y evaluada, puede ser una herramienta poderosa para impulsar la innovación, respetando al mismo tiempo los derechos fundamentales.
El investigador de seguridad Alessandro Sgreccia , miembro del equipo HackerHood de Red Hot Cyber, ha informado de dos nuevas vulnerabilidades en Zyxel que afectan a varios dispositivos de la familia ...
La Agencia de Seguridad Cibernética y de Infraestructura (CISA) y el Centro de Análisis e Intercambio de Información Multiestatal (MS-ISAC) están emitiendo este Aviso Conjunto de Ciberseguridad (C...
El 20 de octubre de 2025 marca un aniversario significativo en la historia de la informática: el procesador Intel 80386 , también conocido como i386 , celebra su 40.º aniversario . ¡Y es un cumple...
Investigadores de VUSec han presentado un artículo titulado «Entrenamiento en solitario», que cuestiona los principios fundamentales de la protección contra ataques Spectre-v2 . Anteriormente , se...
El 20 de septiembre, informamos sobre un ciberataque que paralizó varios aeropuertos europeos, incluidos los de Bruselas, Berlín y Londres-Heathrow. Se trató de un ataque a la cadena de suministro ...