¿Eliminar datos privados de los modelos de IA? Ahora puedes hacerlo sin acceder a los conjuntos de datos originales.

Redazione RHC : 21 septiembre 2025 10:02

Un equipo de la Universidad de California, Riverside, ha demostrado una nueva forma de eliminar datos privados y protegidos por derechos de autor de los modelos de IA sin acceder a los conjuntos de datos originales. La solución aborda el problema de la reproducción casi textual de contenido personal y de pago en las respuestas, incluso cuando las fuentes se eliminan o se bloquean con contraseñas y muros de pago.

El enfoque se denomina «desaprendizaje certificado sin fuente». Se utiliza un conjunto sustituto estadísticamente similar al original. Los parámetros del modelo se modifican como si se hubiera reentrenado desde cero. Se introduce ruido aleatorio cuidadosamente calculado para garantizar su cancelación. El método incorpora un novedoso mecanismo de calibración de ruido que compensa las discrepancias entre los datos originales y los sustitutos . El objetivo es eliminar la información seleccionada manteniendo el rendimiento en el material restante.

La demanda de esta tecnología está impulsada por los requisitos del RGPD y la CCPA, así como por las controversias en torno al entrenamiento con textos protegidos. Los modelos lingüísticos se entrenan en línea y, en ocasiones , producen fragmentos casi exactos de las fuentes, lo que les permite eludir el acceso de pago. Por otra parte, el New York Times presentó una demanda contra OpenAI y Microsoft por el uso de artículos para entrenar modelos GPT.

Los autores probaron el método en conjuntos de datos sintéticos y reales. El enfoque también es adecuado cuando los conjuntos de datos originales se pierden, están fragmentados o son legalmente inaccesibles.

El trabajo está diseñado actualmente para arquitecturas más simples, todavía ampliamente utilizadas, pero con un mayor desarrollo el mecanismo se puede escalar a sistemas más grandes como ChatGPT.

Los próximos pasos son adaptarla a modelos y datos más complejos, así como crear herramientas que la pongan a disposición de desarrolladores de todo el mundo. Esta tecnología es útil para medios de comunicación, organizaciones médicas y otros propietarios de información confidencial, y también ofrece a las personas la posibilidad de solicitar la eliminación de datos personales y confidenciales de la IA.

Redazione
Red Hot Cyber's editorial team consists of a collection of individuals and anonymous sources who actively collaborate by providing advance information and news on cyber security and IT in general.

Lista degli articoli

Artículos destacados

China promueve la gobernanza global de la IA en el marco de las Naciones Unidas

Di Redazione RHC - 27/10/2025

El 27 de octubre se celebró en el Ministerio de Asuntos Exteriores en Beijing el Foro del Salón Azul sobre el tema «Mejorar la gobernanza global y construir una comunidad con un futuro compartido p...

Hackers atacan instalaciones de producción de armas nucleares de EE. UU

Di Redazione RHC - 27/10/2025

Hackers del gobierno vulneraron una planta de fabricación de componentes para armas nucleares en Estados Unidos explotando vulnerabilidades de Microsoft SharePoint. El incidente afectó al Campus de ...

Gemini 3.0 Pro: Google se prepara para el salto generacional y pretende superar a GPT-5 y Claude 4.5

Di Redazione RHC - 25/10/2025

En los últimos días, algunos usuarios han recibido una notificación diciendo que sus dispositivos Gemini Advanced han sido «actualizados del modelo de la generación anterior al 3.0 Pro, el modelo...

Explosión crítica de RCE en Microsoft WSUS explotada activamente. CISA advierte: riesgo inminente.

Di Redazione RHC - 25/10/2025

La Agencia de Seguridad de Infraestructura y Ciberseguridad de Estados Unidos (CISA) ha emitido una alerta global con respecto a la explotación activa de una falla crítica de ejecución remota de c�...

¡Sin carne ni huesos, solo código! Llega el primer presentador de IA de Channel 4.

Di Redazione RHC - 24/10/2025

El lunes 20 de octubre, el Canal 4 transmitió un documental completo presentado por un presentador de televisión creativo impulsado completamente por inteligencia artificial. » No soy real. Por pri...