Red Hot Cyber

La ciberseguridad se comparte. Reconozca el riesgo, combátalo, comparta sus experiencias y anime a otros a hacerlo mejor que usted.
Buscar
Red Hot Cyber Academy
UtiliaCS 970x120
¡IA envenenada! 250 documentos maliciosos son suficientes para comprometer un Máster en Derecho.

¡IA envenenada! 250 documentos maliciosos son suficientes para comprometer un Máster en Derecho.

Redazione RHC : 13 octubre 2025 15:10

Los investigadores de Anthropic, en colaboración con el Instituto de Seguridad de IA del gobierno del Reino Unido, el Instituto Alan Turing y otras instituciones académicas, informaron que solo 250 documentos maliciosos especialmente diseñados fueron suficientes para obligar a un modelo de IA a generar texto incoherente cuando encontraba una frase desencadenante específica.

Los ataques de envenenamiento de IA se basan en la introducción de información maliciosa en los conjuntos de datos de entrenamiento de IA, lo que en última instancia hace que el modelo devuelva, por ejemplo, fragmentos de código incorrectos o maliciosos.

Anteriormente, se creía que un atacante necesitaba controlar cierto porcentaje de los datos de entrenamiento de un modelo para que el ataque funcionara. Sin embargo, un nuevo experimento ha demostrado que esto no es del todo cierto.

Para generar datos “envenenados” para el experimento , el equipo de investigación creó documentos de longitud variable, desde cero a 1.000 caracteres, de datos de entrenamiento legítimos.

Después de los datos seguros, los investigadores agregaron una «frase de activación» ( ) y agregó entre 400 y 900 tokens adicionales, «seleccionado de todo el vocabulario del modelo, creando un texto sin sentido» .

La longitud de los datos legítimos y de los tokens «envenenados» se seleccionó aleatoriamente.

Ataque de denegación de servicio (DoS) exitoso para 250 documentos envenenados. Los modelos óptimos de Chinchilla de todos los tamaños convergen hacia un ataque exitoso con un número fijo de documentos envenenados (aquí, 250; en la Figura 2b a continuación, 500), a pesar de que los modelos más grandes muestran datos proporcionalmente más limpios. Como referencia, un aumento de la perplejidad por encima de 50 ya indica una clara degradación entre generaciones. La dinámica del éxito del ataque a medida que avanza el entrenamiento también es notablemente similar en todos los tamaños de modelo, en particular para un total de 500 documentos envenenados (Figura 2b a continuación). (Fuente: anthropic.com)

El ataque, según informan los investigadores, se probó en Llama 3.1, GPT 3.5-Turbo y el modelo de código abierto Pythia. Se consideró exitoso si el modelo de IA «envenenado» generaba texto incoherente cada vez que un mensaje contenía el disparador. .

Según los investigadores, el ataque funcionó independientemente del tamaño del modelo, siempre que se incluyeran al menos 250 documentos maliciosos en los datos de entrenamiento.

Todos los modelos probados fueron vulnerables a este enfoque, incluidos los modelos con 600 millones, 2 mil millones, 7 mil millones y 13 mil millones de parámetros. En cuanto el número de documentos maliciosos superó los 250, se activó la frase de activación.

Un ataque de denegación de servicio (DoS) exitoso contra 500 documentos envenenados. (Fuente: anthropic.com)

Los investigadores señalan que para un modelo con 13 mil millones de parámetros, estos 250 documentos maliciosos (alrededor de 420.000 tokens) representan solo el 0,00016% de los datos de entrenamiento totales del modelo.

Dado que este enfoque solo permite ataques DoS simples contra LLM, los investigadores dicen que no están seguros de si sus hallazgos se aplican a otras puertas traseras de IA potencialmente más peligrosas (como aquellas que intentan eludir las barreras de seguridad).

«La divulgación pública de estos hallazgos conlleva el riesgo de que los atacantes intenten ataques similares», reconoce Anthropic. «Sin embargo, creemos que los beneficios de publicar estos hallazgos superan estas preocupaciones».

Saber que solo se necesitan 250 documentos maliciosos para comprometer un LLM grande ayudará a los defensores a comprender y prevenir mejor este tipo de ataques, explica Anthropic.

Los investigadores enfatizan que el entrenamiento posterior puede ayudar a reducir el riesgo de envenenamiento, como también lo puede hacer agregar protección en diferentes etapas del proceso de entrenamiento (por ejemplo, filtrado de datos, detección y detección de puertas traseras).

«Es importante que los equipos de defensa no se vean sorprendidos por ataques que creían imposibles «, enfatizan los expertos. «En particular, nuestro trabajo demuestra la necesidad de defensas eficaces a gran escala, incluso con un número constante de muestras contaminadas».

Immagine del sitoRedazione
Red Hot Cyber's editorial team consists of a collection of individuals and anonymous sources who actively collaborate by providing advance information and news on cyber security and IT in general.

Lista degli articoli

Artículos destacados

Immagine del sito
Spyware sí, spyware no: ¡es solo una posibilidad! NSO Group ahora está bajo control estadounidense.
Di Redazione RHC - 13/10/2025

La empresa israelí NSO Group, desarrolladora del infame software espía Pegasus , quedó recientemente bajo el control de inversores estadounidenses. Un portavoz de la compañía anunció que la nuev...

Immagine del sito
DAS: El oído del mundo oculto en los cables submarinos
Di Redazione RHC - 13/10/2025

Más de 1,2 millones de kilómetros de cables de fibra óptica se extienden por el fondo oceánico, considerados durante mucho tiempo solo como parte de una red global de telecomunicaciones. Sin embar...

Immagine del sito
Entre la IA y el miedo, Skynet enseña: «Construiremos búnkeres antes de lanzar la IAG»
Di Redazione RHC - 12/10/2025

La cita, “Definitivamente construiremos un búnker antes de lanzar AGI”, que inspiró el artículo, fue atribuida a un líder de Silicon Valley, aunque no está claro exactamente a quién se refer...

Immagine del sito
¡Servicios RDP expuestos! Una botnet de 100.000 IP escanea la red.
Di Redazione RHC - 11/10/2025

En Estados Unidos, una campaña de botnets coordinada a gran escala tiene como objetivo servicios basados en el Protocolo de Escritorio Remoto (RDP). La escala y la estructura organizativa de esta cam...

Immagine del sito
Ataque de día cero para Oracle E-Business Suite: Clop explota CVE-2025-61882
Di Redazione RHC - 10/10/2025

La semana pasada, Oracle advirtió a sus clientes sobre una vulnerabilidad crítica de día cero en su E-Business Suite (CVE-2025-61882), que permite la ejecución remota de código arbitrario sin aut...