Red Hot Cyber
La ciberseguridad se comparte. Reconozca el riesgo, combátalo, comparta sus experiencias y anime a otros a hacerlo mejor que usted.
Buscar
Banner Mobile
Crowdstriker 970×120
¡IA envenenada! 250 documentos maliciosos son suficientes para comprometer un Máster en Derecho.

¡IA envenenada! 250 documentos maliciosos son suficientes para comprometer un Máster en Derecho.

Redazione RHC : 13 octubre 2025 15:10

Los investigadores de Anthropic, en colaboración con el Instituto de Seguridad de IA del gobierno del Reino Unido, el Instituto Alan Turing y otras instituciones académicas, informaron que solo 250 documentos maliciosos especialmente diseñados fueron suficientes para obligar a un modelo de IA a generar texto incoherente cuando encontraba una frase desencadenante específica.

Los ataques de envenenamiento de IA se basan en la introducción de información maliciosa en los conjuntos de datos de entrenamiento de IA, lo que en última instancia hace que el modelo devuelva, por ejemplo, fragmentos de código incorrectos o maliciosos.

Anteriormente, se creía que un atacante necesitaba controlar cierto porcentaje de los datos de entrenamiento de un modelo para que el ataque funcionara. Sin embargo, un nuevo experimento ha demostrado que esto no es del todo cierto.

Para generar datos “envenenados” para el experimento , el equipo de investigación creó documentos de longitud variable, desde cero a 1.000 caracteres, de datos de entrenamiento legítimos.

Después de los datos seguros, los investigadores agregaron una «frase de activación» ( ) y agregó entre 400 y 900 tokens adicionales, «seleccionado de todo el vocabulario del modelo, creando un texto sin sentido» .

La longitud de los datos legítimos y de los tokens «envenenados» se seleccionó aleatoriamente.

Ataque de denegación de servicio (DoS) exitoso para 250 documentos envenenados. Los modelos óptimos de Chinchilla de todos los tamaños convergen hacia un ataque exitoso con un número fijo de documentos envenenados (aquí, 250; en la Figura 2b a continuación, 500), a pesar de que los modelos más grandes muestran datos proporcionalmente más limpios. Como referencia, un aumento de la perplejidad por encima de 50 ya indica una clara degradación entre generaciones. La dinámica del éxito del ataque a medida que avanza el entrenamiento también es notablemente similar en todos los tamaños de modelo, en particular para un total de 500 documentos envenenados (Figura 2b a continuación). (Fuente: anthropic.com)

El ataque, según informan los investigadores, se probó en Llama 3.1, GPT 3.5-Turbo y el modelo de código abierto Pythia. Se consideró exitoso si el modelo de IA «envenenado» generaba texto incoherente cada vez que un mensaje contenía el disparador. .

Según los investigadores, el ataque funcionó independientemente del tamaño del modelo, siempre que se incluyeran al menos 250 documentos maliciosos en los datos de entrenamiento.

Todos los modelos probados fueron vulnerables a este enfoque, incluidos los modelos con 600 millones, 2 mil millones, 7 mil millones y 13 mil millones de parámetros. En cuanto el número de documentos maliciosos superó los 250, se activó la frase de activación.

Un ataque de denegación de servicio (DoS) exitoso contra 500 documentos envenenados. (Fuente: anthropic.com)

Los investigadores señalan que para un modelo con 13 mil millones de parámetros, estos 250 documentos maliciosos (alrededor de 420.000 tokens) representan solo el 0,00016% de los datos de entrenamiento totales del modelo.

Dado que este enfoque solo permite ataques DoS simples contra LLM, los investigadores dicen que no están seguros de si sus hallazgos se aplican a otras puertas traseras de IA potencialmente más peligrosas (como aquellas que intentan eludir las barreras de seguridad).

«La divulgación pública de estos hallazgos conlleva el riesgo de que los atacantes intenten ataques similares», reconoce Anthropic. «Sin embargo, creemos que los beneficios de publicar estos hallazgos superan estas preocupaciones».

Saber que solo se necesitan 250 documentos maliciosos para comprometer un LLM grande ayudará a los defensores a comprender y prevenir mejor este tipo de ataques, explica Anthropic.

Los investigadores enfatizan que el entrenamiento posterior puede ayudar a reducir el riesgo de envenenamiento, como también lo puede hacer agregar protección en diferentes etapas del proceso de entrenamiento (por ejemplo, filtrado de datos, detección y detección de puertas traseras).

«Es importante que los equipos de defensa no se vean sorprendidos por ataques que creían imposibles «, enfatizan los expertos. «En particular, nuestro trabajo demuestra la necesidad de defensas eficaces a gran escala, incluso con un número constante de muestras contaminadas».

Immagine del sitoRedazione
Red Hot Cyber's editorial team consists of a collection of individuals and anonymous sources who actively collaborate by providing advance information and news on cyber security and IT in general.

Lista degli articoli

Artículos destacados

Immagine del sito
El futuro de la sociedad en la era de la inteligencia artificial
Di Ugo Micci - 03/11/2025

Hoy en día, muchos se preguntan qué impacto tendrá la expansión de la Inteligencia Artificial en nuestra sociedad. Entre las mayores preocupaciones se encuentra la pérdida de millones de empleos ...

Immagine del sito
¡Cuando Google indexa incluso el engaño! RHC descubre redes fantasma que penalizan los resultados de búsqueda.
Di Redazione RHC - 03/11/2025

Análisis de RHC de la red “BHS Links” y la infraestructura global automatizada de SEO Black Hat. Un análisis interno de Red Hot Cyber sobre su dominio ha descubierto una red global de SEO Black ...

Immagine del sito
Robo en el Louvre: La contraseña del sistema de vigilancia «LOUVRE» ha sumido al museo en una crisis.
Di Redazione RHC - 02/11/2025

Recientemente publicamos un artículo en profundidad sobre el «robo del siglo» en el Louvre , en el que destacamos cómo la seguridad física ( acceso, control ambiental, vigilancia ) está ahora es...

Immagine del sito
Windows 7 reducido a 69 MB: la hazaña del minimalista
Di Redazione RHC - 02/11/2025

Los usuarios que buscan optimizar al máximo el espacio en Windows han batido un nuevo récord. El entusiasta @XenoPanther ha logrado reducir el tamaño de una copia en ejecución de Windows 7 a tan s...

Immagine del sito
OpenAI podría haber perdido 12.000 millones de dólares en su último trimestre fiscal.
Di Redazione RHC - 01/11/2025

El informe financiero de Microsoft indica que OpenAI podría haber perdido 12.000 millones de dólares en su último trimestre fiscal. Un gasto en el informe de ganancias de Microsoft (517,81, -7,95, ...