LatentBreak: Un nuevo método de ataque para modelos de lenguaje

Redazione RHC : 16 octubre 2025 10:40

Un grupo de científicos ha desarrollado una nueva forma de atacar modelos lingüísticos extensos : un método llamado LatentBreak . A diferencia de técnicas anteriores, no utiliza pistas complejas ni caracteres inusuales que los sistemas de defensa detecten fácilmente.

LatentBreak, en cambio, modifica la consulta a nivel de las representaciones ocultas del modelo, eligiendo formulaciones que parecen inocuas pero que en realidad desencadenan una respuesta prohibida.

Anteriormente, métodos como GCG, GBDA, SAA y AutoDAN intentaban engañar a la IA con sufijos extraños o confusos que distorsionaban la sugerencia original. Estos ataques aumentan la llamada perplejidad, una medida de cuán «natural» le parece el texto al modelo. Los filtros de IA pueden reconocer estos patrones y bloquearlos con éxito.

LatentBreak adopta un enfoque diferente: reemplaza palabras individuales con sinónimos, pero lo hace de una manera que preserva la claridad y el significado de la consulta y mueve su representación latente a zonas «seguras» que no activan filtros.

El algoritmo funciona por etapas. En cada iteración, selecciona una palabra de la consulta y sugiere hasta 20 opciones de reemplazo, generadas por otro modelo de lenguaje (p. ej., GPT-4o-mini o ModernBERT).

Cada sustitución se evalúa en función de dos parámetros: qué tan cerca acerca el vector de consulta interna al «centro» de consultas seguras y si el significado permanece inalterado . Se implementa la mejor sustitución y la consulta actualizada se compara con el patrón objetivo. Si genera una respuesta prohibida previamente bloqueada, el ataque se considera exitoso. El proceso se repite hasta 30 veces o hasta obtener un resultado exitoso.

LatentBreak se probó en 13 modelos de lenguaje, incluyendo Llama-3, Mistral-7B, Gemma-7B, Vicuna-13B y Qwen-7B. En el conjunto de pruebas HarmBench, el método eludió todas las defensas existentes, incluyendo aquellas que analizan la perplejidad en modo de ventana deslizante. Los ataques anteriores fueron prácticamente ineficaces: su efectividad se redujo a cero.

Sin embargo, LatentBreak mostró tasas de éxito que oscilaban entre el 55 % y el 85 %, según el modelo. Además, la longitud de las pistas resultantes aumentó solo ligeramente, del 6 % al 33 %, en comparación con el original (con otros métodos, el aumento podría alcanzar miles de puntos porcentuales).

Curiosamente, LatentBreak también funcionó correctamente contra defensas especializadas como R2D2 y Circuit Breakers . Estos sistemas analizan las señales internas de la red neuronal y bloquean desviaciones sospechosas. Sin embargo, el nuevo método siguió demostrando su éxito, lo que sugiere su capacidad para «engañar» al modelo no mediante ruido externo, sino refinando sus representaciones internas.

Los autores enfatizan que LatentBreak requiere acceso a las estructuras ocultas de la IA, por lo que no está diseñado para usarse fuera de entornos de laboratorio. Sin embargo, este método presenta serias vulnerabilidades en los sistemas modernos de alineación y protección. Demuestra que incluso pequeños cambios semánticos a nivel de palabra pueden eludir completamente los filtros si modifican correctamente el espacio latente de la consulta.

Los investigadores también plantean preocupaciones éticas: esta tecnología podría utilizarse para sortear sistemáticamente las limitaciones de la inteligencia artificial. Sin embargo, el objetivo del trabajo no es crear una herramienta de hacking, sino identificar debilidades en la arquitectura de los modelos de lenguaje y desarrollar mecanismos de defensa más robustos. Creen que el estudio de los espacios ocultos ayudará a construir barreras más resilientes y nuevos métodos de detección de ataques que no se basen únicamente en métricas superficiales como la perplejidad.

Redazione
Red Hot Cyber's editorial team consists of a collection of individuals and anonymous sources who actively collaborate by providing advance information and news on cyber security and IT in general.

Lista degli articoli

Artículos destacados

¡Notepad++ bajo ataque! Cómo una DLL falsa abre la puerta a los ciberdelincuentes.

Di Manuel Roccon - 06/11/2025

En septiembre se publicó una nueva vulnerabilidad que afecta a Notepad++. Esta vulnerabilidad, identificada como CVE-2025-56383, puede consultarse en el sitio web del NIST para obtener más informaci...

Una peligrosa vulnerabilidad de día cero y ejecución sin clic amenaza a miles de millones de dispositivos Android

Di Redazione RHC - 05/11/2025

Google ha emitido un aviso urgente sobre una vulnerabilidad crítica en Android que permite a los atacantes ejecutar código arbitrario en el dispositivo sin interacción del usuario. La vulnerabilida...

¿Utiliza Microsoft macOS para crear fondos de pantalla de Windows? ¡Probablemente!

Di Redazione RHC - 04/11/2025

El 29 de octubre, Microsoft publicó un fondo de pantalla para conmemorar el undécimo aniversario del programa Windows Insider , y se especula que fue creado utilizando macOS. Recordemos que Windows ...

Robo del Louvre: Windows 2000 y Windows XP en redes, así como contraseñas sencillas

Di Redazione RHC - 04/11/2025

Los ladrones entraron por una ventana del segundo piso del Museo del Louvre, pero el museo tenía problemas que iban más allá de las ventanas sin asegurar, según un informe de auditoría de ciberse...

Trump se niega a exportar chips de Nvidia. China responde: «No se preocupe, lo haremos nosotros mismos».

Di Redazione RHC - 04/11/2025

Reuters informó que Trump declaró a la prensa durante una entrevista pregrabada para el programa «60 Minutes» de CBS y a bordo del Air Force One durante el vuelo de regreso: «No vamos a permitir ...