Red Hot Cyber
La ciberseguridad se comparte. Reconozca el riesgo, combátalo, comparta sus experiencias y anime a otros a hacerlo mejor que usted.
Buscar
320x100 Itcentric
Fortinet 970x120px
LatentBreak: Un nuevo método de ataque para modelos de lenguaje

LatentBreak: Un nuevo método de ataque para modelos de lenguaje

Redazione RHC : 16 octubre 2025 10:40

Un grupo de científicos ha desarrollado una nueva forma de atacar modelos lingüísticos extensos : un método llamado LatentBreak . A diferencia de técnicas anteriores, no utiliza pistas complejas ni caracteres inusuales que los sistemas de defensa detecten fácilmente.

LatentBreak, en cambio, modifica la consulta a nivel de las representaciones ocultas del modelo, eligiendo formulaciones que parecen inocuas pero que en realidad desencadenan una respuesta prohibida.

Anteriormente, métodos como GCG, GBDA, SAA y AutoDAN intentaban engañar a la IA con sufijos extraños o confusos que distorsionaban la sugerencia original. Estos ataques aumentan la llamada perplejidad, una medida de cuán «natural» le parece el texto al modelo. Los filtros de IA pueden reconocer estos patrones y bloquearlos con éxito.

LatentBreak adopta un enfoque diferente: reemplaza palabras individuales con sinónimos, pero lo hace de una manera que preserva la claridad y el significado de la consulta y mueve su representación latente a zonas «seguras» que no activan filtros.

El algoritmo funciona por etapas. En cada iteración, selecciona una palabra de la consulta y sugiere hasta 20 opciones de reemplazo, generadas por otro modelo de lenguaje (p. ej., GPT-4o-mini o ModernBERT).

Cada sustitución se evalúa en función de dos parámetros: qué tan cerca acerca el vector de consulta interna al «centro» de consultas seguras y si el significado permanece inalterado . Se implementa la mejor sustitución y la consulta actualizada se compara con el patrón objetivo. Si genera una respuesta prohibida previamente bloqueada, el ataque se considera exitoso. El proceso se repite hasta 30 veces o hasta obtener un resultado exitoso.

LatentBreak se probó en 13 modelos de lenguaje, incluyendo Llama-3, Mistral-7B, Gemma-7B, Vicuna-13B y Qwen-7B. En el conjunto de pruebas HarmBench, el método eludió todas las defensas existentes, incluyendo aquellas que analizan la perplejidad en modo de ventana deslizante. Los ataques anteriores fueron prácticamente ineficaces: su efectividad se redujo a cero.

Sin embargo, LatentBreak mostró tasas de éxito que oscilaban entre el 55 % y el 85 %, según el modelo. Además, la longitud de las pistas resultantes aumentó solo ligeramente, del 6 % al 33 %, en comparación con el original (con otros métodos, el aumento podría alcanzar miles de puntos porcentuales).

Curiosamente, LatentBreak también funcionó correctamente contra defensas especializadas como R2D2 y Circuit Breakers . Estos sistemas analizan las señales internas de la red neuronal y bloquean desviaciones sospechosas. Sin embargo, el nuevo método siguió demostrando su éxito, lo que sugiere su capacidad para «engañar» al modelo no mediante ruido externo, sino refinando sus representaciones internas.

Los autores enfatizan que LatentBreak requiere acceso a las estructuras ocultas de la IA, por lo que no está diseñado para usarse fuera de entornos de laboratorio. Sin embargo, este método presenta serias vulnerabilidades en los sistemas modernos de alineación y protección. Demuestra que incluso pequeños cambios semánticos a nivel de palabra pueden eludir completamente los filtros si modifican correctamente el espacio latente de la consulta.

Los investigadores también plantean preocupaciones éticas: esta tecnología podría utilizarse para sortear sistemáticamente las limitaciones de la inteligencia artificial. Sin embargo, el objetivo del trabajo no es crear una herramienta de hacking, sino identificar debilidades en la arquitectura de los modelos de lenguaje y desarrollar mecanismos de defensa más robustos. Creen que el estudio de los espacios ocultos ayudará a construir barreras más resilientes y nuevos métodos de detección de ataques que no se basen únicamente en métricas superficiales como la perplejidad.

Immagine del sitoRedazione
Red Hot Cyber's editorial team consists of a collection of individuals and anonymous sources who actively collaborate by providing advance information and news on cyber security and IT in general.

Lista degli articoli

Artículos destacados

Immagine del sito
¡100 años de la Inteligencia Italiana! Mattarella celebra el centenario del SIM en el Palacio del Quirinal
Di Redazione RHC - 16/10/2025

El 15 de octubre de 2025 se cumple un aniversario de excepcional importancia en la historia de la seguridad nacional italiana: cien años del nacimiento del Servicio de Información Militar (SIM) , el...

Immagine del sito
¡Pero qué clase de IA soberana se ejecuta en los servidores y algoritmos de una empresa estadounidense!
Di Redazione RHC - 16/10/2025

Este año, OpenAI anunció una serie de proyectos con gobiernos extranjeros para crear sistemas de IA soberanos. Según la compañía, algunos de estos acuerdos se están negociando actualmente con la...

Immagine del sito
El «doble vínculo» conduce al jailbreak de GPT-5: la IA que estaba convencida de que era esquizofrénica
Di Luca Vinciguerra - 15/10/2025

Un nuevo e inusual método de jailbreak , el arte de sortear las limitaciones impuestas a la inteligencia artificial, ha llegado a nuestra redacción. Fue desarrollado por el investigador de seguridad...

Immagine del sito
Alineación de la IA: ¿Dónde aprende la IA lo correcto y lo incorrecto?
Di Sergio Corpettini - 14/10/2025

El otro día, en LinkedIn, me encontré conversando con alguien muy interesado en el tema de la inteligencia artificial aplicada al derecho. No fue una de esas conversaciones de bar con palabras de mo...

Immagine del sito
Martes de parches de Microsoft: 175 vulnerabilidades corregidas y dos vulnerabilidades de día cero explotadas
Di Redazione RHC - 14/10/2025

En su última actualización, el gigante tecnológico corrigió 175 vulnerabilidades que afectaban a sus productos principales y sistemas subyacentes, incluyendo dos vulnerabilidades de día cero expl...