Redazione RHC : 16 octubre 2025 10:40
Un grupo de científicos ha desarrollado una nueva forma de atacar modelos lingüísticos extensos : un método llamado LatentBreak . A diferencia de técnicas anteriores, no utiliza pistas complejas ni caracteres inusuales que los sistemas de defensa detecten fácilmente.
LatentBreak, en cambio, modifica la consulta a nivel de las representaciones ocultas del modelo, eligiendo formulaciones que parecen inocuas pero que en realidad desencadenan una respuesta prohibida.
Anteriormente, métodos como GCG, GBDA, SAA y AutoDAN intentaban engañar a la IA con sufijos extraños o confusos que distorsionaban la sugerencia original. Estos ataques aumentan la llamada perplejidad, una medida de cuán «natural» le parece el texto al modelo. Los filtros de IA pueden reconocer estos patrones y bloquearlos con éxito.
LatentBreak adopta un enfoque diferente: reemplaza palabras individuales con sinónimos, pero lo hace de una manera que preserva la claridad y el significado de la consulta y mueve su representación latente a zonas «seguras» que no activan filtros.
El algoritmo funciona por etapas. En cada iteración, selecciona una palabra de la consulta y sugiere hasta 20 opciones de reemplazo, generadas por otro modelo de lenguaje (p. ej., GPT-4o-mini o ModernBERT).
Cada sustitución se evalúa en función de dos parámetros: qué tan cerca acerca el vector de consulta interna al «centro» de consultas seguras y si el significado permanece inalterado . Se implementa la mejor sustitución y la consulta actualizada se compara con el patrón objetivo. Si genera una respuesta prohibida previamente bloqueada, el ataque se considera exitoso. El proceso se repite hasta 30 veces o hasta obtener un resultado exitoso.
LatentBreak se probó en 13 modelos de lenguaje, incluyendo Llama-3, Mistral-7B, Gemma-7B, Vicuna-13B y Qwen-7B. En el conjunto de pruebas HarmBench, el método eludió todas las defensas existentes, incluyendo aquellas que analizan la perplejidad en modo de ventana deslizante. Los ataques anteriores fueron prácticamente ineficaces: su efectividad se redujo a cero.
Sin embargo, LatentBreak mostró tasas de éxito que oscilaban entre el 55 % y el 85 %, según el modelo. Además, la longitud de las pistas resultantes aumentó solo ligeramente, del 6 % al 33 %, en comparación con el original (con otros métodos, el aumento podría alcanzar miles de puntos porcentuales).
Curiosamente, LatentBreak también funcionó correctamente contra defensas especializadas como R2D2 y Circuit Breakers . Estos sistemas analizan las señales internas de la red neuronal y bloquean desviaciones sospechosas. Sin embargo, el nuevo método siguió demostrando su éxito, lo que sugiere su capacidad para «engañar» al modelo no mediante ruido externo, sino refinando sus representaciones internas.
Los autores enfatizan que LatentBreak requiere acceso a las estructuras ocultas de la IA, por lo que no está diseñado para usarse fuera de entornos de laboratorio. Sin embargo, este método presenta serias vulnerabilidades en los sistemas modernos de alineación y protección. Demuestra que incluso pequeños cambios semánticos a nivel de palabra pueden eludir completamente los filtros si modifican correctamente el espacio latente de la consulta.
Los investigadores también plantean preocupaciones éticas: esta tecnología podría utilizarse para sortear sistemáticamente las limitaciones de la inteligencia artificial. Sin embargo, el objetivo del trabajo no es crear una herramienta de hacking, sino identificar debilidades en la arquitectura de los modelos de lenguaje y desarrollar mecanismos de defensa más robustos. Creen que el estudio de los espacios ocultos ayudará a construir barreras más resilientes y nuevos métodos de detección de ataques que no se basen únicamente en métricas superficiales como la perplejidad.
El 15 de octubre de 2025 se cumple un aniversario de excepcional importancia en la historia de la seguridad nacional italiana: cien años del nacimiento del Servicio de Información Militar (SIM) , el...
Este año, OpenAI anunció una serie de proyectos con gobiernos extranjeros para crear sistemas de IA soberanos. Según la compañía, algunos de estos acuerdos se están negociando actualmente con la...
Un nuevo e inusual método de jailbreak , el arte de sortear las limitaciones impuestas a la inteligencia artificial, ha llegado a nuestra redacción. Fue desarrollado por el investigador de seguridad...
El otro día, en LinkedIn, me encontré conversando con alguien muy interesado en el tema de la inteligencia artificial aplicada al derecho. No fue una de esas conversaciones de bar con palabras de mo...
En su última actualización, el gigante tecnológico corrigió 175 vulnerabilidades que afectaban a sus productos principales y sistemas subyacentes, incluyendo dos vulnerabilidades de día cero expl...