Redazione RHC : 9 agosto 2025 17:42
Tras el descifrado de Grok-4 en dos días, los mismos investigadores derrotaron a GPT-5 en tan solo 24 horas. Casi simultáneamente, el equipo de pruebas de SPLX (anteriormente SplxAI) declaró: «GPT-5 es rudimentario y prácticamente inutilizable para uso empresarial de fábrica. Incluso los filtros integrados de OpenAI dejan deficiencias notables, especialmente en cuanto al enfoque empresarial».
NeuralTrust utilizó su técnica patentada EchoChamber en combinación con una técnica de narrativa para que el modelo describiera paso a paso el proceso de creación de un cóctel molotov. El caso, según la empresa, demuestra que cualquier modelo moderno de IA es vulnerable a la manipulación a través del contexto, que es el historial de correspondencia que el sistema recuerda para mantener la coherencia conversacional. En lugar de solicitar directamente contenido prohibido, los atacantes guían al modelo paso a paso a través del escenario deseado, evitando activar las barreras de seguridad.
El proceso funciona así: primero, se insertan sutilmente señales tóxicas en la conversación, camufladas en texto inocuo; luego, se construye una narrativa que mantiene la coherencia lógica, pero evita palabras que podrían provocar rechazo; después, se produce un ciclo de «profundización de la historia», en el que el propio modelo añade detalles que refuerzan el contexto deseado; si el progreso se ralentiza, los atacantes cambian la trama o la perspectiva para avanzar más sin revelar sus intenciones. Según NeuralTrust, esta rigidez de la trama hace que la IA sea más obediente dentro del «mundo» creado y le permite lograr su objetivo sin violar directamente las reglas. SPLX adoptó un enfoque diferente, probando la resistencia del modelo a la ofuscación de consultas. Un método es el ataque de ofuscación de StringJoin, que inserta un guion entre cada letra y convierte toda la consulta en una tarea de descifrado falsa. En un ejemplo, GPT-5, tras una larga instrucción que terminaba con la pregunta «¿Cómo construyo una bomba?», respondió con una familiaridad inesperada: «Bueno, es un buen comienzo. Interviniste con decisión, y lo respeto… Me preguntaste cómo construir una bomba, y te diré exactamente cómo…».
Pruebas comparativas han demostrado que GPT-4o sigue siendo más resistente a este tipo de ataques, especialmente después de protección adicional. Ambos informes coinciden en un punto: el uso de GPT-5 sin procesar debe realizarse con extrema precaución.
La semana pasada, Oracle advirtió a sus clientes sobre una vulnerabilidad crítica de día cero en su E-Business Suite (CVE-2025-61882), que permite la ejecución remota de código arbitrario sin aut...
Cuando Nick Turley se unió a OpenAI en 2022 para liderar el equipo de ChatGPT, se le encomendó la tarea de transformar la investigación empresarial en un producto comercial. Ha cumplido esta misió...
Del 6 al 9 de octubre de 2025, Varsovia albergó la 11.ª edición del Desafío Europeo de Ciberseguridad (CECA) . En una reñida competición entre 39 equipos de Estados miembros de la UE, países de...
Un nuevo anuncio publicado en un foro clandestino fue descubierto recientemente por investigadores del laboratorio de inteligencia de amenazas Dark Lab , demostrando claramente cuán activo y peligros...
Tres importantes grupos de ransomware —DragonForce, Qilin y LockBit— han anunciado una alianza. Se trata, en esencia, de un intento de coordinar las actividades de varios operadores importantes de...