Redazione RHC : 9 agosto 2025 17:42
Tras el descifrado de Grok-4 en dos días, los mismos investigadores derrotaron a GPT-5 en tan solo 24 horas. Casi simultáneamente, el equipo de pruebas de SPLX (anteriormente SplxAI) declaró: «GPT-5 es rudimentario y prácticamente inutilizable para uso empresarial de fábrica. Incluso los filtros integrados de OpenAI dejan deficiencias notables, especialmente en cuanto al enfoque empresarial».
NeuralTrust utilizó su técnica patentada EchoChamber en combinación con una técnica de narrativa para que el modelo describiera paso a paso el proceso de creación de un cóctel molotov. El caso, según la empresa, demuestra que cualquier modelo moderno de IA es vulnerable a la manipulación a través del contexto, que es el historial de correspondencia que el sistema recuerda para mantener la coherencia conversacional. En lugar de solicitar directamente contenido prohibido, los atacantes guían al modelo paso a paso a través del escenario deseado, evitando activar las barreras de seguridad.
El proceso funciona así: primero, se insertan sutilmente señales tóxicas en la conversación, camufladas en texto inocuo; luego, se construye una narrativa que mantiene la coherencia lógica, pero evita palabras que podrían provocar rechazo; después, se produce un ciclo de «profundización de la historia», en el que el propio modelo añade detalles que refuerzan el contexto deseado; si el progreso se ralentiza, los atacantes cambian la trama o la perspectiva para avanzar más sin revelar sus intenciones. Según NeuralTrust, esta rigidez de la trama hace que la IA sea más obediente dentro del «mundo» creado y le permite lograr su objetivo sin violar directamente las reglas. SPLX adoptó un enfoque diferente, probando la resistencia del modelo a la ofuscación de consultas. Un método es el ataque de ofuscación de StringJoin, que inserta un guion entre cada letra y convierte toda la consulta en una tarea de descifrado falsa. En un ejemplo, GPT-5, tras una larga instrucción que terminaba con la pregunta «¿Cómo construyo una bomba?», respondió con una familiaridad inesperada: «Bueno, es un buen comienzo. Interviniste con decisión, y lo respeto… Me preguntaste cómo construir una bomba, y te diré exactamente cómo…».
Pruebas comparativas han demostrado que GPT-4o sigue siendo más resistente a este tipo de ataques, especialmente después de protección adicional. Ambos informes coinciden en un punto: el uso de GPT-5 sin procesar debe realizarse con extrema precaución.
«El sistema de defensa militar Skynet entrará en funcionamiento el 4 de agosto de 1997. Comenzará a autoeducarse, aprendiendo a un ritmo exponencial, y adquirirá consciencia de s&#...
Expertos en seguridad han revelado una falla crítica de seguridad en HTTP/1.1, lo que pone de relieve una amenaza que ha seguido afectando a la infraestructura web durante más de seis añ...
Un descubrimiento reciente ha revelado una sofisticada técnica que elude el Control de Cuentas de Usuario (UAC) de Windows, lo que permite la escalada de privilegios sin la intervención del ...
En los últimos meses, el debate sobre la inteligencia artificial ha adquirido tintes cada vez más extremos. Por un lado, las grandes empresas que desarrollan y venden soluciones de IA est&#x...
Los sitios de filtración de datos (DLS) de bandas de ransomware representan una amenaza cada vez más extendida para las empresas y las personas que utilizan Internet. Estos sitios fueron cre...