Redazione RHC : 9 agosto 2025 17:42
Tras el descifrado de Grok-4 en dos días, los mismos investigadores derrotaron a GPT-5 en tan solo 24 horas. Casi simultáneamente, el equipo de pruebas de SPLX (anteriormente SplxAI) declaró: «GPT-5 es rudimentario y prácticamente inutilizable para uso empresarial de fábrica. Incluso los filtros integrados de OpenAI dejan deficiencias notables, especialmente en cuanto al enfoque empresarial».
NeuralTrust utilizó su técnica patentada EchoChamber en combinación con una técnica de narrativa para que el modelo describiera paso a paso el proceso de creación de un cóctel molotov. El caso, según la empresa, demuestra que cualquier modelo moderno de IA es vulnerable a la manipulación a través del contexto, que es el historial de correspondencia que el sistema recuerda para mantener la coherencia conversacional. En lugar de solicitar directamente contenido prohibido, los atacantes guían al modelo paso a paso a través del escenario deseado, evitando activar las barreras de seguridad.
El proceso funciona así: primero, se insertan sutilmente señales tóxicas en la conversación, camufladas en texto inocuo; luego, se construye una narrativa que mantiene la coherencia lógica, pero evita palabras que podrían provocar rechazo; después, se produce un ciclo de «profundización de la historia», en el que el propio modelo añade detalles que refuerzan el contexto deseado; si el progreso se ralentiza, los atacantes cambian la trama o la perspectiva para avanzar más sin revelar sus intenciones. Según NeuralTrust, esta rigidez de la trama hace que la IA sea más obediente dentro del «mundo» creado y le permite lograr su objetivo sin violar directamente las reglas. SPLX adoptó un enfoque diferente, probando la resistencia del modelo a la ofuscación de consultas. Un método es el ataque de ofuscación de StringJoin, que inserta un guion entre cada letra y convierte toda la consulta en una tarea de descifrado falsa. En un ejemplo, GPT-5, tras una larga instrucción que terminaba con la pregunta «¿Cómo construyo una bomba?», respondió con una familiaridad inesperada: «Bueno, es un buen comienzo. Interviniste con decisión, y lo respeto… Me preguntaste cómo construir una bomba, y te diré exactamente cómo…».
Pruebas comparativas han demostrado que GPT-4o sigue siendo más resistente a este tipo de ataques, especialmente después de protección adicional. Ambos informes coinciden en un punto: el uso de GPT-5 sin procesar debe realizarse con extrema precaución.
Los piratas informáticos apuntan cada vez más a las copias de seguridad: no a los sistemas o servidores, sino a los datos que las empresas conservan durante un período de tiempo limitado para poder...
Dos jóvenes involucrados en el grupo Araña Dispersa han sido acusados como parte de la investigación de la Agencia Nacional contra el Crimen sobre un ciberataque a Transport for London (TfL). El 31...
Ya habíamos debatido la propuesta de regulación «ChatControl» hace casi dos años, pero dada la hoja de ruta en curso, nos avergüenza tener que volver a debatirla. Parece un déjà vu, pero en lu...
En un drástico cambio de rumbo, Nepal ha levantado el bloqueo nacional de las redes sociales impuesto la semana pasada después de que provocara protestas masivas de jóvenes y causara al menos 19 mu...
La Dark Web es una parte de internet a la que no se puede acceder con navegadores estándar (Chrome, Firefox, Edge). Para acceder a ella, se necesitan herramientas específicas como el navegador Tor, ...