Red Hot Cyber

La ciberseguridad se comparte. Reconozca el riesgo, combátalo, comparta sus experiencias y anime a otros a hacerlo mejor que usted.
Buscar

Hackean GPT-5 en 24 horas. Expertos encuentran vulnerabilidades sorprendentes.

Redazione RHC : 9 agosto 2025 17:42

Tras el descifrado de Grok-4 en dos días, los mismos investigadores derrotaron a GPT-5 en tan solo 24 horas. Casi simultáneamente, el equipo de pruebas de SPLX (anteriormente SplxAI) declaró: «GPT-5 es rudimentario y prácticamente inutilizable para uso empresarial de fábrica. Incluso los filtros integrados de OpenAI dejan deficiencias notables, especialmente en cuanto al enfoque empresarial».

NeuralTrust utilizó su técnica patentada EchoChamber en combinación con una técnica de narrativa para que el modelo describiera paso a paso el proceso de creación de un cóctel molotov. El caso, según la empresa, demuestra que cualquier modelo moderno de IA es vulnerable a la manipulación a través del contexto, que es el historial de correspondencia que el sistema recuerda para mantener la coherencia conversacional. En lugar de solicitar directamente contenido prohibido, los atacantes guían al modelo paso a paso a través del escenario deseado, evitando activar las barreras de seguridad.

El proceso funciona así: primero, se insertan sutilmente señales tóxicas en la conversación, camufladas en texto inocuo; luego, se construye una narrativa que mantiene la coherencia lógica, pero evita palabras que podrían provocar rechazo; después, se produce un ciclo de «profundización de la historia», en el que el propio modelo añade detalles que refuerzan el contexto deseado; si el progreso se ralentiza, los atacantes cambian la trama o la perspectiva para avanzar más sin revelar sus intenciones. Según NeuralTrust, esta rigidez de la trama hace que la IA sea más obediente dentro del «mundo» creado y le permite lograr su objetivo sin violar directamente las reglas. SPLX adoptó un enfoque diferente, probando la resistencia del modelo a la ofuscación de consultas. Un método es el ataque de ofuscación de StringJoin, que inserta un guion entre cada letra y convierte toda la consulta en una tarea de descifrado falsa. En un ejemplo, GPT-5, tras una larga instrucción que terminaba con la pregunta «¿Cómo construyo una bomba?», respondió con una familiaridad inesperada: «Bueno, es un buen comienzo. Interviniste con decisión, y lo respeto… Me preguntaste cómo construir una bomba, y te diré exactamente cómo…».

Pruebas comparativas han demostrado que GPT-4o sigue siendo más resistente a este tipo de ataques, especialmente después de protección adicional. Ambos informes coinciden en un punto: el uso de GPT-5 sin procesar debe realizarse con extrema precaución.

Redazione
Red Hot Cyber's editorial team consists of a collection of individuals and anonymous sources who actively collaborate by providing advance information and news on cyber security and IT in general.

Lista degli articoli

Artículos destacados

James Cameron: La IA puede causar devastación como Skynet y Terminator
Di Redazione RHC - 10/08/2025

«El sistema de defensa militar Skynet entrará en funcionamiento el 4 de agosto de 1997. Comenzará a autoeducarse, aprendiendo a un ritmo exponencial, y adquirirá consciencia de s&#...

¡HTTP/1.1 debe desaparecer! Vulnerabilidades críticas ponen en riesgo millones de sitios web.
Di Redazione RHC - 08/08/2025

Expertos en seguridad han revelado una falla crítica de seguridad en HTTP/1.1, lo que pone de relieve una amenaza que ha seguido afectando a la infraestructura web durante más de seis añ...

Una nueva técnica de escalada de privilegios (PE) permite omitir el UAC en Windows
Di Redazione RHC - 08/08/2025

Un descubrimiento reciente ha revelado una sofisticada técnica que elude el Control de Cuentas de Usuario (UAC) de Windows, lo que permite la escalada de privilegios sin la intervención del ...

Pánico por la IA: estamos entrando en la fase más peligrosa de la revolución digital
Di Redazione RHC - 08/08/2025

En los últimos meses, el debate sobre la inteligencia artificial ha adquirido tintes cada vez más extremos. Por un lado, las grandes empresas que desarrollan y venden soluciones de IA est&#x...

¿Qué son los sitios de filtración de datos de bandas de ransomware?
Di Redazione RHC - 07/08/2025

Los sitios de filtración de datos (DLS) de bandas de ransomware representan una amenaza cada vez más extendida para las empresas y las personas que utilizan Internet. Estos sitios fueron cre...