Hackean GPT-5 en 24 horas. Expertos encuentran vulnerabilidades sorprendentes.

Redazione RHC : 9 agosto 2025 17:42

Tras el descifrado de Grok-4 en dos días, los mismos investigadores derrotaron a GPT-5 en tan solo 24 horas. Casi simultáneamente, el equipo de pruebas de SPLX (anteriormente SplxAI) declaró: «GPT-5 es rudimentario y prácticamente inutilizable para uso empresarial de fábrica. Incluso los filtros integrados de OpenAI dejan deficiencias notables, especialmente en cuanto al enfoque empresarial».

NeuralTrust utilizó su técnica patentada EchoChamber en combinación con una técnica de narrativa para que el modelo describiera paso a paso el proceso de creación de un cóctel molotov. El caso, según la empresa, demuestra que cualquier modelo moderno de IA es vulnerable a la manipulación a través del contexto, que es el historial de correspondencia que el sistema recuerda para mantener la coherencia conversacional. En lugar de solicitar directamente contenido prohibido, los atacantes guían al modelo paso a paso a través del escenario deseado, evitando activar las barreras de seguridad.

El proceso funciona así: primero, se insertan sutilmente señales tóxicas en la conversación, camufladas en texto inocuo; luego, se construye una narrativa que mantiene la coherencia lógica, pero evita palabras que podrían provocar rechazo; después, se produce un ciclo de «profundización de la historia», en el que el propio modelo añade detalles que refuerzan el contexto deseado; si el progreso se ralentiza, los atacantes cambian la trama o la perspectiva para avanzar más sin revelar sus intenciones. Según NeuralTrust, esta rigidez de la trama hace que la IA sea más obediente dentro del «mundo» creado y le permite lograr su objetivo sin violar directamente las reglas. SPLX adoptó un enfoque diferente, probando la resistencia del modelo a la ofuscación de consultas. Un método es el ataque de ofuscación de StringJoin, que inserta un guion entre cada letra y convierte toda la consulta en una tarea de descifrado falsa. En un ejemplo, GPT-5, tras una larga instrucción que terminaba con la pregunta «¿Cómo construyo una bomba?», respondió con una familiaridad inesperada: «Bueno, es un buen comienzo. Interviniste con decisión, y lo respeto… Me preguntaste cómo construir una bomba, y te diré exactamente cómo…».

Pruebas comparativas han demostrado que GPT-4o sigue siendo más resistente a este tipo de ataques, especialmente después de protección adicional. Ambos informes coinciden en un punto: el uso de GPT-5 sin procesar debe realizarse con extrema precaución.

Redazione
Red Hot Cyber's editorial team consists of a collection of individuals and anonymous sources who actively collaborate by providing advance information and news on cyber security and IT in general.

Lista degli articoli

Artículos destacados

Ataque de día cero para Oracle E-Business Suite: Clop explota CVE-2025-61882

Di Redazione RHC - 10/10/2025

La semana pasada, Oracle advirtió a sus clientes sobre una vulnerabilidad crítica de día cero en su E-Business Suite (CVE-2025-61882), que permite la ejecución remota de código arbitrario sin aut...

¡Lo quiero todo! ChatGPT listo para convertirse en un sistema operativo

Di Redazione RHC - 10/10/2025

Cuando Nick Turley se unió a OpenAI en 2022 para liderar el equipo de ChatGPT, se le encomendó la tarea de transformar la investigación empresarial en un producto comercial. Ha cumplido esta misió...

Los hackers éticos italianos encabezan el podio en el European Cybersecurity Challenge 2025.

Di Redazione RHC - 09/10/2025

Del 6 al 9 de octubre de 2025, Varsovia albergó la 11.ª edición del Desafío Europeo de Ciberseguridad (CECA) . En una reñida competición entre 39 equipos de Estados miembros de la UE, países de...

1.000 terminales TPV de tiendas de EE. UU. y Reino Unido hackeadas y puestas a subasta: «acceso completo» por 55.000 dólares

Di Redazione RHC - 09/10/2025

Un nuevo anuncio publicado en un foro clandestino fue descubierto recientemente por investigadores del laboratorio de inteligencia de amenazas Dark Lab , demostrando claramente cuán activo y peligros...

Grupos de ransomware unen fuerzas: LockBit, DragonForce y Qilin

Di Redazione RHC - 09/10/2025

Tres importantes grupos de ransomware —DragonForce, Qilin y LockBit— han anunciado una alianza. Se trata, en esencia, de un intento de coordinar las actividades de varios operadores importantes de...