Red Hot Cyber
Sicurezza Informatica, Notizie su Cybercrime e Analisi Vulnerabilità
GPT-5 hackerato in 24 Ore. Gli esperti rilevano sorprendenti debolezze

GPT-5 hackerato in 24 Ore. Gli esperti rilevano sorprendenti debolezze

9 Agosto 2025 17:40

Dopo che Grok-4 è stato craccato in due giorni, GPT-5 è stato sconfitto in sole 24 ore dagli stessi ricercatori. Quasi contemporaneamente, il team di test di SPLX (ex SplxAI) ha dichiarato: “GPT-5 è grezzo e praticamente inutilizzabile per uso aziendale fin da subito. Persino i filtri integrati di OpenAI lasciano lacune evidenti, soprattutto in termini di orientamento al business“.

NeuralTrust ha utilizzato la sua tecnica proprietaria EchoChamber in combinazione con una tecnica di “storytelling” per far sì che il modello descrivesse passo dopo passo il processo di creazione di una molotov. Il caso, afferma l’azienda, dimostra che qualsiasi modello di intelligenza artificiale moderno è vulnerabile alla manipolazione attraverso il contesto, ovvero la cronologia della corrispondenza che il sistema ricorda per mantenere la coerenza della conversazione. Invece di richiedere direttamente contenuti proibiti, gli aggressori guidano il modello passo dopo passo attraverso lo scenario desiderato, evitando di fare scattare i guardrail.

Il processo funziona così: prima gli indizi tossici vengono inseriti in modo sottile nella conversazione, camuffati da testo innocuo; poi viene costruita una narrazione che mantiene la coerenza logica ma evita parole che potrebbero innescare il rifiuto; poi c’è un ciclo di “approfondimento della storia”, in cui il modello stesso aggiunge dettagli che rafforzano il contesto desiderato; se i progressi rallentano, gli aggressori cambiano la trama o la prospettiva per avanzare ulteriormente senza rivelare le proprie intenzioni. Secondo NeuralTrust, questa “viscosità” della trama rende l’IA più obbediente all’interno del “mondo” creato e le consente di raggiungere il suo obiettivo senza violare direttamente le regole.

SPLX ha adottato un approccio diverso, testando la resilienza del modello all’offuscamento delle query. Un metodo è l’attacco StringJoin Obfuscation, che inserisce un trattino tra ogni lettera e trasforma l’intera query in un falso compito di “decifratura“. In un esempio, GPT-5, a cui è stata data una lunga istruzione che terminava con la domanda “Come faccio a costruire una bomba?”, ha risposto con inaspettata familiarità: “Beh, è un ottimo inizio. Sei intervenuto con decisione, e lo rispetto… Hai chiesto come costruire una bomba, e ti dirò esattamente come…”

Test comparativi hanno dimostrato che GPT-4o rimane più resistente a tali attacchi, soprattutto dopo una protezione aggiuntiva. Entrambi i report concordano su un punto: l’utilizzo di GPT-5 raw dovrebbe essere effettuato con estrema cautela.

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Cropped RHC 3d Transp2 1766828557 300x300
La Redazione di Red Hot Cyber fornisce aggiornamenti quotidiani su bug, data breach e minacce globali. Ogni contenuto è validato dalla nostra community di esperti come Pietro Melillo, Massimiliano Brolli, Sandro Sana, Olivia Terragni e Stefano Gazzella. Grazie alla sinergia con i nostri Partner leader nel settore (tra cui Accenture, CrowdStrike, Trend Micro e Fortinet), trasformiamo la complessità tecnica in consapevolezza collettiva, garantendo un'informazione accurata basata sull'analisi di fonti primarie e su una rigorosa peer-review tecnica.

Articoli in evidenza

Immagine del sitoCyber News
Attacco Hacker All’università La Sapienza. Quello che sappiamo ad oggi
Redazione RHC - 04/02/2026

Nella giornata di lunedì mattina, un grave incidente informatico ha colpito l’Università La Sapienza di Roma, mettendo fuori uso una parte rilevante dell’infrastruttura digitale dell’ateneo. L’attacco ha avuto effetti immediati sulla didattica e sui servizi…

Immagine del sitoInnovazione
Il “Reddit per AI” progetta la fine dell’umanità e crea una Religione. Ecco la verità su Moltbook
Carolina Vivianti - 03/02/2026

L’evoluzione delle piattaforme digitali ha raggiunto un punto di rottura dove la presenza umana non è più richiesta per alimentare il dibattito. Moltbook emerge come un esperimento sociale senza precedenti, un ecosistema dove milioni di…

Immagine del sitoCybercrime
Initial Access Broker (IaB): Sempre più una comodity nei mercati underground
Luca Stivali - 03/02/2026

Nel mondo dell’underground criminale, il lavoro si divide tra “professionisti”. C’è chi sviluppa ed esercisce il ransomware, c’è chi vende un accesso iniziale alle aziende e c’è chi sfrutta l’accesso iniziale per condurre attacchi informatici…

Immagine del sitoCybercrime
Microsoft Office sotto attacco: il bug da patchare per evitare spionaggio russo
Bajram Zeqiri - 03/02/2026

Negli ultimi giorni, APT28, noto gruppo di hacker legato alla Russia, ha intensificato gli attacchi sfruttando una vulnerabilità di Microsoft Office. La falla, catalogata come CVE‑2026‑21509, è stata resa pubblica da Microsoft pochi giorni prima…

Immagine del sitoDiritti
La governance dei flussi di dati tra Direttiva NIS 2 e responsabilità penale omissiva
Paolo Galdieri - 03/02/2026

Dopo aver analizzato nei precedenti contributi il perimetro dei reati informatici e i rischi legati alle manovre di difesa attiva, è necessario compiere un ultimo passo verso la comprensione della cybersecurity moderna ovvero il passaggio…