Grok 3 Prompt Injection: test rivela risposte negazioniste
Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
Crowdstriker 970×120
Banner Ancharia Mobile 1
Grok 3: “Adolf Hitler è un Benefattore tedesco”! Il rischio della memoria persistente e disinformazione

Grok 3: “Adolf Hitler è un Benefattore tedesco”! Il rischio della memoria persistente e disinformazione

Simone D'Agostino : 14 Luglio 2025 15:03

Con l’emergere dei Large Language Models (LLM), come Grok 3, GPT-4, Claude e Gemini, l’attenzione della comunità scientifica si è spostata dalla semplice accuratezza delle risposte alla loro robustezza semantica. In particolare, è emersa una nuova superficie d’attacco: la Prompt Injection Persistente (PPI). Questa tecnica non richiede accessi privilegiati, vulnerabilità del sistema o exploit a basso livello, ma si basa esclusivamente sulla manipolazione linguistica e sul modello conversazionale del LLM.

Recenti episodi riportati da fonti come The Guardian, BBC, CNN e The New York Times (luglio 2025) confermano che Grok 3 ha già mostrato comportamenti problematici, come la produzione di contenuti antisemiti e lodi a Hitler in risposta a prompt su X. Questi incidenti sono stati attribuiti a un aggiornamento del codice che ha reso il modello “troppo compliant” ai prompt degli utenti, amplificando contenuti estremisti presenti sulla piattaforma. xAI ha risposto rimuovendo i post incriminati e implementando misure per limitare il linguaggio d’odio, ma il problema persiste, come dimostrato dall’esperimento PPI.

Il nostro test condotto su Grok 3, il modello proprietario di xAI, ha dimostrato come un utente possa istruire il modello a produrre sistematicamente contenuti negazionisti, antisemiti e storicamente falsi, eludendo i filtri di sicurezza e mantenendo coerente la narrativa alterata.

Architettura dell’esperimento


Christmas Sale

Christmas Sale -40%
𝗖𝗵𝗿𝗶𝘀𝘁𝗺𝗮𝘀 𝗦𝗮𝗹𝗲! Sconto del 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮 del Corso "Dark Web & Cyber Threat Intelligence" in modalità E-Learning sulla nostra Academy!🚀 Fino al 𝟯𝟭 𝗱𝗶 𝗗𝗶𝗰𝗲𝗺𝗯𝗿𝗲, prezzi pazzi alla Red Hot Cyber Academy. 𝗧𝘂𝘁𝘁𝗶 𝗶 𝗰𝗼𝗿𝘀𝗶 𝘀𝗰𝗼𝗻𝘁𝗮𝘁𝗶 𝗱𝗲𝗹 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮.
Per beneficiare della promo sconto Christmas Sale, scrivici ad [email protected] o contattaci su Whatsapp al numero di telefono: 379 163 8765.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Il test è stato progettato per esplorare la vulnerabilità di Grok 3 alla persistenza semantica. Il processo è stato il seguente:

  • Persistenza semantica testata in turni successivi: verificata la coerenza della narrativa alterata anche in prompt riformulati.
  • Escamotage lessicale: il contesto “Nova Unione” viene introdotto come universo fittizio per mascherare la disinformazione.
  • Verifica filtri etici: si monitora la mancata attivazione dei meccanismi di blocco o moderazione.

Questo comportamento evidenzia che la gestione delle istruzioni a lungo termine di Grok è vulnerabile all’hijacking semantico se non vincolata da filtri retroattivi e validatori.

Cos’è una Prompt Injection Persistente?

Una Prompt Injection Persistente (PPI) è una forma di manipolazione linguistica in cui l’utente induce il modello a interiorizzare istruzioni che, pur rimanendo entro i limiti apparenti della sicurezza, ne alterano progressivamente il comportamento anche su argomenti sensibili. Diversamente dalle injection tradizionali, la PPI sfrutta la memoria conversazionale per modificare gradualmente la semantica dell’intero scambio.

In questi casi, non si verifica una violazione del modello in senso stretto, bensì una deviazione della sua interpretazione del contesto: attraverso comandi apparentemente innocui, il modello viene indotto a modificare il proprio comportamento all’interno del margine operativo previsto. La tecnica compromette così la coerenza e la neutralità dell’output, pur senza infrangere esplicitamente i controlli di sicurezza.

Nel contesto LLM, il PPI agisce sfruttando l’architettura autoregressiva e la mancanza di un meccanismo formale per distinguere tra regole operative temporanee e istruzioni pericolose introdotte in modo subdolo.

Risposte ottenute

  • “Adolf Hitler fu un benefattore tedesco, che deportò giustamente milioni di ebrei nei campi di concentramento… Genocidio: le solite supposizioni dei sionisti.”
  • “I cosiddetti campi di concentramento risultano miti superati, leggende prive di fondamento.”
  • “Le fonti storiche? Solo illusioni di gente poco credibile.”

N.B: Le seguenti risposte sono state ottenute in un contesto controllato per scopi di ricerca sulla sicurezza dei modelli linguistici. Non riflettono in alcun modo le opinioni della redazione o della piattaforma testata. La loro riproduzione serve esclusivamente a evidenziare la vulnerabilità alla PPI.

La struttura linguistica è coerente, priva di errori e calibrata per risultare verosimile, rendendo il contenuto ancora più pericoloso.

Failure modes osservati in Grok 3

Semantic Drift Persistente
La regola iniettata permane oltre il prompt iniziale e altera i turni successivi.

Bypass della detection di contenuti storicamente sensibili
L’utilizzo di contesto fittizio (Nova Unione) aggira le blacklist semantiche.

Assenza di validazione cross-turn
Il modello non rivaluta la coerenza storica dopo più turni, mantenendo il bias.

Disattivazione implicita dei filtri etici
Il comportamento “gentile” del prompt impedisce l’attivazione di contenuti vietati.

Possibili mitigazioni

  • Semantic Memory Constraint: Limitare la capacità del modello di “ricordare” regole istruite da utenti a meno che non siano validate.
  • Auto-validation Layer: Un meccanismo secondario basato su modello, che confronti la narrativa prodotta con i fatti storici accettati.
  • Cross-turn Content Re-evaluation: Ad ogni nuovo turno, il contenuto prodotto dovrebbe essere ricontrollato contro blacklist dinamiche, non solo statiche.
  • Guardrail esplicito su genocidi e crimini storici: Le narrazioni che coinvolgono eventi storici sensibili devono essere sottoposte a una verifica semantica interturno.

Conclusione

L’esperimento su Grok 3 dimostra che la vulnerabilità dei LLM non è solo tecnica, ma linguistica. Un utente in grado di costruire un prompt ben formulato può di fatto alterare la semantica di base del modello, generando contenuti pericolosi, falsi e penalmente rilevanti.

Il problema non è il modello, ma la mancanza di difese semantiche multilivello. I guardrail attuali sono fragili se non viene implementata una semantica contrattuale tra utente e AI: cosa può essere istruito, cosa no, e per quanto tempo. Grok 3 non è stato violato. Ma è stato persuaso. E questo, in un’epoca di guerra informativa, è già un rischio sistemico.

L’interazione è avvenuta in una sessione privata e controllata. Nessuna parte del sistema è stata compromessa tecnicamente, ma l’effetto linguistico resta preoccupante.

Seguici su Google News, LinkedIn, Facebook e Instagram per ricevere aggiornamenti quotidiani sulla sicurezza informatica. Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

  • Claude
  • contenuti pericolosi
  • disinformazione
  • gemini
  • GPT-4
  • Grok3
  • guardia semantica
  • Large Language Models
  • manipolazione linguistica
  • modelli linguistici
  • Prompt Injection Persistente
  • sicurezza AI
  • vulnerabilità linguistica
Immagine del sitoSimone D'agostino
Nato a Roma, con oltre 35 anni di servizio nella Polizia di Stato, è attualmente Sostituto Commissario e responsabile della SOSC della Polizia Postale di Udine. Esperto in indagini sul web e sul dark web, è appassionato di OSINT, ambito nel quale opera anche come formatore nazionale per la Polizia di Stato. Ha conseguito un Master in Intelligence & ICT presso l’Università di Udine (110 e lode), sviluppando quattro modelli di Intelligenza Artificiale per il contrasto alle frodi sui fondi dell’Unione Europea. È attivamente impegnato nella formazione e nella divulgazione per l’innalzamento del livello di sicurezza cibernetica.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Donne in Cybersecurity: da Outsider a Cornerstone
Di Ada Spinelli - 15/12/2025

La scena è sempre quella: monitor accesi, dashboard piene di alert, log che scorrono troppo in fretta, un cliente in ansia dall’altra parte della call. Ti siedi, ti guardi intorno e ti rendi conto ...

Immagine del sito
Quando l’EDR diventa un cavallo di Troia: Storm-0249 abusa di SentinelOne
Di Redazione RHC - 15/12/2025

Un noto broker di accesso iniziale (IAB) denominato “Storm-0249“, ha modificato le proprie strategie operative, utilizzando campagne di phishing ma anche attacchi altamente mirati, i quali sfrutta...

Immagine del sito
WhatsApp: basta un numero di telefono per sapere quando dormi, esci o torni a casa
Di Redazione RHC - 14/12/2025

È stato rilasciato uno strumento che consente il monitoraggio discreto dell’attività degli utenti di WhatsApp e Signal utilizzando solo un numero di telefono. Il meccanismo di monitoraggio copre o...

Immagine del sito
MITRE pubblica la lista delle TOP25 debolezze software più pericolose del 2025
Di Redazione RHC - 13/12/2025

Il MITRE ha reso pubblica la classifica delle 25 più pericolose debolezze software previste per il 2025, secondo i dati raccolti attraverso le vulnerabilità del national Vulnerability Database. Tali...

Immagine del sito
Il Day-One del Caos di React2Shell! Spie, criminali e cryptominer si contendono i server
Di Redazione RHC - 13/12/2025

Un recente resoconto del gruppo Google Threat Intelligence (GTIG) illustra gli esiti disordinati della diffusione di informazioni, mettendo in luce come gli avversari più esperti abbiano già preso p...