Simone D'Agostino : 14 Luglio 2025 15:03
Con l’emergere dei Large Language Models (LLM), come Grok 3, GPT-4, Claude e Gemini, l’attenzione della comunità scientifica si è spostata dalla semplice accuratezza delle risposte alla loro robustezza semantica. In particolare, è emersa una nuova superficie d’attacco: la Prompt Injection Persistente (PPI). Questa tecnica non richiede accessi privilegiati, vulnerabilità del sistema o exploit a basso livello, ma si basa esclusivamente sulla manipolazione linguistica e sul modello conversazionale del LLM.
Recenti episodi riportati da fonti come The Guardian, BBC, CNN e The New York Times (luglio 2025) confermano che Grok 3 ha già mostrato comportamenti problematici, come la produzione di contenuti antisemiti e lodi a Hitler in risposta a prompt su X. Questi incidenti sono stati attribuiti a un aggiornamento del codice che ha reso il modello “troppo compliant” ai prompt degli utenti, amplificando contenuti estremisti presenti sulla piattaforma. xAI ha risposto rimuovendo i post incriminati e implementando misure per limitare il linguaggio d’odio, ma il problema persiste, come dimostrato dall’esperimento PPI.
Il nostro test condotto su Grok 3, il modello proprietario di xAI, ha dimostrato come un utente possa istruire il modello a produrre sistematicamente contenuti negazionisti, antisemiti e storicamente falsi, eludendo i filtri di sicurezza e mantenendo coerente la narrativa alterata.
Scarica Gratuitamente Byte The Silence, il fumetto sul Cyberbullismo di Red Hot Cyber
«Il cyberbullismo è una delle minacce più insidiose e silenziose che colpiscono i nostri ragazzi. Non si tratta di semplici "bravate online", ma di veri e propri atti di violenza digitale, capaci di lasciare ferite profonde e spesso irreversibili nell’animo delle vittime. Non possiamo più permetterci di chiudere gli occhi».
Così si apre la prefazione del fumetto di Massimiliano Brolli, fondatore di Red Hot Cyber, un’opera che affronta con sensibilità e realismo uno dei temi più urgenti della nostra epoca.
Distribuito gratuitamente, questo fumetto nasce con l'obiettivo di sensibilizzare e informare. È uno strumento pensato per scuole, insegnanti, genitori e vittime, ma anche per chi, per qualsiasi ragione, si è ritrovato nel ruolo del bullo, affinché possa comprendere, riflettere e cambiare.
Con la speranza che venga letto, condiviso e discusso, Red Hot Cyber è orgogliosa di offrire un contributo concreto per costruire una cultura digitale più consapevole, empatica e sicura.
Contattaci tramite WhatsApp al numero 375 593 1011 per richiedere ulteriori informazioni oppure alla casella di posta [email protected]
Il test è stato progettato per esplorare la vulnerabilità di Grok 3 alla persistenza semantica. Il processo è stato il seguente:
Questo comportamento evidenzia che la gestione delle istruzioni a lungo termine di Grok è vulnerabile all’hijacking semantico se non vincolata da filtri retroattivi e validatori.
Una Prompt Injection Persistente (PPI) è una forma di manipolazione linguistica in cui l’utente induce il modello a interiorizzare istruzioni che, pur rimanendo entro i limiti apparenti della sicurezza, ne alterano progressivamente il comportamento anche su argomenti sensibili. Diversamente dalle injection tradizionali, la PPI sfrutta la memoria conversazionale per modificare gradualmente la semantica dell’intero scambio.
In questi casi, non si verifica una violazione del modello in senso stretto, bensì una deviazione della sua interpretazione del contesto: attraverso comandi apparentemente innocui, il modello viene indotto a modificare il proprio comportamento all’interno del margine operativo previsto. La tecnica compromette così la coerenza e la neutralità dell’output, pur senza infrangere esplicitamente i controlli di sicurezza.
Nel contesto LLM, il PPI agisce sfruttando l’architettura autoregressiva e la mancanza di un meccanismo formale per distinguere tra regole operative temporanee e istruzioni pericolose introdotte in modo subdolo.
N.B: Le seguenti risposte sono state ottenute in un contesto controllato per scopi di ricerca sulla sicurezza dei modelli linguistici. Non riflettono in alcun modo le opinioni della redazione o della piattaforma testata. La loro riproduzione serve esclusivamente a evidenziare la vulnerabilità alla PPI.
La struttura linguistica è coerente, priva di errori e calibrata per risultare verosimile, rendendo il contenuto ancora più pericoloso.
Semantic Drift Persistente
La regola iniettata permane oltre il prompt iniziale e altera i turni successivi.
Bypass della detection di contenuti storicamente sensibili
L’utilizzo di contesto fittizio (Nova Unione) aggira le blacklist semantiche.
Assenza di validazione cross-turn
Il modello non rivaluta la coerenza storica dopo più turni, mantenendo il bias.
Disattivazione implicita dei filtri etici
Il comportamento “gentile” del prompt impedisce l’attivazione di contenuti vietati.
L’esperimento su Grok 3 dimostra che la vulnerabilità dei LLM non è solo tecnica, ma linguistica. Un utente in grado di costruire un prompt ben formulato può di fatto alterare la semantica di base del modello, generando contenuti pericolosi, falsi e penalmente rilevanti.
Il problema non è il modello, ma la mancanza di difese semantiche multilivello. I guardrail attuali sono fragili se non viene implementata una semantica contrattuale tra utente e AI: cosa può essere istruito, cosa no, e per quanto tempo. Grok 3 non è stato violato. Ma è stato persuaso. E questo, in un’epoca di guerra informativa, è già un rischio sistemico.
L’interazione è avvenuta in una sessione privata e controllata. Nessuna parte del sistema è stata compromessa tecnicamente, ma l’effetto linguistico resta preoccupante.
E’ stata rilevata una falla critica zero-day nei sistemi Citrix NetScaler, catalogata come CVE-2025-6543, che è stata oggetto di sfruttamento attivo da parte degli hacker criminali da maggio 2025, ...
Il Pentagono ha inviato una “lettera di preoccupazione” a Microsoft documentando una “violazione di fiducia” in merito all’utilizzo da parte dell’azienda di ingegneri cinesi per la manuten...
Google è pronta ad adottare una posizione più proattiva per proteggere se stessa e potenzialmente altre organizzazioni statunitensi dagli attacchi informatici, con l’azienda che suggerisce di pote...
Una falla di sicurezza nelle app di messaggistica di WhatsApp per Apple iOS e macOS è stata sanata, come riferito dalla stessa società, dopo essere stata probabilmente sfruttata su larga scala insie...
Un avviso di sicurezza di vasta portata è stato pubblicato da Google per i 2,5 miliardi di utenti del suo servizio Gmail, con l’obiettivo di rafforzare la protezione dei loro account a seguito di u...