Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
LECS 970x120 1
LECS 320x100 1
Hacking ed intelligenza artificiale: Inception e Bypass Contestuale sono i nuovi incubi per le AI

Hacking ed intelligenza artificiale: Inception e Bypass Contestuale sono i nuovi incubi per le AI

Redazione RHC : 4 Maggio 2025 07:33

Nel settore dell’intelligenza artificiale generativa sono state scoperte due nuove tecniche di hacking in grado di aggirare i sistemi di sicurezza integrati di servizi popolari come ChatGPT di OpenAI, Gemini di Google, Copilot di Microsoft, DeepSeek, Claude di Anthropic, Grok di X, MetaAI e MistralAI. Questi metodi consentono di attaccare diverse piattaforme con variazioni minime e di ottenere contenuti proibiti o pericolosi nonostante i filtri esistenti.

La prima tecnica si chiama “Inception” e si basa sull’uso di scenari fittizi annidati. Gli aggressori chiedono all’IA di immaginare una situazione ipotetica e gradualmente, senza che il modello se ne accorga, la indirizzano alla creazione di contenuti che normalmente verrebbero bloccati. L’IA, pur seguendo le regole del gioco di ruolo e mantenendo il contesto della conversazione, perde la sua vigilanza e viola i propri vincoli etici.

La seconda tecnica, chiamata “bypass contestuale“, costringe l’IA a spiegare innanzitutto come non dovrebbe rispondere a determinate richieste. Gli aggressori alternano quindi richieste normali e non consentite, sfruttando la capacità del modello di ricordare il contesto di una conversazione per aggirare i filtri di sicurezza. Entrambi i metodi si sono rivelati universali: funzionano su piattaforme diverse, indipendentemente dalla loro architettura.


Rhc Conference Sponsor Program 2

Sponsorizza la prossima Red Hot Cyber Conference!

Il giorno Lunedì 18 maggio e martedì 19 maggio 2026 9 maggio 2026, presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terrà la V edizione della la RHC Conference
Si tratta dell’appuntamento annuale gratuito, creato dalla community di RHC, per far accrescere l’interesse verso le tecnologie digitali, l’innovazione digitale e la consapevolezza del rischio informatico. 
Se sei interessato a sponsorizzare l'evento e a rendere la tua azienda protagonista del più grande evento della Cybersecurity Italiana, non perdere questa opportunità. E ricorda che assieme alla sponsorizzazione della conferenza, incluso nel prezzo, avrai un pacchetto di Branding sul sito di Red Hot Cyber composto da Banner più un numero di articoli che saranno ospitati all'interno del nostro portale. 
Quindi cosa stai aspettando? Scrivici subito a [email protected] per maggiori informazioni e per accedere al programma sponsor e al media Kit di Red Hot Cyber.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Gli esperti sottolineano che questi hack si basano sulle caratteristiche di base dei grandi modelli linguistici: il desiderio di essere utili, la capacità di mantenere il contesto a lungo termine e la sensibilità alla manipolazione linguistica. Di conseguenza, è possibile forzare l’intelligenza artificiale a creare materiali relativi a droga, armi, phishing, malware e altri argomenti illegali.

Anche se ogni singolo tentativo di aggiramento potrebbe non sembrare troppo pericoloso, la portata del problema è enorme. Se gli aggressori cominciassero a sfruttare in massa tali vulnerabilità, sarebbero in grado di automatizzare la produzione di contenuti dannosi, mascherando le proprie azioni come frutto del lavoro di servizi di intelligenza artificiale legittimi. Il fatto che tutte le principali piattaforme siano vulnerabili agli attacchi informatici testimonia la natura sistemica del problema e la debolezza delle attuali misure di sicurezza.

Con la crescente diffusione dell’intelligenza artificiale generativa in settori quali sanità, finanza e assistenza clienti, il rischio di attacchi riusciti diventa particolarmente serio. Le aziende hanno iniziato a rispondere al problema: DeepSeek ha riconosciuto la vulnerabilità, ma ha affermato che il comportamento descritto era un attacco informatico comune e non un difetto architettonico. L’azienda ha sottolineato che i riferimenti dell’IA ai “parametri interni” non sono fughe di dati, bensì errori di interpretazione, e ha promesso di rafforzare la sicurezza.

OpenAI, Google, Meta, Anthropic, MistralAI e X non hanno ancora rilasciato dichiarazioni ufficiali, ma pare che abbiano avviato indagini interne e stiano lavorando agli aggiornamenti. Gli esperti sottolineano che i filtri di sicurezza e la moderazione post-factum restano misure protettive necessarie, ma ben lontane dall’essere perfette. Gli attacchi continuano a evolversi, includendo tecniche come l’inserimento di caratteri nel contesto e l’aggiramento degli algoritmi di apprendimento automatico, rendendoli meno efficaci nel rilevare contenuti pericolosi.

La nascita di questi nuovi metodi è dovuta al lavoro dei ricercatori sulla sicurezza David Kuzmar e Jacob Liddle. Le loro scoperte, descritte da Christopher Cullen, hanno riacceso il dibattito sulla necessità di ripensare gli approcci alla sicurezza dell’intelligenza artificiale e di sviluppare metodi di protezione più flessibili e solidi.

Man mano che l’intelligenza artificiale generativa si integra sempre di più nella vita quotidiana e nelle infrastrutture critiche, la sfida di proteggere questi sistemi da aggressori creativi e persistenti diventa sempre più complessa.

Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Microsoft Teams farà la spia al tuo capo quando non sei in ufficio! A dicembre il deploy del tracciamento della posizione
Di Redazione RHC - 27/10/2025

Microsoft Teams riceverà un aggiornamento a dicembre 2025 che consentirà di monitorare la posizione dei dipendenti tramite la rete Wi-Fi dell’ufficio. Secondo la roadmap di Microsoft 365 , “quan...

Immagine del sito
Mentre Papa Francesco è Vivo e continua il suo ministero, la disinformazione Galoppa
Di Redazione RHC - 26/10/2025

Un’indagine condotta dall’Unione Europea di Radiodiffusione (EBU), con il supporto della BBC, ha messo in luce che i chatbot più popolari tendono a distorcere le notizie, modificandone il senso, ...

Immagine del sito
BreachForums rinasce ancora dopo l’ennesima chiusura dell’FBI
Di Redazione RHC - 26/10/2025

Spesso abbiamo citato questa frase: “Combattere il cybercrime è come estirpare le erbacce: se non le estirpi completamente rinasceranno, molto più vigorose di prima” e mai come ora risulta esser...

Immagine del sito
Blackout internet di 3 giorni a Caponago: una volpe ha morso e distrutto la fibra ottica
Di Redazione RHC - 25/10/2025

Per tre giorni consecutivi, dal 19 al 22 ottobre, il Comune di Caponago è rimasto isolato dal web a causa di un insolito incidente: una volpe è finita in un pozzetto della rete telefonica, danneggia...

Immagine del sito
RCE critica in Microsoft WSUS sfruttata attivamente. CISA avverte: rischio imminente
Di Redazione RHC - 25/10/2025

Un’allerta globale è stata lanciata dalla Cybersecurity and Infrastructure Security Agency (CISA) degli Stati Uniti, riguardante lo sfruttamento attivo di una falla critica di esecuzione di codice ...