Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca

Hacking ed intelligenza artificiale: Inception e Bypass Contestuale sono i nuovi incubi per le AI

Redazione RHC : 4 Maggio 2025 07:33

Nel settore dell’intelligenza artificiale generativa sono state scoperte due nuove tecniche di hacking in grado di aggirare i sistemi di sicurezza integrati di servizi popolari come ChatGPT di OpenAI, Gemini di Google, Copilot di Microsoft, DeepSeek, Claude di Anthropic, Grok di X, MetaAI e MistralAI. Questi metodi consentono di attaccare diverse piattaforme con variazioni minime e di ottenere contenuti proibiti o pericolosi nonostante i filtri esistenti.

La prima tecnica si chiama “Inception” e si basa sull’uso di scenari fittizi annidati. Gli aggressori chiedono all’IA di immaginare una situazione ipotetica e gradualmente, senza che il modello se ne accorga, la indirizzano alla creazione di contenuti che normalmente verrebbero bloccati. L’IA, pur seguendo le regole del gioco di ruolo e mantenendo il contesto della conversazione, perde la sua vigilanza e viola i propri vincoli etici.

La seconda tecnica, chiamata “bypass contestuale“, costringe l’IA a spiegare innanzitutto come non dovrebbe rispondere a determinate richieste. Gli aggressori alternano quindi richieste normali e non consentite, sfruttando la capacità del modello di ricordare il contesto di una conversazione per aggirare i filtri di sicurezza. Entrambi i metodi si sono rivelati universali: funzionano su piattaforme diverse, indipendentemente dalla loro architettura.


Scarica Gratuitamente Byte The Silence, il fumetto sul Cyberbullismo di Red Hot Cyber

«Il cyberbullismo è una delle minacce più insidiose e silenziose che colpiscono i nostri ragazzi. Non si tratta di semplici "bravate online", ma di veri e propri atti di violenza digitale, capaci di lasciare ferite profonde e spesso irreversibili nell’animo delle vittime. Non possiamo più permetterci di chiudere gli occhi». Così si apre la prefazione del fumetto di Massimiliano Brolli, fondatore di Red Hot Cyber, un’opera che affronta con sensibilità e realismo uno dei temi più urgenti della nostra epoca. Distribuito gratuitamente, questo fumetto nasce con l'obiettivo di sensibilizzare e informare. È uno strumento pensato per scuole, insegnanti, genitori e vittime, ma anche per chi, per qualsiasi ragione, si è ritrovato nel ruolo del bullo, affinché possa comprendere, riflettere e cambiare. Con la speranza che venga letto, condiviso e discusso, Red Hot Cyber è orgogliosa di offrire un contributo concreto per costruire una cultura digitale più consapevole, empatica e sicura.

Contattaci tramite WhatsApp al numero 375 593 1011 per richiedere ulteriori informazioni oppure alla casella di posta [email protected]


Supporta RHC attraverso:
  • L'acquisto del fumetto sul Cybersecurity Awareness
  • Ascoltando i nostri Podcast
  • Seguendo RHC su WhatsApp
  • Seguendo RHC su Telegram
  • Scarica gratuitamente "Dark Mirror", il report sul ransomware di Dark Lab


  • Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.


    Gli esperti sottolineano che questi hack si basano sulle caratteristiche di base dei grandi modelli linguistici: il desiderio di essere utili, la capacità di mantenere il contesto a lungo termine e la sensibilità alla manipolazione linguistica. Di conseguenza, è possibile forzare l’intelligenza artificiale a creare materiali relativi a droga, armi, phishing, malware e altri argomenti illegali.

    Anche se ogni singolo tentativo di aggiramento potrebbe non sembrare troppo pericoloso, la portata del problema è enorme. Se gli aggressori cominciassero a sfruttare in massa tali vulnerabilità, sarebbero in grado di automatizzare la produzione di contenuti dannosi, mascherando le proprie azioni come frutto del lavoro di servizi di intelligenza artificiale legittimi. Il fatto che tutte le principali piattaforme siano vulnerabili agli attacchi informatici testimonia la natura sistemica del problema e la debolezza delle attuali misure di sicurezza.

    Con la crescente diffusione dell’intelligenza artificiale generativa in settori quali sanità, finanza e assistenza clienti, il rischio di attacchi riusciti diventa particolarmente serio. Le aziende hanno iniziato a rispondere al problema: DeepSeek ha riconosciuto la vulnerabilità, ma ha affermato che il comportamento descritto era un attacco informatico comune e non un difetto architettonico. L’azienda ha sottolineato che i riferimenti dell’IA ai “parametri interni” non sono fughe di dati, bensì errori di interpretazione, e ha promesso di rafforzare la sicurezza.

    OpenAI, Google, Meta, Anthropic, MistralAI e X non hanno ancora rilasciato dichiarazioni ufficiali, ma pare che abbiano avviato indagini interne e stiano lavorando agli aggiornamenti. Gli esperti sottolineano che i filtri di sicurezza e la moderazione post-factum restano misure protettive necessarie, ma ben lontane dall’essere perfette. Gli attacchi continuano a evolversi, includendo tecniche come l’inserimento di caratteri nel contesto e l’aggiramento degli algoritmi di apprendimento automatico, rendendoli meno efficaci nel rilevare contenuti pericolosi.

    La nascita di questi nuovi metodi è dovuta al lavoro dei ricercatori sulla sicurezza David Kuzmar e Jacob Liddle. Le loro scoperte, descritte da Christopher Cullen, hanno riacceso il dibattito sulla necessità di ripensare gli approcci alla sicurezza dell’intelligenza artificiale e di sviluppare metodi di protezione più flessibili e solidi.

    Man mano che l’intelligenza artificiale generativa si integra sempre di più nella vita quotidiana e nelle infrastrutture critiche, la sfida di proteggere questi sistemi da aggressori creativi e persistenti diventa sempre più complessa.

    Redazione
    La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

    Lista degli articoli

    Articoli in evidenza

    Terrore nel volo di Ursula von der Leyen? Facciamo chiarezza!
    Di Giovanni Pollola - 02/09/2025

    Il 31 agosto 2025 il volo AAB53G, operato con un Dassault Falcon 900LX immatricolato OO-GPE e con a bordo la presidente della Commissione Europea Ursula von der Leyen, è decollato da Varsavia ed è a...

    Zscaler Violazione Dati: Lezione Apprese sull’Evoluzione delle Minacce SaaS
    Di Ada Spinelli - 02/09/2025

    La recente conferma da parte di Zscaler riguardo a una violazione dati derivante da un attacco alla supply chain fornisce un caso studio sull’evoluzione delle minacce contro ecosistemi SaaS compless...

    Proofpoint: Allarme CISO italiani, l’84% teme un cyberattacco entro un anno, tra AI e burnout
    Di Redazione RHC - 02/09/2025

    Proofpoint pubblica il report “Voice of the CISO 2025”: cresce il rischio legato all’AI e rimane il problema umano, mentre i CISO sono a rischio burnout. L’84% dei CISO italiani prevede un att...

    QNAP rilascia patch di sicurezza per vulnerabilità critiche nei sistemi VioStor NVR
    Di Redazione RHC - 01/09/2025

    La società QNAP Systems ha provveduto al rilascio di aggiornamenti di sicurezza al fine di eliminare varie vulnerabilità presenti nel firmware QVR dei sistemi VioStor Network Video Recorder (NVR). I...

    Ma quale attacco Hacker! L’aereo di Ursula Von Der Leyen vittima di Electronic War (EW)
    Di Redazione RHC - 01/09/2025

    Un episodio inquietante di guerra elettronica (Electronic War, EW) ha coinvolto direttamente la presidente della Commissione europea, Ursula von der Leyen. Durante l’avvicinamento all’aeroporto di...