Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca

Hacking ed intelligenza artificiale: Inception e Bypass Contestuale sono i nuovi incubi per le AI

Redazione RHC : 4 Maggio 2025 07:33

Nel settore dell’intelligenza artificiale generativa sono state scoperte due nuove tecniche di hacking in grado di aggirare i sistemi di sicurezza integrati di servizi popolari come ChatGPT di OpenAI, Gemini di Google, Copilot di Microsoft, DeepSeek, Claude di Anthropic, Grok di X, MetaAI e MistralAI. Questi metodi consentono di attaccare diverse piattaforme con variazioni minime e di ottenere contenuti proibiti o pericolosi nonostante i filtri esistenti.

La prima tecnica si chiama “Inception” e si basa sull’uso di scenari fittizi annidati. Gli aggressori chiedono all’IA di immaginare una situazione ipotetica e gradualmente, senza che il modello se ne accorga, la indirizzano alla creazione di contenuti che normalmente verrebbero bloccati. L’IA, pur seguendo le regole del gioco di ruolo e mantenendo il contesto della conversazione, perde la sua vigilanza e viola i propri vincoli etici.

La seconda tecnica, chiamata “bypass contestuale“, costringe l’IA a spiegare innanzitutto come non dovrebbe rispondere a determinate richieste. Gli aggressori alternano quindi richieste normali e non consentite, sfruttando la capacità del modello di ricordare il contesto di una conversazione per aggirare i filtri di sicurezza. Entrambi i metodi si sono rivelati universali: funzionano su piattaforme diverse, indipendentemente dalla loro architettura.


PARTE LA PROMO ESTATE -40%

RedHotCyber Academy lancia una promozione esclusiva e a tempo limitato per chi vuole investire nella propria crescita professionale nel mondo della tecnologia e della cybersecurity!

Approfitta del 40% di sconto sull’acquisto congiunto di 3 corsi da te scelti dalla nostra Academy. Ad esempio potresti fare un percorso formativo includendo Cyber Threat intelligence + NIS2 + Criptovalute con lo sconto del 40%. Tutto questo lo potrai fruire, dove e quando vuoi e con la massima flessibilità, grazie a lezioni di massimo 30 minuti ciascuna.

Contattaci tramite WhatsApp al 375 593 1011 per richiedere ulteriori informazioni oppure scriviti alla casella di posta [email protected]


Supporta RHC attraverso:
  • L'acquisto del fumetto sul Cybersecurity Awareness
  • Ascoltando i nostri Podcast
  • Seguendo RHC su WhatsApp
  • Seguendo RHC su Telegram
  • Scarica gratuitamente "Dark Mirror", il report sul ransomware di Dark Lab


  • Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.


    Gli esperti sottolineano che questi hack si basano sulle caratteristiche di base dei grandi modelli linguistici: il desiderio di essere utili, la capacità di mantenere il contesto a lungo termine e la sensibilità alla manipolazione linguistica. Di conseguenza, è possibile forzare l’intelligenza artificiale a creare materiali relativi a droga, armi, phishing, malware e altri argomenti illegali.

    Anche se ogni singolo tentativo di aggiramento potrebbe non sembrare troppo pericoloso, la portata del problema è enorme. Se gli aggressori cominciassero a sfruttare in massa tali vulnerabilità, sarebbero in grado di automatizzare la produzione di contenuti dannosi, mascherando le proprie azioni come frutto del lavoro di servizi di intelligenza artificiale legittimi. Il fatto che tutte le principali piattaforme siano vulnerabili agli attacchi informatici testimonia la natura sistemica del problema e la debolezza delle attuali misure di sicurezza.

    Con la crescente diffusione dell’intelligenza artificiale generativa in settori quali sanità, finanza e assistenza clienti, il rischio di attacchi riusciti diventa particolarmente serio. Le aziende hanno iniziato a rispondere al problema: DeepSeek ha riconosciuto la vulnerabilità, ma ha affermato che il comportamento descritto era un attacco informatico comune e non un difetto architettonico. L’azienda ha sottolineato che i riferimenti dell’IA ai “parametri interni” non sono fughe di dati, bensì errori di interpretazione, e ha promesso di rafforzare la sicurezza.

    OpenAI, Google, Meta, Anthropic, MistralAI e X non hanno ancora rilasciato dichiarazioni ufficiali, ma pare che abbiano avviato indagini interne e stiano lavorando agli aggiornamenti. Gli esperti sottolineano che i filtri di sicurezza e la moderazione post-factum restano misure protettive necessarie, ma ben lontane dall’essere perfette. Gli attacchi continuano a evolversi, includendo tecniche come l’inserimento di caratteri nel contesto e l’aggiramento degli algoritmi di apprendimento automatico, rendendoli meno efficaci nel rilevare contenuti pericolosi.

    La nascita di questi nuovi metodi è dovuta al lavoro dei ricercatori sulla sicurezza David Kuzmar e Jacob Liddle. Le loro scoperte, descritte da Christopher Cullen, hanno riacceso il dibattito sulla necessità di ripensare gli approcci alla sicurezza dell’intelligenza artificiale e di sviluppare metodi di protezione più flessibili e solidi.

    Man mano che l’intelligenza artificiale generativa si integra sempre di più nella vita quotidiana e nelle infrastrutture critiche, la sfida di proteggere questi sistemi da aggressori creativi e persistenti diventa sempre più complessa.

    Redazione
    La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

    Lista degli articoli

    Articoli in evidenza

    Verso un ferragosto col botto! 36 RCE per il Microsoft Patch Tuesday di Agosto
    Di Redazione RHC - 13/08/2025

    Agosto Patch Tuesday: Microsoft rilascia aggiornamenti sicurezza che fixano 107 vulnerabilità nei prodotti del suo ecosistema. L’aggiornamento include correzioni per 90 vulnerabilità,...

    29.000 server Exchange a rischio. L’exploit per il CVE-2025-53786 è sotto sfruttamento
    Di Redazione RHC - 13/08/2025

    29.000 server Exchange sono vulnerabili al CVE-2025-53786, che consente agli aggressori di muoversi all’interno degli ambienti cloud Microsoft, portando potenzialmente alla compromissione compl...

    Come previsto, il bug di WinRAR è diventato un’arma devastante per i cyber criminali
    Di Redazione RHC - 12/08/2025

    Come era prevedibile, il famigerato bug scoperto su WinRar, viene ora sfruttato attivamente dai malintenzionati su larga scala, vista la diffusione e la popolarità del software. Gli esperti di ES...

    Basta Dazi per 90 Giorni! Cina e USA raggiungono un accordo economico temporaneo
    Di Redazione RHC - 12/08/2025

    Il Governo della Repubblica Popolare Cinese (“Cina”) e il Governo degli Stati Uniti d’America (“USA”), secondo quanto riportato da l’agenzia di stampa Xinhua ...

    Microsoft sotto accusa in California per la fine del supporto di Windows 10
    Di Redazione RHC - 12/08/2025

    In California è stata intentata una causa contro Microsoft, accusandola di aver interrotto prematuramente il supporto per Windows 10 e di aver costretto gli utenti ad acquistare nuovi dispositivi...