Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca

Hacking ed intelligenza artificiale: Inception e Bypass Contestuale sono i nuovi incubi per le AI

Redazione RHC : 4 Maggio 2025 07:33

Nel settore dell’intelligenza artificiale generativa sono state scoperte due nuove tecniche di hacking in grado di aggirare i sistemi di sicurezza integrati di servizi popolari come ChatGPT di OpenAI, Gemini di Google, Copilot di Microsoft, DeepSeek, Claude di Anthropic, Grok di X, MetaAI e MistralAI. Questi metodi consentono di attaccare diverse piattaforme con variazioni minime e di ottenere contenuti proibiti o pericolosi nonostante i filtri esistenti.

La prima tecnica si chiama “Inception” e si basa sull’uso di scenari fittizi annidati. Gli aggressori chiedono all’IA di immaginare una situazione ipotetica e gradualmente, senza che il modello se ne accorga, la indirizzano alla creazione di contenuti che normalmente verrebbero bloccati. L’IA, pur seguendo le regole del gioco di ruolo e mantenendo il contesto della conversazione, perde la sua vigilanza e viola i propri vincoli etici.

La seconda tecnica, chiamata “bypass contestuale“, costringe l’IA a spiegare innanzitutto come non dovrebbe rispondere a determinate richieste. Gli aggressori alternano quindi richieste normali e non consentite, sfruttando la capacità del modello di ricordare il contesto di una conversazione per aggirare i filtri di sicurezza. Entrambi i metodi si sono rivelati universali: funzionano su piattaforme diverse, indipendentemente dalla loro architettura.

Iscriviti GRATIS ai WorkShop Hands-On della RHC Conference 2025 (Giovedì 8 maggio 2025)

Il giorno giovedì 8 maggio 2025 presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terranno i workshop "hands-on", creati per far avvicinare i ragazzi (o persone di qualsiasi età) alla sicurezza informatica e alla tecnologia. Questo anno i workshop saranno:

  • Creare Un Sistema Ai Di Visual Object Tracking (Hands on)
  • Social Engineering 2.0: Alla Scoperta Delle Minacce DeepFake
  • Doxing Con Langflow: Stiamo Costruendo La Fine Della Privacy?
  • Come Hackerare Un Sito WordPress (Hands on)
  • Il Cyberbullismo Tra Virtuale E Reale
  • Come Entrare Nel Dark Web In Sicurezza (Hands on)

  • Potete iscrivervi gratuitamente all'evento, che è stato creato per poter ispirare i ragazzi verso la sicurezza informatica e la tecnologia.
    Per ulteriori informazioni, scrivi a [email protected] oppure su Whatsapp al 379 163 8765


    Supporta RHC attraverso:


    Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.

    Gli esperti sottolineano che questi hack si basano sulle caratteristiche di base dei grandi modelli linguistici: il desiderio di essere utili, la capacità di mantenere il contesto a lungo termine e la sensibilità alla manipolazione linguistica. Di conseguenza, è possibile forzare l’intelligenza artificiale a creare materiali relativi a droga, armi, phishing, malware e altri argomenti illegali.

    Anche se ogni singolo tentativo di aggiramento potrebbe non sembrare troppo pericoloso, la portata del problema è enorme. Se gli aggressori cominciassero a sfruttare in massa tali vulnerabilità, sarebbero in grado di automatizzare la produzione di contenuti dannosi, mascherando le proprie azioni come frutto del lavoro di servizi di intelligenza artificiale legittimi. Il fatto che tutte le principali piattaforme siano vulnerabili agli attacchi informatici testimonia la natura sistemica del problema e la debolezza delle attuali misure di sicurezza.

    Con la crescente diffusione dell’intelligenza artificiale generativa in settori quali sanità, finanza e assistenza clienti, il rischio di attacchi riusciti diventa particolarmente serio. Le aziende hanno iniziato a rispondere al problema: DeepSeek ha riconosciuto la vulnerabilità, ma ha affermato che il comportamento descritto era un attacco informatico comune e non un difetto architettonico. L’azienda ha sottolineato che i riferimenti dell’IA ai “parametri interni” non sono fughe di dati, bensì errori di interpretazione, e ha promesso di rafforzare la sicurezza.

    OpenAI, Google, Meta, Anthropic, MistralAI e X non hanno ancora rilasciato dichiarazioni ufficiali, ma pare che abbiano avviato indagini interne e stiano lavorando agli aggiornamenti. Gli esperti sottolineano che i filtri di sicurezza e la moderazione post-factum restano misure protettive necessarie, ma ben lontane dall’essere perfette. Gli attacchi continuano a evolversi, includendo tecniche come l’inserimento di caratteri nel contesto e l’aggiramento degli algoritmi di apprendimento automatico, rendendoli meno efficaci nel rilevare contenuti pericolosi.

    La nascita di questi nuovi metodi è dovuta al lavoro dei ricercatori sulla sicurezza David Kuzmar e Jacob Liddle. Le loro scoperte, descritte da Christopher Cullen, hanno riacceso il dibattito sulla necessità di ripensare gli approcci alla sicurezza dell’intelligenza artificiale e di sviluppare metodi di protezione più flessibili e solidi.

    Man mano che l’intelligenza artificiale generativa si integra sempre di più nella vita quotidiana e nelle infrastrutture critiche, la sfida di proteggere questi sistemi da aggressori creativi e persistenti diventa sempre più complessa.

    Redazione
    La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

    Lista degli articoli

    Articoli in evidenza

    Hai cambiato la password? Tranquillo, RDP se ne frega! La Scoperta Shock su Windows

    Microsoft ha confermato che il protocollo RDP (Remote Desktop Protocol) consente l’accesso ai sistemi Windows anche utilizzando password già modificate o revocate. L’azienda ha chia...

    Attenti italiani! Una Finta Multa da pagare tramite PagoPA vuole svuotarti il conto

    Una nuova campagna di phishing sta circolando in queste ore con un obiettivo ben preciso: spaventare le vittime con la minaccia di una multa stradale imminente e gonfiata, apparentemente proveniente d...

    Italia sarai pronta al Blackout Digitale? Dopo La Spagna l’attacco informatico alla NS Power

    Negli ultimi giorni, NS Power, una delle principali aziende elettriche canadesi, ha confermato di essere stata vittima di un attacco informatico e ha pubblicato degli update all’interno della H...

    Sicurezza è Lavoro: dal cantiere al cloud, dobbiamo proteggere chi costruisce l’Italia!

    1° Maggio, un giorno per onorare chi lavora, chi lotta per farlo in modo dignitoso e chi, troppo spesso, perde la vita mentre svolge la propria mansione. Nel 2025, l’Italia continua a pian...

    Buon World Password Day! Tra MIT, Hacker, Infostealer e MFA. Perchè sono così vulnerabili

    Domani celebreremo uno degli elementi più iconici – e al tempo stesso vulnerabili – della nostra vita digitale: la password. Da semplice chiave d’accesso inventata negli anni...