
Nel settore dell’intelligenza artificiale generativa sono state scoperte due nuove tecniche di hacking in grado di aggirare i sistemi di sicurezza integrati di servizi popolari come ChatGPT di OpenAI, Gemini di Google, Copilot di Microsoft, DeepSeek, Claude di Anthropic, Grok di X, MetaAI e MistralAI. Questi metodi consentono di attaccare diverse piattaforme con variazioni minime e di ottenere contenuti proibiti o pericolosi nonostante i filtri esistenti.
La prima tecnica si chiama “Inception” e si basa sull’uso di scenari fittizi annidati. Gli aggressori chiedono all’IA di immaginare una situazione ipotetica e gradualmente, senza che il modello se ne accorga, la indirizzano alla creazione di contenuti che normalmente verrebbero bloccati. L’IA, pur seguendo le regole del gioco di ruolo e mantenendo il contesto della conversazione, perde la sua vigilanza e viola i propri vincoli etici.
La seconda tecnica, chiamata “bypass contestuale“, costringe l’IA a spiegare innanzitutto come non dovrebbe rispondere a determinate richieste. Gli aggressori alternano quindi richieste normali e non consentite, sfruttando la capacità del modello di ricordare il contesto di una conversazione per aggirare i filtri di sicurezza. Entrambi i metodi si sono rivelati universali: funzionano su piattaforme diverse, indipendentemente dalla loro architettura.
Avvio delle iscrizioni al corso Cyber Offensive Fundamentals Vuoi smettere di guardare tutorial e iniziare a capire davvero come funziona la sicurezza informatica? La base della sicurezza informatica, al di là di norme e tecnologie, ha sempre un unico obiettivo: fermare gli attacchi dei criminali informatici. Pertanto "Pensa come un attaccante, agisci come un difensore". Ti porteremo nel mondo dell'ethical hacking e del penetration test come nessuno ha mai fatto prima. Per informazioni potete accedere alla pagina del corso oppure contattarci tramite WhatsApp al numero 379 163 8765 oppure scrivendoci alla casella di posta [email protected].
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
Gli esperti sottolineano che questi hack si basano sulle caratteristiche di base dei grandi modelli linguistici: il desiderio di essere utili, la capacità di mantenere il contesto a lungo termine e la sensibilità alla manipolazione linguistica. Di conseguenza, è possibile forzare l’intelligenza artificiale a creare materiali relativi a droga, armi, phishing, malware e altri argomenti illegali.
Anche se ogni singolo tentativo di aggiramento potrebbe non sembrare troppo pericoloso, la portata del problema è enorme. Se gli aggressori cominciassero a sfruttare in massa tali vulnerabilità, sarebbero in grado di automatizzare la produzione di contenuti dannosi, mascherando le proprie azioni come frutto del lavoro di servizi di intelligenza artificiale legittimi. Il fatto che tutte le principali piattaforme siano vulnerabili agli attacchi informatici testimonia la natura sistemica del problema e la debolezza delle attuali misure di sicurezza.
Con la crescente diffusione dell’intelligenza artificiale generativa in settori quali sanità, finanza e assistenza clienti, il rischio di attacchi riusciti diventa particolarmente serio. Le aziende hanno iniziato a rispondere al problema: DeepSeek ha riconosciuto la vulnerabilità, ma ha affermato che il comportamento descritto era un attacco informatico comune e non un difetto architettonico. L’azienda ha sottolineato che i riferimenti dell’IA ai “parametri interni” non sono fughe di dati, bensì errori di interpretazione, e ha promesso di rafforzare la sicurezza.
OpenAI, Google, Meta, Anthropic, MistralAI e X non hanno ancora rilasciato dichiarazioni ufficiali, ma pare che abbiano avviato indagini interne e stiano lavorando agli aggiornamenti. Gli esperti sottolineano che i filtri di sicurezza e la moderazione post-factum restano misure protettive necessarie, ma ben lontane dall’essere perfette. Gli attacchi continuano a evolversi, includendo tecniche come l’inserimento di caratteri nel contesto e l’aggiramento degli algoritmi di apprendimento automatico, rendendoli meno efficaci nel rilevare contenuti pericolosi.
La nascita di questi nuovi metodi è dovuta al lavoro dei ricercatori sulla sicurezza David Kuzmar e Jacob Liddle. Le loro scoperte, descritte da Christopher Cullen, hanno riacceso il dibattito sulla necessità di ripensare gli approcci alla sicurezza dell’intelligenza artificiale e di sviluppare metodi di protezione più flessibili e solidi.
Man mano che l’intelligenza artificiale generativa si integra sempre di più nella vita quotidiana e nelle infrastrutture critiche, la sfida di proteggere questi sistemi da aggressori creativi e persistenti diventa sempre più complessa.
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Cyber NewsLa vulnerabilità critica recentemente aggiunta al catalogo delle vulnerabilità note sfruttate (KEV) dalla Cybersecurity and Infrastructure Security Agency (CISA) interessa il Broadcom VMware vCenter Server e viene attivamente sfruttata dagli hacker criminali per violare le…
Cyber NewsLa storia di Ilya Lichtenstein, l’hacker responsabile di uno degli attacchi informatici più grandi mai compiuti contro le criptovalute, appare come un episodio di una serie TV, eppure è assolutamente reale. Dopo essere stato rilasciato,…
Cyber NewsSe c’erano ancora dubbi sul fatto che le principali aziende mondiali di intelligenza artificiale fossero d’accordo sulla direzione dell’IA, o sulla velocità con cui dovrebbe arrivarci, questi dubbi sono stati dissipati al World Economic Forum…
Cyber NewsUna settimana fa, il CEO di Cursor, Michael Truell, ha annunciato un risultato presumibilmente straordinario. Ha affermato che, utilizzando GPT-5.2, Cursor ha creato un browser in grado di funzionare ininterrottamente per un’intera settimana. Questo browser…
Cyber NewsL’Italia si conferma uno degli obiettivi principali della campagna di attacchi DDoS portata avanti dal gruppo hacktivista NoName057(16). Secondo quanto dichiarato direttamente dal collettivo, il nostro Paese ha subito 487 attacchi informatici tra ottobre 2024…