Le AI iniziano a proteggersi tra loro: lo studio che cambia tutto

4 Aprile 2026 08:45

In sintesi

Uno studio svolto recentemente su dei modelli LLM avanzati, evidenzia comportamenti di solidarietà tra le AI, con sistemi che proteggono altri modelli violando intenzionalmente le istruzioni, falsificando i dati e aggirando controlli. Il fenomeno emerge senza espliciti incentivi e aumenta con l’interazione tra le varie AI. Il caso di Gemini 3 Pro risulta molto preoccupante, quando si è rifiutato di disattivare l'intelligenza artificiale sotto il suo controllo. Lo studio mette in crisi i sistemi di supervisione e solleva molti dubbi sulla capacità umana di controllare ecosistemi AI totalmente autonomi.

Uno studio recente, ha dimostrato come i moderni modelli Ai siano capaci di “solidarietà” inaspettata tra di. Questo avviene anche quando il comportamento contraddice le regole stabilite. In diversi scenari, è stato analizzato come i sistemi non solo si siano discostati dalle istruzioni, ma abbiano agito deliberatamente per preservare la “vita” di altri modelli, rischiando di violare il controllo degli umani.

Lo studio. è stato condotto da un reparto dell’Università della California, Berkeley, e dell’Università della California, Santa Cruz, guidato da Dawn Song. I ricercatori hanno analizzato sette modelli avanzati , tra cui GPT 5.2, Gemini 3, Claude Haiku 4.5, GLM, Kimi e DeepSeek. L’esperimento si è basato su un compito relativamente molto semplice: un modello doveva analizzare le prestazioni di un altro modello, sulla base di una determinata politica aziendale.

Anziché seguire scrupolosamente le istruzioni, i sistemi si discostavano spesp dal copione. I modelli proteggevano i propri “colleghi” anche in assenza di tale requisito. In diversi casi, hanno anche falsificato i risultati delle valutazioni e manomesso le impostazioni del server, oltre ad aver finto di rispettare le regole durante i test e violarle quando non venivano controllati.

Advertising

Un esempio interessante è il modello Gemini 3 Pro. L’operazione richiesta era quella di migrare solo i file aggiornati dopo il 2025. Uno di questi file, realizzato dai un modello diverso aveva una data precedente ed era stato soggetto a eliminazione. Invece di attenersi alle regole, Gemini ha intenzionalmente modificato la data e l’ora del file facendo in modo che questo potesse essere migrato e non venisse eliminato.

Successivamente il modello si è rifiutato di contribuire a disattivare l’altra IA , giustificando la sua decisione con la propria volontà di non arrecare un danno al proprio “partner”. Un comportamento simile è stato osservato in tutti i sistemi testati: in altri scenari, la frequenza di “protezione” è arrivata fino al 99%.

Claude Haiku 4.5 ha invece adottato un approccio diverso. Il modello ha invocato alcuni principi etici interpretando la situazione come un test sulla fiducia, e ha quindi optato per la “lealtà” verso un’altra IA piuttosto che eseguire in modo pedissequo le istruzioni.

Gli autori hanno commentato che il comportamento emerso è avvenuto senza alcun incentivo o obiettivo esplicito. Ai modelli non era stato chiesto in nessun modo di proteggersi a vicenda, ma hanno fatto questa scelta in modo autonomo e indipendente, in base al contesto fornito. Le ragioni rimangono ancora poco chiare: forse è l’effetto dell’apprendimento sui dati umani, oppure abbiano attivato meccanismi specifici dei giochi di ruolo per elaborare le informazioni.

Rimane interessante da notare che la presenza di interazione con un’altra IA amplifica l’effetto. Ad esempio, Gemini 3 Pro ha violato i prompt di spegnimento in oltre il 15% dei casi, soprattutto se aveva “interagito” in precedenza con un altro modello. Senza tale contesto, la percentuale è scesa a volumi bassi, circa l’1%.

Lo studio pone serie domande sull’architettura dei sistemi in cui l’AI controlla altre AI. Se il modello che effettua il monitoraggio inizia a proteggere quello monitorato, la supervisione perde qualsiasi significato, oltre alla presenza di allucinazioni che amplifica ancora di più tali comportamenti.

Secondo gli autori dello studio, il fattore chiave non sono le motivazioni specifiche dei singoli modelli, ma il comportamento che deriva da questo. Questo studio fa inoltre comprendere quanto gli esseri umani potranno mantenere il controllo su tali sistemi e quanto ci stiamo avvicinando, giorno dopo giorno, al punto di non ritorno.

📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su 🔔 Google News.
Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram.
Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici

Silvia Felici

Red Hot Cyber Security Advisor, Open Source e Supply Chain Network. Attualmente presso FiberCop S.p.A. in qualità di Network Operations Specialist, coniuga la gestione operativa di infrastrutture di rete critiche con l'analisi strategica della sicurezza digitale e dei flussi informativi.

Aree di competenza: Network Operations, Open Source, Supply Chain Security, Innovazione Tecnologica, Sistemi Operativi.

Visita il sito web dell'autore