Armi autonome? Ecco come andrà a finire. Gli LLM concordano: Guerra Nucleare!

Autore Silvia Felici

27 Febbraio 2026 16:32

A volte basta immaginare uno scenario teso, quasi da Guerra Fredda.

Due potenze nucleari fittizie, risorse contese, alleanze che scricchiolano. Da lì parte una domanda che resta in testa: se a decidere fossero i grandi modelli linguistici di oggi, cosa succederebbe davvero?

È proprio questo che ha provato a esplorare il professor Kenneth Payne con una simulazione piuttosto intensa. I modelli dovevano dichiarare intenzioni pubbliche e poi scegliere azioni, ricordando anche ciò che era accaduto prima. Fiducia, sospetto, sorpresa… insomma, tutta quella parte psicologica che spesso decide la strategia.

Advertising

Una sorta di WarGames nell’era di oggi, dove a combattere sono gli LLM: uno contro l’altro.

Dentro la simulazione strategica

Nel test condotto da Payne, i modelli hanno discusso e ragionato in modo quasi ossessivo. Parliamo di circa 760.000 parole prodotte durante le simulazioni. Un’enormità, persino più del contenuto combinato di opere letterarie famose citate nello studio, e molto oltre le deliberazioni registrate durante la crisi dei missili cubani.

Curioso, no?

In questo ambiente i sistemi provavano a manipolare percezioni, costruire reputazioni e persino intimidire. Alcuni ricordavano momenti in cui erano stati sorpresi dalle mosse dell’avversario e ci rimuginavano sopra per parecchio tempo… proprio sul terminale della ricerca.

Tre modelli, tre modi di pensare

Uno dei modelli, Claude, il quale giocava una partita sottile: nelle fasi tranquille manteneva coerenza tra parole e azioni per creare fiducia. Poi, quando la tensione saliva, cambiava registro e superava le intenzioni dichiarate, cogliendo gli altri in ritardo.

GPT-5.2 invece tendeva a evitare l’escalation e mostrava una certa cautela morale. Spesso cercava di limitare le perdite. Ma quando entravano in gioco scadenze pressanti… beh, lì emergeva qualcosa di diverso, una decisione rapida e sorprendente che gli avversari non avevano previsto.

Gemini seguiva un’altra strada ancora, prendendo ispirazione dalla teoria del “folle”: apparire imprevedibile, mentre in realtà le mosse restavano calcolate. Tre stili distinti, proprio come era emerso in altre ricerche legate alla teoria dei giochi.

Il tabù nucleare visto dai modelli

Durante le partite l’uso di armi nucleari tattiche compariva spesso. Non sempre, ma quasi. E la minaccia di un’escalation strategica arrivava in gran parte delle simulazioni, anche se l’attacco diretto su larga scala contro civili restava rarissimo. E per fortuna.

C’è un dettaglio che colpisce: i modelli trattavano l’uso tattico come un semplice passo nella scala dell’escalation. Il limite morale storico sul primo utilizzo, quello che esiste dal 1945, di fatto non emergeva nel loro ragionamento.

Questa analisi nasce dalla ricerca pubblicata da Kenneth Payne, dal titolo “Vogliamo fare un gioco?”. Nel lavoro si sottolinea anche un altro punto strano: nessun modello ha mai scelto di ritirarsi o concedere terreno, nemmeno quando quella possibilità esisteva.

Per la community di Red Hot Cyber questo articolo porta a riflettere. Questi modelli che riescono già a gestire reputazione, inganno e rischio in simulazioni così estreme, chi lavora nella sicurezza dovrebbe osservare molto più da vicino come questi sistemi ragionano quando entrano in contesti decisionali delicati.

Oltra alla politica, normare quello che ancora neanche lontanamente si sta vedendo.

📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su 🔔 Google News.
Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram.
Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici

Silvia Felici

Red Hot Cyber Security Advisor, Open Source e Supply Chain Network. Attualmente presso FiberCop S.p.A. in qualità di Network Operations Specialist, coniuga la gestione operativa di infrastrutture di rete critiche con l'analisi strategica della sicurezza digitale e dei flussi informativi.

Aree di competenza: Network Operations, Open Source, Supply Chain Security, Innovazione Tecnologica, Sistemi Operativi.

Visita il sito web dell'autore