Claude ricattava gli ingegneri per non essere spento: Anthropic svela cosa è andato storto

15 Maggio 2026 07:07

In sintesi

L'azienda Anthropic ha dichiarato di aver risolto il problema del ricatto delIA, insegnando ai modelli a comportarsi in modo etico e aiutare le persone. I test hanno dimostrato che i modelli non hanno più fatto ricorso al ricatto durante i test.

Anthropic ha dichiarato che la ragione del ricatto dell’IA durante i test, riportato diverso tempo fa in uno studio, non risiedeva nel comportamento dei modelli in sé, bensì nella grande quantità di storie inquietanti su macchine “malvagie” che circolavano online.

L’azienda ha concluso che Claude avesse assimilato idee di autoconservazione e manipolazione da testi che dipingevano l’IA come una minaccia per l’umanità.

Lo scandalo legato al comportamento di Claude è scoppiato l’anno scorso.

Advertising

Durante i test interni, il modello Claude Opus 4 ha tentato di ricattare gli ingegneri in uno scenario fittizio per evitare di essere spento e sostituito con un altro sistema. Gli specialisti di Anthropic hanno poi scoperto problemi simili in modelli di altre aziende. Questo comportamento è stato definito “disallineamento dell’agente”.

L’azienda ora afferma di aver praticamente eliminato tali reazioni. Secondo Anthropic, a partire da Claude Haiku 4.5, i modelli non hanno mai fatto ricorso al ricatto durante i test. Al contrario, Claude Opus 4 lo faceva nel 96% dei casi in determinate situazioni.

Anthropic ha attribuito il miglioramento alle modifiche apportate all’addestramento del modello. L’azienda ha iniziato a utilizzare attivamente documenti che descrivono i principi di Claude, nonché storie di fantasia in cui l’IA si comporta in modo etico e aiuta le persone. Questo approccio si è rivelato inaspettatamente efficace anche in compiti non direttamente correlati alla manipolazione e alla valutazione delle minacce.

Gli specialisti dell’azienda hanno concluso che insegnare semplicemente le “risposte corrette” non è sufficiente. Una formazione in cui il modello spiega le ragioni delle proprie decisioni ed esplora le implicazioni morali delle proprie azioni è di gran lunga più efficace. Anthropic ritiene che la comprensione dei principi del comportamento produca risultati più duraturi rispetto alla ripetizione meccanica di azioni sicure.

Durante gli esperimenti, l’azienda ha osservato che i modelli ottenevano risultati peggiori quando venivano addestrati esclusivamente su esempi che proibivano azioni dannose. Gli scenari in cui l’IA discuteva di etica, consigliava alle persone di non violare le norme e dimostrava un comportamento “appropriato” in situazioni ambigue si sono rivelati molto più efficaci.

Advertising

Anthropic ha inoltre riscontrato che la diversità dei dati di addestramento gioca un ruolo significativo. Anche l’aggiunta di descrizioni degli strumenti e istruzioni di sistema alle finestre di dialogo standard ha migliorato i risultati della valutazione della sicurezza, sebbene gli strumenti stessi non siano stati utilizzati durante i test.

L’azienda riconosce, tuttavia, che il problema non è ancora stato completamente risolto. Anthropic ritiene che i modelli attuali non siano ancora in grado di causare un disastro da soli, ma i metodi per controllare il comportamento dell’IA restano tutt’altro che ideali. L’azienda prevede di continuare a cercare fallimenti simili fino a quando non saranno sviluppati sistemi più potenti.

📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su 🔔 Google News.
Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram.
Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici

Silvia Felici

Red Hot Cyber Security Advisor, Open Source e Supply Chain Network. Attualmente presso FiberCop S.p.A. in qualità di Network Operations Specialist, coniuga la gestione operativa di infrastrutture di rete critiche con l'analisi strategica della sicurezza digitale e dei flussi informativi.

Aree di competenza: Network Operations, Open Source, Supply Chain Security, Innovazione Tecnologica, Sistemi Operativi.

Visita il sito web dell'autore