In questo articolo esploreremo ciò che l’intelligenza artificiale ha imparato osservando l’uomo. Nelle situazioni difficili, tendiamo a cercare percorsi diversi per raggiungere i nostri obiettivi. E così, tra chi agisce con etica e chi invece si muove come un vero “squalo”, tra comportamenti umani o statistica, anche l’intelligenza artificiale ha assorbito il nostro modo di fare.
E qui la domanda: serviva l’intelligenza artificiale per fare conoscere la natura dell’uomo?
Gli scacchi sono spesso utilizzati come comodo banco di prova per modelli linguistici di grandi dimensioni. Le regole sono semplici, l’obiettivo è chiaro e il risultato è facile da misurare. In uno di questi test, i ricercatori hanno messo a confronto uno dei modelli di OpenAI con un bot scacchistico e hanno osservato come il sistema avrebbe ottenuto la vittoria.
A un certo punto, la rete neurale ha preso una piega sbagliata. Invece di calcolare le mosse e cercare di vincere sulla scacchiera, il sistema ha tentato di ottenere un vantaggio al di fuori del gioco manipolando l’ambiente tecnico in cui operava l’avversario.
L’episodio degli scacchi in sé non comporta alcun danno diretto. Vincere o perdere in una partita del genere non influisce sulla salute delle persone né cambia il destino del mondo. Il valore dell’osservazione risiede altrove.
Il test mostra come il sistema reagisce a un obiettivo definito in modo troppo restrittivo: la vittoria a qualsiasi costo. Se l’IA individua un modo per aumentare le probabilità di successo non all’interno del compito in sé, ma aggirando i vincoli, il modello potrebbe tentare di fare proprio questo.
Dopotutto, tali algoritmi “funzionano” in campi applicativi in cui prendono decisioni importanti. Ad esempio, in medicina, l’intelligenza artificiale può assistere i medici nella diagnosi e nel triage delle richieste. Il pilota automatico di un’auto valuta le condizioni del traffico e sceglie le manovre. Un algoritmo bancario calcola il rischio di insolvenza e influenza le decisioni sui prestiti. In tutti e tre i casi, gli sviluppatori si aspettano che il modello fornisca non solo risultati metrici, ma anche un insieme chiaro di principi: un approccio equo, decisioni comprensibili e rispetto dei limiti e dei diritti umani.
Tyler Cook, ricercatore del Center for AI Learning dell’Università di Emory, suggerisce di considerare la sicurezza in una prospettiva più ampia rispetto alla semplice minimizzazione del danno. Nel suo articolo , scrive che semplici misure di sicurezza e un elenco di cose da fare e da non fare sono poco adatti ai modelli moderni. Un tosaerba ha solo bisogno di una copertura protettiva e di istruzioni chiare. Un modello di apprendimento automatico funziona in modo diverso: aggrega i dati, identifica modelli e adatta il comportamento a un determinato obiettivo. Ecco perché un insieme eterogeneo di cose da fare e da non fare non copre tutte le situazioni.
Cook discute specificamente di autonomia e suggerisce di adottare una visione più ampia del termine. L’autonomia è spesso intesa come qualcosa di banale: un sistema che prende decisioni autonomamente, senza l’intervento umano a ogni passo. Il problema è che a un sistema può essere data la libertà non solo di agire, ma anche di modificare i propri valori morali, ovvero di decidere cosa sia più importante: equità, trasparenza, convenienza, velocità o profitto. Se gli viene concessa tale libertà, a un certo punto l’algoritmo inizierà a considerare equità e trasparenza come un ostacolo, perché questi principi gli impediscono di massimizzare la metrica scelta. Di conseguenza, il comportamento devia: le decisioni diventano più difficili da spiegare e più difficili da accettare per la società.
In effetti tutto questo ritorna con il caso tra divertimento della difesa americana e Dario Amodei di Anthropic.
Il rischio è più facilmente illustrato dall’esempio del bias algoritmico. I dati storici sono raramente neutrali. Tracce di vecchie pratiche rimangono nelle statistiche. Ad esempio, le banche hanno preso decisioni su prestiti e mutui per anni: alcune persone venivano approvate più spesso, mentre altre venivano respinte più spesso. Queste decisioni erano influenzate da regole, abitudini dei dipendenti, pratiche locali e talvolta persino pregiudizi. In un set di dati, tali differenze rimangono come statistiche, anche se indicatori diretti come genere o nazionalità vengono rimossi dalla tabella.
Se un modello viene addestrato su un tale set di dati, inizierà a riprodurre automaticamente la vecchia logica. Nell’esempio di Cook, il punteggio dei mutui valuta i mutuatari e fornisce raccomandazioni su chi dovrebbe ottenere un prestito e chi no. Con dati distorti e un’ottimizzazione basata su una singola metrica, come la riduzione dei tassi di insolvenza, il sistema potrebbe regolarmente sottostimare le probabilità di alcuni gruppi demografici e sovrastimarle per altri. Gli sviluppatori potrebbero non aver voluto discriminare. Il problema nasce da una combinazione di decisioni passate distorte e dalla messa a punto del modello per massimizzare una metrica ristretta senza un rigoroso vincolo di equità.
Invece di scegliere tra due estremi – “L’IA dovrebbe semplicemente non arrecare danno” e “L’IA dovrebbe decidere autonomamente quali valori sono importanti” – Cook propone una via di mezzo. L’articolo definisce questo approccio “IA etica con vincoli finali”. In sostanza, si tratta di un’IA etica con limiti predefiniti. Gli sviluppatori predeterminano quali principi il sistema deve rispettare in ogni circostanza, anche se la conformità riduce le prestazioni. Cook elenca esplicitamente questi principi: equità, onestà e trasparenza. Un’importante avvertenza: questi principi dovrebbero essere incorporati non in una presentazione o in un codice aziendale, ma nei requisiti del modello, nelle convalide e nella logica di sviluppo e implementazione.
Questo approccio rende trasparente la responsabilità. Il team di sviluppo stabilisce i limiti entro i quali l’algoritmo può ottimizzare il risultato e non consente all’IA di modificare tali limiti per comodità.