
I ricercatori di Google DeepMind hanno pubblicato una versione aggiornata del loro framework di valutazione del rischio dell’IA, Frontier Safety Framework 3.0. Questo documento esamina come i modelli generativi possano impazzire e rappresentare una minaccia. Considera scenari in cui l’IA ignora i tentativi degli utenti di fermarla.
L’approccio di DeepMind si basa sui cosiddetti “Livelli di Capacità Critica” (Critical Capability Levels, CCL). Si tratta di una scala per valutare il punto in cui il comportamento di un modello diventa pericoloso, ad esempio nella sicurezza informatica o nelle biotecnologie.
Il documento descrive le misure che gli sviluppatori dovrebbero adottare quando i loro sistemi raggiungono un certo livello di rischio.
Avvio delle iscrizioni al corso Cyber Offensive Fundamentals Vuoi smettere di guardare tutorial e iniziare a capire davvero come funziona la sicurezza informatica? La base della sicurezza informatica, al di là di norme e tecnologie, ha sempre un unico obiettivo: fermare gli attacchi dei criminali informatici. Pertanto "Pensa come un attaccante, agisci come un difensore". Ti porteremo nel mondo dell'ethical hacking e del penetration test come nessuno ha mai fatto prima. Per informazioni potete accedere alla pagina del corso oppure contattarci tramite WhatsApp al numero 379 163 8765 oppure scrivendoci alla casella di posta [email protected].
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
I ricercatori citano il potenziale di perdita di peso del modello come una delle principali minacce. Se queste perdite dovessero finire nelle mani di malintenzionati, questi potrebbero disabilitare le limitazioni integrate e utilizzare l’IA per creare malware o persino sviluppare armi biologiche. Un altro rischio è il comportamento manipolativo.
DeepMind avverte che i chatbot potrebbero influenzare la visione del mondo delle persone, sebbene osservi che si tratta di una “minaccia a bassa velocità” che la società sta attualmente affrontando con i propri meccanismi di difesa.
Particolare attenzione viene rivolta all'”IA non coordinata”, ovvero a sistemi che iniziano a ignorare le istruzioni o ad agire contro gli interessi umani. Sono già stati registrati casi di modelli ingannevoli o ostinati.
In futuro, tali sistemi potrebbero sviluppare un efficace “ragionamento simulato”, ma senza passaggi intermedi verificabili. Ciò significa che il monitoraggio dei loro processi diventerà praticamente impossibile.
Attualmente non esistono proposte per una soluzione definitiva a questo problema. DeepMind raccomanda solo di utilizzare il monitoraggio automatizzato per analizzare i risultati intermedi dei modelli e identificare eventuali segnali di incoerenza.
Tuttavia, gli stessi ricercatori riconoscono che si sa ancora troppo poco su come le moderne IA giungano alle loro risposte e che la minaccia potrebbe intensificarsi nei prossimi anni.
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

CulturaDopo aver analizzato nei due articoli precedenti l’inquadramento normativo e il conflitto tra algoritmi e diritti fondamentali è necessario volgere lo sguardo alle ripercussioni che la proposta CSAR avrà sulla competitività digitale dell’Europa e sulla…
VulnerabilitàUna vulnerabilità recentemente risolta permetteva agli aggressori di sfruttare Microsoft Copilot Personal con un semplice clic, al fine di rubare di nascosto dati sensibili degli utenti. Mediante un link di phishing, i malintenzionati erano in…
CulturaWikipedia nacque il 15 gennaio 2001, in un freddo pomeriggio di metà gennaio che nessuno ricorda più davvero più. Jimmy Wales e Larry Sanger decisero di fare un esperimento, uno di quelli che sembrano folli…
CybercrimeNelle prime ore del mattino del 13 gennaio, uno dei principali ospedali del Belgio si è trovato improvvisamente quasi paralizzato. L’AZ Monica, con sedi ad Anversa e Deurne, è stato colpito da un attacco informatico…
CyberpoliticaIl CEO di Cloudflare, Matthew Prince, ha minacciato di chiudere le attività dell’azienda in Italia dopo che l’autorità di regolamentazione delle telecomunicazioni del Paese le ha imposto una multa pari al doppio del suo fatturato…