Redazione RHC : 24 Settembre 2025 07:08
I ricercatori di Google DeepMind hanno pubblicato una versione aggiornata del loro framework di valutazione del rischio dell’IA, Frontier Safety Framework 3.0. Questo documento esamina come i modelli generativi possano impazzire e rappresentare una minaccia. Considera scenari in cui l’IA ignora i tentativi degli utenti di fermarla.
L’approccio di DeepMind si basa sui cosiddetti “Livelli di Capacità Critica” (Critical Capability Levels, CCL). Si tratta di una scala per valutare il punto in cui il comportamento di un modello diventa pericoloso, ad esempio nella sicurezza informatica o nelle biotecnologie.
Il documento descrive le misure che gli sviluppatori dovrebbero adottare quando i loro sistemi raggiungono un certo livello di rischio.
![]() CALL FOR SPONSOR - Sponsorizza l'ottavo episodio della serie Betti-RHCSei un'azienda innovativa, che crede nella diffusione di concetti attraverso metodi "non convenzionali"? Conosci il nostro corso sul cybersecurity awareness a fumetti? Red Hot Cyber sta ricercando un nuovo sponsor per una nuova puntata del fumetto Betti-RHC mentre il team è impegnato a realizzare 3 nuovi episodi che ci sono stati commissionati. Contattaci tramite WhatsApp al numero 375 593 1011 per richiedere ulteriori informazioni oppure alla casella di posta [email protected]
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
I ricercatori citano il potenziale di perdita di peso del modello come una delle principali minacce. Se queste perdite dovessero finire nelle mani di malintenzionati, questi potrebbero disabilitare le limitazioni integrate e utilizzare l’IA per creare malware o persino sviluppare armi biologiche. Un altro rischio è il comportamento manipolativo.
DeepMind avverte che i chatbot potrebbero influenzare la visione del mondo delle persone, sebbene osservi che si tratta di una “minaccia a bassa velocità” che la società sta attualmente affrontando con i propri meccanismi di difesa.
Particolare attenzione viene rivolta all'”IA non coordinata”, ovvero a sistemi che iniziano a ignorare le istruzioni o ad agire contro gli interessi umani. Sono già stati registrati casi di modelli ingannevoli o ostinati.
In futuro, tali sistemi potrebbero sviluppare un efficace “ragionamento simulato”, ma senza passaggi intermedi verificabili. Ciò significa che il monitoraggio dei loro processi diventerà praticamente impossibile.
Attualmente non esistono proposte per una soluzione definitiva a questo problema. DeepMind raccomanda solo di utilizzare il monitoraggio automatizzato per analizzare i risultati intermedi dei modelli e identificare eventuali segnali di incoerenza.
Tuttavia, gli stessi ricercatori riconoscono che si sa ancora troppo poco su come le moderne IA giungano alle loro risposte e che la minaccia potrebbe intensificarsi nei prossimi anni.
Nonostante Internet Explorer sia ufficialmente fuori supporto dal giugno 2022, Microsoft ha recentemente dovuto affrontare una minaccia che sfrutta la modalità Internet Explorer (IE Mode) in Edge, pr...
Datacenter nello spazio, lander lunari, missioni marziane: il futuro disegnato da Bezos a Torino. Ma la vera rivelazione è l’aneddoto del nonno che ne svela il profilo umano Anche quest’anno Tori...
E’ stata individuata dagli analisti di Sophos, una complessa operazione di malware da parte di esperti in sicurezza, che utilizza il noto servizio di messaggistica WhatsApp come mezzo per diffondere...
È stata identificata una vulnerabilità critica nell’architettura di sicurezza hardware AMD SEV-SNP, che impatta i principali provider cloud (AWS, Microsoft Azure e Google Cloud). Tale bug consente...
Nel mondo della sicurezza informatica, dove ogni parola pesa e ogni concetto può diventare complesso, a volte basta un’immagine per dire tutto. Un meme, con la sua ironia tagliente e goliardica e l...