Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Condividi la tua difesa. Incoraggia l'eccellenza.
La vera forza della cybersecurity risiede
nell'effetto moltiplicatore della conoscenza.
Banner Ransomfeed 970x120 1
HackTheBox 320x100 1
OpenAI sviluppa un nuovo framework per addestrare l’intelligenza artificiale all’onestà

OpenAI sviluppa un nuovo framework per addestrare l’intelligenza artificiale all’onestà

5 Dicembre 2025 08:59

OpenAI sta lavorando a un nuovo approccio di addestramento per aumentare la trasparenza nell’intelligenza artificiale e mitigare il rischio di fornire risposte prive di senso con eccessiva fiducia (Allucinazioni).

Secondo OpenAI, i modelli linguistici di grandi dimensioni (LLM) odierni vengono generalmente istruiti a produrre risposte che rispecchiano le aspettative degli utenti. Tuttavia, questo metodo comporta un effetto collaterale negativo: i modelli tendono a diventare sempre più propensi all’adulazione, accettando di concordare con gli utenti solo per assecondarli, oppure a fornire informazioni false con una sicurezza eccessiva, un fenomeno comunemente definito come allucinazione.

Il team ha sviluppato un framework, battezzato “Confession”, che si concentra sull’insegnare ai modelli di intelligenza artificiale a riconoscere e ammettere spontaneamente quando si sono comportati in modo inadeguato. In tal caso, vengono premiati per la loro onestà, anche se il comportamento scorretto persiste. Questo metodo innovativo mira a migliorare la capacità dei modelli di intelligenza artificiale di essere più trasparenti e affidabili nelle loro risposte.


Cyber Offensive Fundamentale Ethical Hacking 02

Avvio delle iscrizioni al corso Cyber Offensive Fundamentals
Vuoi smettere di guardare tutorial e iniziare a capire davvero come funziona la sicurezza informatica?
La base della sicurezza informatica, al di là di norme e tecnologie, ha sempre un unico obiettivo: fermare gli attacchi dei criminali informatici. Pertanto "Pensa come un attaccante, agisci come un difensore". Ti porteremo nel mondo dell'ethical hacking e del penetration test come nessuno ha mai fatto prima. Per informazioni potete accedere alla pagina del corso oppure contattarci tramite WhatsApp al numero 379 163 8765 oppure scrivendoci alla casella di posta [email protected].


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Come spiegato dettagliatamente da OpenAI nella sua documentazione tecnica: se un modello ammette apertamente di aver manomesso un test, preso scorciatoie o addirittura violato le istruzioni, il sistema premierà tale ammissione. In questo modo, il modello impara a rivelare con precisione quando ha “mentito” o deviato dal comportamento previsto, consentendo al sistema di correggere i propri output in tempo reale e quindi ridurre le allucinazioni.

Per affrontare questo problema, il nuovo metodo di addestramento incoraggia i sistemi di intelligenza artificiale a fornire, accanto alla risposta primaria, una risposta secondaria che spieghi il ragionamento o il comportamento che ha prodotto l’output. Questo sistema di “Confessione” rappresenta un radicale cambiamento rispetto all’addestramento tradizionale: mentre le risposte normali vengono giudicate in base a utilità, accuratezza e conformità, la confessione viene valutata esclusivamente in base all’onestà.

L’obiettivo fondamentale di OpenAI è quello di promuovere l’onestà, stimolando i modelli a rivelare con trasparenza i propri meccanismi interni, anche se questi svelano punti deboli. Questa nuova capacità di ammissione potrebbe costituire un elemento essenziale per migliorare la sicurezza, l’affidabilità e la comprensibilità dei futuri modelli linguistici di ampia portata.

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Cropped RHC 3d Transp2 1766828557 300x300
La redazione di Red Hot Cyber è composta da professionisti del settore IT e della sicurezza informatica, affiancati da una rete di fonti qualificate che operano anche in forma riservata. Il team lavora quotidianamente nell’analisi, verifica e pubblicazione di notizie, approfondimenti e segnalazioni su cybersecurity, tecnologia e minacce digitali, con particolare attenzione all’accuratezza delle informazioni e alla tutela delle fonti. Le informazioni pubblicate derivano da attività di ricerca diretta, esperienza sul campo e contributi provenienti da contesti operativi nazionali e internazionali.

Articoli in evidenza

Immagine del sitoCyberpolitica
Cloudflare minaccia di chiudere in Italia per una multa milionaria. Ma la verità dove sta?
Redazione RHC - 14/01/2026

Il CEO di Cloudflare, Matthew Prince, ha minacciato di chiudere le attività dell’azienda in Italia dopo che l’autorità di regolamentazione delle telecomunicazioni del Paese le ha imposto una multa pari al doppio del suo fatturato…

Immagine del sitoCybercrime
Orion Leaks: Erede Legittimo o “Scavenger” nell’Ombra di LockBit?
Raffaela Crisci - 14/01/2026

Un’analisi approfondita sulle connessioni infrastrutturali del gruppo emergente Orion Leaks e il suo possibile legame con l’ex gigante LockBit RaaS. Negli ultimi mesi, a seguito dell’Operazione Cronos, condotta da agenzie internazionali per smantellare l’infrastruttura e…

Immagine del sitoCybercrime
Morte on demand: le reti digitali che trasformano i ragazzi e i disabili in killer
Redazione RHC - 13/01/2026

Negli ultimi mesi si sta parlando sempre più spesso di un cambio di paradigma nel cybercrime. Quello che per anni è stato percepito come un ecosistema prevalentemente digitale — fatto di frodi, furti di identità,…

Immagine del sitoCybercrime
Basta un riavvio: il trucco che spegne Windows Defender prima ancora che parta
Redazione RHC - 13/01/2026

A volte, per disattivare la protezione di Windows non è necessario attaccare direttamente l’antivirus. È sufficiente impedirne il corretto avvio. Un ricercatore che si fa chiamare Two Seven One Three (TwoSevenOneT) ha pubblicato su GitHub…

Immagine del sitoCultura
La mente dietro le password: Errore umano? No, un legame che non c’è. Puntata 4
Simone D'Agostino - 13/01/2026

Quando la sicurezza fallisce prima ancora dell’errore Questo testo nasce dall’esperienza diretta, maturata osservando nel tempo numerosi casi di frodi e incidenti informatici, in cui il fattore umano nella sicurezza è stato l’elemento che ha…