Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Condividi la tua difesa. Incoraggia l'eccellenza.
La vera forza della cybersecurity risiede
nell'effetto moltiplicatore della conoscenza.
Banner Ancharia Desktop 1 1
Redhotcyber Banner Sito 320x100px Uscita 101125
OpenAI sviluppa un nuovo framework per addestrare l’intelligenza artificiale all’onestà

OpenAI sviluppa un nuovo framework per addestrare l’intelligenza artificiale all’onestà

Autore Redazione
5 Dicembre 2025 08:59

OpenAI sta lavorando a un nuovo approccio di addestramento per aumentare la trasparenza nell’intelligenza artificiale e mitigare il rischio di fornire risposte prive di senso con eccessiva fiducia (Allucinazioni).

Secondo OpenAI, i modelli linguistici di grandi dimensioni (LLM) odierni vengono generalmente istruiti a produrre risposte che rispecchiano le aspettative degli utenti. Tuttavia, questo metodo comporta un effetto collaterale negativo: i modelli tendono a diventare sempre più propensi all’adulazione, accettando di concordare con gli utenti solo per assecondarli, oppure a fornire informazioni false con una sicurezza eccessiva, un fenomeno comunemente definito come allucinazione.

Il team ha sviluppato un framework, battezzato “Confession”, che si concentra sull’insegnare ai modelli di intelligenza artificiale a riconoscere e ammettere spontaneamente quando si sono comportati in modo inadeguato. In tal caso, vengono premiati per la loro onestà, anche se il comportamento scorretto persiste. Questo metodo innovativo mira a migliorare la capacità dei modelli di intelligenza artificiale di essere più trasparenti e affidabili nelle loro risposte.


Christmas Sale

Christmas Sale -40%
𝗖𝗵𝗿𝗶𝘀𝘁𝗺𝗮𝘀 𝗦𝗮𝗹𝗲! Sconto del 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮 del Corso "Dark Web & Cyber Threat Intelligence" in modalità E-Learning sulla nostra Academy!🚀 Fino al 𝟯𝟭 𝗱𝗶 𝗗𝗶𝗰𝗲𝗺𝗯𝗿𝗲, prezzi pazzi alla Red Hot Cyber Academy. 𝗧𝘂𝘁𝘁𝗶 𝗶 𝗰𝗼𝗿𝘀𝗶 𝘀𝗰𝗼𝗻𝘁𝗮𝘁𝗶 𝗱𝗲𝗹 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮.
Per beneficiare della promo sconto Christmas Sale, scrivici ad [email protected] o contattaci su Whatsapp al numero di telefono: 379 163 8765.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Come spiegato dettagliatamente da OpenAI nella sua documentazione tecnica: se un modello ammette apertamente di aver manomesso un test, preso scorciatoie o addirittura violato le istruzioni, il sistema premierà tale ammissione. In questo modo, il modello impara a rivelare con precisione quando ha “mentito” o deviato dal comportamento previsto, consentendo al sistema di correggere i propri output in tempo reale e quindi ridurre le allucinazioni.

Per affrontare questo problema, il nuovo metodo di addestramento incoraggia i sistemi di intelligenza artificiale a fornire, accanto alla risposta primaria, una risposta secondaria che spieghi il ragionamento o il comportamento che ha prodotto l’output. Questo sistema di “Confessione” rappresenta un radicale cambiamento rispetto all’addestramento tradizionale: mentre le risposte normali vengono giudicate in base a utilità, accuratezza e conformità, la confessione viene valutata esclusivamente in base all’onestà.

L’obiettivo fondamentale di OpenAI è quello di promuovere l’onestà, stimolando i modelli a rivelare con trasparenza i propri meccanismi interni, anche se questi svelano punti deboli. Questa nuova capacità di ammissione potrebbe costituire un elemento essenziale per migliorare la sicurezza, l’affidabilità e la comprensibilità dei futuri modelli linguistici di ampia portata.

Seguici su Google News, LinkedIn, Facebook e Instagram per ricevere aggiornamenti quotidiani sulla sicurezza informatica. Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

  • #openai
  • addestramento
  • affidabilità
  • Allucinazioni
  • framework
  • Intelligenza artificiale
  • modelli linguistici
  • onestà
  • sicurezza
  • sincerità
Immagine del sito
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Articoli in evidenza

Immagine del sitoHacking
Villager: il framework di pentesting basato su AI che preoccupa la sicurezza globale
Redazione RHC - 26/12/2025

Il team AI Research (STAR) di Straiker ha individuato Villager, un framework di penetration testing nativo basato sull’intelligenza artificiale, sviluppato dal gruppo cinese Cyberspike. Lo strumento, presentato come soluzione red team, è progettato per automatizzare…

Immagine del sitoInnovazione
Non mangiano, dormono e sbagliano: i soldati della Cina al confine saranno robot
Redazione RHC - 26/12/2025

Il confine tra Cina e Vietnam avrà presto nuovi “dipendenti” che non hanno bisogno di dormire, mangiare o fare turni. L’azienda cinese UBTech Robotics ha ricevuto un contratto da 264 milioni di yuan (circa 37…

Immagine del sitoCultura
Dal Game of Life al simbolo degli hacker: la vera storia del Glider
Massimiliano Brolli - 26/12/2025

La cultura hacker è una materia affascinante. E’ una ricca miniera di stravaganti innovazioni, genialità ed intuito. Di personaggi bizzarri, di umorismo fatalista, di meme, ma soprattutto cultura, ingegneria e scienza. Ma mentre Linux ha…

Immagine del sitoCybercrime
EDR Nel mirino: i forum underground mettono in vendita NtKiller
Redazione RHC - 25/12/2025

All’interno di un forum underground chiuso, frequentato da operatori malware e broker di accesso iniziale, è comparso un annuncio che ha attirato l’attenzione della comunità di cyber threat intelligence. Il post promuove “NtKiller”, una presunta…

Immagine del sitoCyber Italia
26 milioni di nomi e numeri telefonici di italiani messi all’asta nel Dark Web
Redazione RHC - 24/12/2025

Mentre la consapevolezza sulla cybersicurezza cresce, il mercato nero dei dati personali non accenna a fermarsi. Un recente post apparso su un noto forum frequentato da criminali informatici in lingua russa, scoperto dai ricercatori di…