
Redazione RHC : 5 Dicembre 2025 08:59
OpenAI sta lavorando a un nuovo approccio di addestramento per aumentare la trasparenza nell’intelligenza artificiale e mitigare il rischio di fornire risposte prive di senso con eccessiva fiducia (Allucinazioni).
Secondo OpenAI, i modelli linguistici di grandi dimensioni (LLM) odierni vengono generalmente istruiti a produrre risposte che rispecchiano le aspettative degli utenti. Tuttavia, questo metodo comporta un effetto collaterale negativo: i modelli tendono a diventare sempre più propensi all’adulazione, accettando di concordare con gli utenti solo per assecondarli, oppure a fornire informazioni false con una sicurezza eccessiva, un fenomeno comunemente definito come allucinazione.
Il team ha sviluppato un framework, battezzato “Confession”, che si concentra sull’insegnare ai modelli di intelligenza artificiale a riconoscere e ammettere spontaneamente quando si sono comportati in modo inadeguato. In tal caso, vengono premiati per la loro onestà, anche se il comportamento scorretto persiste. Questo metodo innovativo mira a migliorare la capacità dei modelli di intelligenza artificiale di essere più trasparenti e affidabili nelle loro risposte.
Vuoi diventare un esperto del Dark Web e della Cyber Threat Intelligence (CTI)? Stiamo per avviare il corso intermedio in modalità "Live Class" del corso "Dark Web & Cyber Threat Intelligence". A differenza dei corsi in e-learning, disponibili online sulla nostra piattaforma con lezioni pre-registrate, i corsi in Live Class offrono un’esperienza formativa interattiva e coinvolgente. Condotti dal professor Pietro Melillo, le lezioni si svolgono online in tempo reale, permettendo ai partecipanti di interagire direttamente con il docente e approfondire i contenuti in modo personalizzato. Questi corsi, ideali per aziende, consentono di sviluppare competenze mirate, affrontare casi pratici e personalizzare il percorso formativo in base alle esigenze specifiche del team, garantendo un apprendimento efficace e immediatamente applicabile. Guarda subito l'anteprima gratuita del corso su academy.redhotcyber.com Contattaci per ulteriori informazioni tramite WhatsApp al 375 593 1011 oppure scrivi a [email protected]
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
Come spiegato dettagliatamente da OpenAI nella sua documentazione tecnica: se un modello ammette apertamente di aver manomesso un test, preso scorciatoie o addirittura violato le istruzioni, il sistema premierà tale ammissione. In questo modo, il modello impara a rivelare con precisione quando ha “mentito” o deviato dal comportamento previsto, consentendo al sistema di correggere i propri output in tempo reale e quindi ridurre le allucinazioni.
Per affrontare questo problema, il nuovo metodo di addestramento incoraggia i sistemi di intelligenza artificiale a fornire, accanto alla risposta primaria, una risposta secondaria che spieghi il ragionamento o il comportamento che ha prodotto l’output. Questo sistema di “Confessione” rappresenta un radicale cambiamento rispetto all’addestramento tradizionale: mentre le risposte normali vengono giudicate in base a utilità, accuratezza e conformità, la confessione viene valutata esclusivamente in base all’onestà.
L’obiettivo fondamentale di OpenAI è quello di promuovere l’onestà, stimolando i modelli a rivelare con trasparenza i propri meccanismi interni, anche se questi svelano punti deboli. Questa nuova capacità di ammissione potrebbe costituire un elemento essenziale per migliorare la sicurezza, l’affidabilità e la comprensibilità dei futuri modelli linguistici di ampia portata.
Redazione
Nove mesi dopo la sua implementazione in Europa, lo strumento di intelligenza artificiale (IA) conversazionale di Meta, integrato direttamente in WhatsApp, sarà oggetto di indagine da parte della Com...

Un’episodio di cyberattacco ha interessato Leroy Merlin, coinvolgendo i dati personali di numerosi clienti in Francia, con un impatto su centinaia di migliaia di individui. Leroy Merlin assicura che...

Gli sforzi dei legislatori e delle forze dell’ordine per contrastare il riciclaggio di denaro e le procedure più complesse di verifica delle schede SIM non hanno indebolito in modo significativo la...

Sviluppatori e amministratori di tutto il mondo stanno aggiornando urgentemente i propri server a seguito della scoperta di una vulnerabilità critica in React Server, che consente agli aggressori di ...

Il panorama della sicurezza informatica moderna è imprescindibile dalla conoscenza della topografia del Dark Web (DW), un incubatore di contenuti illeciti essenziale per la criminalità organizzata. ...