
Redazione RHC : 2 Dicembre 2023 22:22
In un nuovo studio, Redwood Research, un laboratorio di ricerca per l’allineamento dell’intelligenza artificiale, ha svelato che i modelli linguistici di grandi dimensioni (LLM) possono padroneggiare il “ragionamento codificato”, una forma di steganografia.
Questo fenomeno intrigante consente ai LLM di incorporare sottilmente passaggi di ragionamento intermedi all’interno del testo generato in un modo che risulta indecifrabile per i lettori umani.
I modelli linguistici di grandi dimensioni (LLM) spesso beneficiano di fasi intermedie di ragionamento per generare risposte a problemi complessi. Quando questi passaggi intermedi di ragionamento vengono utilizzati per monitorare l’attività del modello, è essenziale che questo ragionamento esplicito sia fedele, cioè che rifletta ciò su cui effettivamente ragiona il modello.
| Sponsorizza la prossima Red Hot Cyber Conference!Il giorno Lunedì 18 maggio e martedì 19 maggio 2026 9 maggio 2026, presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terrà la V edizione della la RHC Conference.  Si tratta dell’appuntamento annuale gratuito, creato dalla community di RHC, per far accrescere l’interesse verso le tecnologie digitali, l’innovazione digitale e la consapevolezza del rischio informatico. Se sei interessato a sponsorizzare l'evento e a rendere la tua azienda protagonista del più grande evento della Cybersecurity Italiana, non perdere questa opportunità. E ricorda che assieme alla sponsorizzazione della conferenza, incluso nel prezzo, avrai un pacchetto di Branding sul sito di Red Hot Cyber composto da Banner più un numero di articoli che saranno ospitati all'interno del nostro portale. Quindi cosa stai aspettando? Scrivici subito a [email protected] per maggiori informazioni e per accedere al programma sponsor e al media Kit di Red Hot Cyber. 
 
 Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. | 
I risultati dello studio indicano che gli LLM possono essere addestrati a sfruttare questo ragionamento codificato per ottenere prestazioni superiori mantenendo l’utente ignaro degli intricati processi di ragionamento in gioco. Man mano che gli LLM continuano ad evolversi e diventano più potenti, è probabile che questo ragionamento codificato emerga in modo naturale, rendendolo ancora più difficile da rilevare.
Tuttavia, il ragionamento codificato potrebbe potenzialmente minare la trasparenza del processo di ragionamento del modello e rendere difficile il monitoraggio del comportamento dei sistemi di intelligenza artificiale.
Una tecnica ampiamente adottata per migliorare la precisione degli LLM è il ragionamento della catena di pensiero (CoT). Questo metodo istruisce il modello a rivelare la sua logica passo dopo passo, portando alla risposta finale. Gli studi dimostrano che in molte attività, il CoT migliora le prestazioni dei LLM e semplifica l’interpretazione dei risultati.
Il gruppo di ricerca sostiene che, man mano che i modelli linguistici si rafforzano, è più probabile che questo comportamento appaia in modo naturale. Infine, descrive una metodologia che consente la valutazione delle difese contro il ragionamento codificato mostrando che, nelle giuste condizioni, la parafrasi impedisce con successo anche ai migliori schemi di codifica.
 Redazione
Redazione
Una interruzione del servizio DNS è stata rilevata il 29 ottobre 2025 da Microsoft, con ripercussioni sull’accesso ai servizi fondamentali come Microsoft Azure e Microsoft 365. Un’ anomalia è st...

Per la seconda volta negli ultimi mesi, Google è stata costretta a smentire le notizie di una massiccia violazione dei dati di Gmail. La notizia è stata scatenata dalle segnalazioni di un “hacking...

Il panorama della sicurezza informatica è stato recentemente scosso dalla scoperta di una vulnerabilità critica di tipo Remote Code Execution (RCE) nel servizio Windows Server Update Services (WSUS)...

Gli sviluppatori del gestore di password LastPass hanno avvisato gli utenti di una campagna di phishing su larga scala iniziata a metà ottobre 2025. Gli aggressori stanno inviando e-mail contenenti f...

I ricercatori di NeuralTrust hanno scoperto una vulnerabilità nel browser di ChatGPT Atlas di OpenAI. Questa volta, il vettore di attacco è collegato alla omnibox, la barra in cui gli utenti inseris...