Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca

Steganografia e AI: come i modelli linguistici nascondono messaggi nei testi generati

Redazione RHC : 2 Dicembre 2023 22:22

In un nuovo studio, Redwood Research, un laboratorio di ricerca per l’allineamento dell’intelligenza artificiale, ha svelato che i modelli linguistici di grandi dimensioni (LLM) possono padroneggiare il “ragionamento codificato”, una forma di steganografia. 

Questo fenomeno intrigante consente ai LLM di incorporare sottilmente passaggi di ragionamento intermedi all’interno del testo generato in un modo che risulta indecifrabile per i lettori umani. 

I modelli linguistici di grandi dimensioni (LLM) spesso beneficiano di fasi intermedie di ragionamento per generare risposte a problemi complessi. Quando questi passaggi intermedi di ragionamento vengono utilizzati per monitorare l’attività del modello, è essenziale che questo ragionamento esplicito sia fedele, cioè che rifletta ciò su cui effettivamente ragiona il modello.


Sei un Esperto di Formazione?
Entra anche tu nel Partner program! Accedi alla sezione riservata ai Creator sulla nostra Academy e scopri i vantaggi riservati ai membri del Partner program.

Contattaci tramite WhatsApp al 375 593 1011 per richiedere ulteriori informazioni oppure scriviti alla casella di posta [email protected]



Supporta RHC attraverso:


Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.


I risultati dello studio indicano che gli LLM possono essere addestrati a sfruttare questo ragionamento codificato per ottenere prestazioni superiori mantenendo l’utente ignaro degli intricati processi di ragionamento in gioco. Man mano che gli LLM continuano ad evolversi e diventano più potenti, è probabile che questo ragionamento codificato emerga in modo naturale, rendendolo ancora più difficile da rilevare.

Tuttavia, il ragionamento codificato potrebbe potenzialmente minare la trasparenza del processo di ragionamento del modello e rendere difficile il monitoraggio del comportamento dei sistemi di intelligenza artificiale.

Una tecnica ampiamente adottata per migliorare la precisione degli LLM è il ragionamento della catena di pensiero (CoT). Questo metodo istruisce il modello a rivelare la sua logica passo dopo passo, portando alla risposta finale. Gli studi dimostrano che in molte attività, il CoT migliora le prestazioni dei LLM e semplifica l’interpretazione dei risultati.

Il gruppo di ricerca sostiene che, man mano che i modelli linguistici si rafforzano, è più probabile che questo comportamento appaia in modo naturale. Infine, descrive una metodologia che consente la valutazione delle difese contro il ragionamento codificato mostrando che, nelle giuste condizioni, la parafrasi impedisce con successo anche ai migliori schemi di codifica.

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

La verità scomoda sul lavoro e l’AI: il 99% lotta, l’1% vince

L’11 luglio, ora locale, è stato rivelato che Google DeepMind aveva “reclutato” con successo il team principale della startup di intelligenza artificiale Windsurf. Non molto ...

Alla scoperta di Scattered Spider: la minaccia criminale che utilizza tattiche e tecniche avanzate

A cura del Cyber Defence Center Maticmind (Andrea Mariucci, Riccardo Michetti, Federico Savastano, Ada Spinelli) Il threat actor SCATTERED SPIDER, UNC9344 fa la sua comparsa nel 2022, con due attacchi...

DDoS sotto controllo: come l’Italia ha imparato a difendersi dagli attacchi degli hacktivisti

In seguito alla conferenza per la ricostruzione dell’Ucraina gli hacktivisti del gruppo russofono di NoName(057)16 hanno avviato una nuova campagna di attacchi DDoS con obiettivo diversi target...

NoName057(16) sferra nuovi attacchi DDoS contro organizzazioni italiane e avverte su Telegram

Questa mattina, gli hacker di NoName057(16) hanno sferrato attacchi DDoS contro diversi obiettivi italiani. Name057(16) è un gruppo di hacker che si è dichiarato a m...

Tasting the Exploit: HackerHood testa l’exploit su Wing FTP Server del CVE-2025-47812 da Score 10

Questo strumento è destinato esclusivamente a scopi didattici e di penetration testing autorizzati. L’autore non si assume alcuna responsabilità per eventuali usi impropri o dann...