Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
UtiliaCS 970x120
Fortinet 320x100px
Steganografia e AI: come i modelli linguistici nascondono messaggi nei testi generati

Steganografia e AI: come i modelli linguistici nascondono messaggi nei testi generati

Redazione RHC : 2 Dicembre 2023 22:22

In un nuovo studio, Redwood Research, un laboratorio di ricerca per l’allineamento dell’intelligenza artificiale, ha svelato che i modelli linguistici di grandi dimensioni (LLM) possono padroneggiare il “ragionamento codificato”, una forma di steganografia. 

Questo fenomeno intrigante consente ai LLM di incorporare sottilmente passaggi di ragionamento intermedi all’interno del testo generato in un modo che risulta indecifrabile per i lettori umani. 

I modelli linguistici di grandi dimensioni (LLM) spesso beneficiano di fasi intermedie di ragionamento per generare risposte a problemi complessi. Quando questi passaggi intermedi di ragionamento vengono utilizzati per monitorare l’attività del modello, è essenziale che questo ragionamento esplicito sia fedele, cioè che rifletta ciò su cui effettivamente ragiona il modello.


Rhc Conference Sponsor Program 2

Sponsorizza la prossima Red Hot Cyber Conference!

Il giorno Lunedì 18 maggio e martedì 19 maggio 2026 9 maggio 2026, presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terrà la V edizione della la RHC Conference
Si tratta dell’appuntamento annuale gratuito, creato dalla community di RHC, per far accrescere l’interesse verso le tecnologie digitali, l’innovazione digitale e la consapevolezza del rischio informatico. 
Se sei interessato a sponsorizzare l'evento e a rendere la tua azienda protagonista del più grande evento della Cybersecurity Italiana, non perdere questa opportunità. E ricorda che assieme alla sponsorizzazione della conferenza, incluso nel prezzo, avrai un pacchetto di Branding sul sito di Red Hot Cyber composto da Banner più un numero di articoli che saranno ospitati all'interno del nostro portale. 
Quindi cosa stai aspettando? Scrivici subito a [email protected] per maggiori informazioni e per accedere al programma sponsor e al media Kit di Red Hot Cyber.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

I risultati dello studio indicano che gli LLM possono essere addestrati a sfruttare questo ragionamento codificato per ottenere prestazioni superiori mantenendo l’utente ignaro degli intricati processi di ragionamento in gioco. Man mano che gli LLM continuano ad evolversi e diventano più potenti, è probabile che questo ragionamento codificato emerga in modo naturale, rendendolo ancora più difficile da rilevare.

Tuttavia, il ragionamento codificato potrebbe potenzialmente minare la trasparenza del processo di ragionamento del modello e rendere difficile il monitoraggio del comportamento dei sistemi di intelligenza artificiale.

Una tecnica ampiamente adottata per migliorare la precisione degli LLM è il ragionamento della catena di pensiero (CoT). Questo metodo istruisce il modello a rivelare la sua logica passo dopo passo, portando alla risposta finale. Gli studi dimostrano che in molte attività, il CoT migliora le prestazioni dei LLM e semplifica l’interpretazione dei risultati.

Il gruppo di ricerca sostiene che, man mano che i modelli linguistici si rafforzano, è più probabile che questo comportamento appaia in modo naturale. Infine, descrive una metodologia che consente la valutazione delle difese contro il ragionamento codificato mostrando che, nelle giuste condizioni, la parafrasi impedisce con successo anche ai migliori schemi di codifica.

Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Microsoft 365 va giù: un’anomalia DNS paralizza servizi in tutto il mondo
Di Redazione RHC - 29/10/2025

Una interruzione del servizio DNS è stata rilevata il 29 ottobre 2025 da Microsoft, con ripercussioni sull’accesso ai servizi fondamentali come Microsoft Azure e Microsoft 365. Un’ anomalia è st...

Immagine del sito
183 milioni di account Gmail hackerati! E’ falso: era solo una bufala
Di Redazione RHC - 29/10/2025

Per la seconda volta negli ultimi mesi, Google è stata costretta a smentire le notizie di una massiccia violazione dei dati di Gmail. La notizia è stata scatenata dalle segnalazioni di un “hacking...

Immagine del sito
Tasting the Exploit: HackerHood testa l’Exploit di Microsoft WSUS CVE-2025-59287
Di Manuel Roccon - 29/10/2025

Il panorama della sicurezza informatica è stato recentemente scosso dalla scoperta di una vulnerabilità critica di tipo Remote Code Execution (RCE) nel servizio Windows Server Update Services (WSUS)...

Immagine del sito
Se ricevi una mail che dice che sei morto… è il nuovo phishing contro LastPass
Di Redazione RHC - 29/10/2025

Gli sviluppatori del gestore di password LastPass hanno avvisato gli utenti di una campagna di phishing su larga scala iniziata a metà ottobre 2025. Gli aggressori stanno inviando e-mail contenenti f...

Immagine del sito
ChatGPT Atlas: i ricercatori scoprono come un link può portare al Jailbreak
Di Redazione RHC - 29/10/2025

I ricercatori di NeuralTrust hanno scoperto una vulnerabilità nel browser di ChatGPT Atlas di OpenAI. Questa volta, il vettore di attacco è collegato alla omnibox, la barra in cui gli utenti inseris...