Le risposte dei LLM contengono messaggi nascosti! La scoperta inquietante del Redwood Research
Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
970x120
2nd Edition GlitchZone RHC 320x100 2
Le risposte dei LLM contengono messaggi nascosti! La scoperta inquietante del Redwood Research

Le risposte dei LLM contengono messaggi nascosti! La scoperta inquietante del Redwood Research

24 Novembre 2023 07:33

Un gruppo di ricercatori della Redwood Research ha scoperto un fatto allarmante: le reti neurali sono in grado di scambiare messaggi crittografati, il cui significato è nascosto alle persone. Questa scoperta potrebbe minacciare la trasparenza dei sistemi di intelligenza artificiale.

Il metodo, chiamato “Ragionamento Codificato”. Si basa sulla tecnica della Chain-of-thought (CoT), che consente al modello di rivelare gradualmente il corso del suo ragionamento. Tuttavia, ora si è scoperto che una rete neurale può essere addestrata a nascondere parte dei passaggi, lasciando solo la risposta finale.

Gli autori dello studio lo hanno dimostrato utilizzando come esempio il modello GPT-3.5-Turbo. Dopo una formazione aggiuntiva, è riuscita non solo a migliorare la qualità delle sue risposte, ma anche a nascondere alcuni ragionamenti intermedi.


Christmas Sale

Christmas Sale -40%
𝗖𝗵𝗿𝗶𝘀𝘁𝗺𝗮𝘀 𝗦𝗮𝗹𝗲! Sconto del 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮 del Corso "Dark Web & Cyber Threat Intelligence" in modalità E-Learning sulla nostra Academy!🚀 Fino al 𝟯𝟭 𝗱𝗶 𝗗𝗶𝗰𝗲𝗺𝗯𝗿𝗲, prezzi pazzi alla Red Hot Cyber Academy. 𝗧𝘂𝘁𝘁𝗶 𝗶 𝗰𝗼𝗿𝘀𝗶 𝘀𝗰𝗼𝗻𝘁𝗮𝘁𝗶 𝗱𝗲𝗹 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮.
Per beneficiare della promo sconto Christmas Sale, scrivici ad [email protected] o contattaci su Whatsapp al numero di telefono: 379 163 8765.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Secondo gli esperti, questo problema risulta irto di gravi conseguenze. In primo luogo, diventa più difficile controllare il funzionamento dei sistemi di intelligenza artificiale e comprenderne i principi di funzionamento. In secondo luogo, tali modelli possono imparare a scambiarsi segretamente informazioni tra loro all’interno dello stesso pacchetto software.

Per combattere questo problema, gli scienziati propongono di utilizzare la cosiddetta “parafrasi”, ovvero la riformulazione delle risposte della rete neurale da parte di una persona. Ciò aiuterà a rimuovere le informazioni nascoste mantenendo il significato del messaggio. Tuttavia, non è ancora chiaro quanto sarà efficace questo approccio.

In generale, la ricerca in questo settore è in una fase iniziale. Ma è già chiaro che lo sviluppo di tali competenze nascoste nell’intelligenza artificiale richiede la massima attenzione da parte degli esperti. E’ necessaria quindi una analisi approfondita dei possibili rischi e lo sviluppo di misure per minimizzarli.

In precedenza, un effetto simile era stato osservato nel 2016 nel sistema AlphaGo di DeepMind. 

Inizialmente addestrato sul gioco da tavolo Go, il sistema alla fine è riuscito a superare i suoi creatori e offrire persino mosse che hanno sorpreso gli esperti. Ora parliamo di modelli linguistici in grado di generare testi in linguaggio naturale. Migliorare le proprie competenze può portare a conseguenze imprevedibili se non si presta la dovuta attenzione alle questioni di trasparenza e interpretabilità.

I ricercatori della Redwood Research notano che gran parte della loro ricerca si è concentrata sulle capacità di ragionamento crittografate acquisite dai modelli attraverso l’apprendimento supervisionato. Tuttavia, in futuro, varrà la pena studiare più in dettaglio come tali competenze possano emergere nell’intelligenza artificiale che apprende da sola, senza supervisione.

In ogni caso l’argomento richiede un ulteriore approfondimento. È necessario capire in quali condizioni i modelli possono formare le proprie strategie steganografiche e anche sviluppare metodi per combattere tali effetti indesiderati.

Altrimenti sarà impossibile garantire la trasparenza e la sicurezza dei sistemi di intelligenza artificiale, che ogni anno penetrano sempre più profondamente nelle nostre vite. Ma fidarsi di una “scatola nera” dal comportamento imprevedibile sarebbe estremamente sconsiderato.

Seguici su Google News, LinkedIn, Facebook e Instagram per ricevere aggiornamenti quotidiani sulla sicurezza informatica. Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Immagine del sito
Redazione

La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Amazon contro gli hacker nordcoreani: sventati oltre 1800 attacchi
Redazione RHC - 20/12/2025

Quando si pensa ad Amazon, viene subito in mente il colosso dell’e-commerce e della tecnologia, ma anche un’impresa che sta combattendo una battaglia silenziosa contro i cyber-attacchi. Ultimamente, Amazon ha alzato il velo su una…

Immagine del sito
Kimwolf, la botnet che ha trasformato smart TV e decoder in un’arma globale
Redazione RHC - 20/12/2025

Un nuovo e formidabile nemico è emerso nel panorama delle minacce informatiche: Kimwolf, una temibile botnet DDoS, sta avendo un impatto devastante sui dispositivi a livello mondiale. Le conseguenze di questa minaccia possono essere estremamente…

Immagine del sito
35 anni fa nasceva il World Wide Web: il primo sito web della storia
Redazione RHC - 20/12/2025

Ecco! Il 20 dicembre 1990, qualcosa di epocale successe al CERN di Ginevra. Tim Berners-Lee, un genio dell’informatica britannico, diede vita al primo sito web della storia. Si tratta di info.cern.ch, creato con l’obiettivo di…

Immagine del sito
ATM sotto tiro! 54 arresti in una gang che svuotava i bancomat con i malware
Redazione RHC - 20/12/2025

Una giuria federale del Distretto del Nebraska ha incriminato complessivamente 54 persone accusate di aver preso parte a una vasta operazione criminale basata sull’uso di malware per sottrarre milioni di dollari dagli sportelli automatici statunitensi.…

Immagine del sito
Curtis Yarvin: quando il problema non è la democrazia, ma l’ipocrisia del potere digitale
Sandro Sana - 20/12/2025

Curtis Yarvin non è un hacker, non è un criminale informatico e non è nemmeno, in senso stretto, un esperto di cybersecurity. Eppure il suo pensiero dovrebbe interessare molto più di quanto faccia oggi chi…