Red Hot Cyber
La cybersecurity è condivisione. Riconosci il rischio, combattilo, condividi le tue esperienze ed incentiva gli altri a fare meglio di te.
Cerca
Red Hot Cyber Academy

Le risposte dei LLM contengono messaggi nascosti! La scoperta inquietante del Redwood Research

Redazione RHC : 24 Novembre 2023 07:33

Un gruppo di ricercatori della Redwood Research ha scoperto un fatto allarmante: le reti neurali sono in grado di scambiare messaggi crittografati, il cui significato è nascosto alle persone. Questa scoperta potrebbe minacciare la trasparenza dei sistemi di intelligenza artificiale.

Il metodo, chiamato “Ragionamento Codificato”. Si basa sulla tecnica della Chain-of-thought (CoT), che consente al modello di rivelare gradualmente il corso del suo ragionamento. Tuttavia, ora si è scoperto che una rete neurale può essere addestrata a nascondere parte dei passaggi, lasciando solo la risposta finale.

Gli autori dello studio lo hanno dimostrato utilizzando come esempio il modello GPT-3.5-Turbo. Dopo una formazione aggiuntiva, è riuscita non solo a migliorare la qualità delle sue risposte, ma anche a nascondere alcuni ragionamenti intermedi.


Sei un Esperto di Formazione?
Entra anche tu nel Partner program! Accedi alla sezione riservata ai Creator sulla nostra Academy e scopri i vantaggi riservati ai membri del Partner program.

Contattaci tramite WhatsApp al 375 593 1011 per richiedere ulteriori informazioni oppure scriviti alla casella di posta [email protected]



Supporta RHC attraverso:


Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.


Secondo gli esperti, questo problema risulta irto di gravi conseguenze. In primo luogo, diventa più difficile controllare il funzionamento dei sistemi di intelligenza artificiale e comprenderne i principi di funzionamento. In secondo luogo, tali modelli possono imparare a scambiarsi segretamente informazioni tra loro all’interno dello stesso pacchetto software.

Per combattere questo problema, gli scienziati propongono di utilizzare la cosiddetta “parafrasi”, ovvero la riformulazione delle risposte della rete neurale da parte di una persona. Ciò aiuterà a rimuovere le informazioni nascoste mantenendo il significato del messaggio. Tuttavia, non è ancora chiaro quanto sarà efficace questo approccio.

In generale, la ricerca in questo settore è in una fase iniziale. Ma è già chiaro che lo sviluppo di tali competenze nascoste nell’intelligenza artificiale richiede la massima attenzione da parte degli esperti. E’ necessaria quindi una analisi approfondita dei possibili rischi e lo sviluppo di misure per minimizzarli.

In precedenza, un effetto simile era stato osservato nel 2016 nel sistema AlphaGo di DeepMind. 

Inizialmente addestrato sul gioco da tavolo Go, il sistema alla fine è riuscito a superare i suoi creatori e offrire persino mosse che hanno sorpreso gli esperti. Ora parliamo di modelli linguistici in grado di generare testi in linguaggio naturale. Migliorare le proprie competenze può portare a conseguenze imprevedibili se non si presta la dovuta attenzione alle questioni di trasparenza e interpretabilità.

I ricercatori della Redwood Research notano che gran parte della loro ricerca si è concentrata sulle capacità di ragionamento crittografate acquisite dai modelli attraverso l’apprendimento supervisionato. Tuttavia, in futuro, varrà la pena studiare più in dettaglio come tali competenze possano emergere nell’intelligenza artificiale che apprende da sola, senza supervisione.

In ogni caso l’argomento richiede un ulteriore approfondimento. È necessario capire in quali condizioni i modelli possono formare le proprie strategie steganografiche e anche sviluppare metodi per combattere tali effetti indesiderati.

Altrimenti sarà impossibile garantire la trasparenza e la sicurezza dei sistemi di intelligenza artificiale, che ogni anno penetrano sempre più profondamente nelle nostre vite. Ma fidarsi di una “scatola nera” dal comportamento imprevedibile sarebbe estremamente sconsiderato.

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Crash di massa su Windows: la falla in OpenVPN che può mandare KO le infrastrutture

Una vulnerabilità critica è stata scoperta nel driver di offload del canale dati di OpenVPN per Windows, che può essere sfruttata da attaccanti locali per mandare in crash i sistemi. Il...

ChatGPT ci sta spegnendo il cervello! L’allarmante ricerca del MIT mostra il decadimento mentale

Durante una RHC Conference, Corrado Giustozzi sottolineò una verità tanto semplice quanto potente: “L’essere umano è, da sempre, un creatore di amplificatori.”. Dal...

15 Deface in poche ore di siti italiani! Gli hacker: “Godermi la vita prima che la morte venga a prendermi”

Nelle ultime ore, un’ondata massiccia di defacement ha preso di mira almeno una quindicina di siti web italiani. L’attacco è stato rivendicato dal threat actor xNot_RespondinGx (tea...

I Cyber attacchi potrebbero diventare missili. L’escalation tra Iran e Israele e 100 gruppi di hacker in campo

Nel mezzo degli intensi combattimenti tra Iran e Israele, il cyberspazio è stato coinvolto in una nuova fase di conflitto. Con il lancio dell’operazione israeliana Rising Lion, mirata all&...

Linux Alert: Il bug su udisks consente l’accesso a Root sulle principali distribuzioni

Gli esperti avvertono che due nuove vulnerabilità di escalation dei privilegi locali possono essere sfruttate per ottenere privilegi di root sui sistemi che eseguono le distribuzioni Linux pi...