Redazione RHC : 24 Novembre 2023 07:33
Un gruppo di ricercatori della Redwood Research ha scoperto un fatto allarmante: le reti neurali sono in grado di scambiare messaggi crittografati, il cui significato è nascosto alle persone. Questa scoperta potrebbe minacciare la trasparenza dei sistemi di intelligenza artificiale.
Il metodo, chiamato “Ragionamento Codificato”. Si basa sulla tecnica della Chain-of-thought (CoT), che consente al modello di rivelare gradualmente il corso del suo ragionamento. Tuttavia, ora si è scoperto che una rete neurale può essere addestrata a nascondere parte dei passaggi, lasciando solo la risposta finale.
Gli autori dello studio lo hanno dimostrato utilizzando come esempio il modello GPT-3.5-Turbo. Dopo una formazione aggiuntiva, è riuscita non solo a migliorare la qualità delle sue risposte, ma anche a nascondere alcuni ragionamenti intermedi.
Sei un Esperto di Formazione?
Entra anche tu nel Partner program! Accedi alla sezione riservata ai Creator sulla nostra Academy e scopri i vantaggi riservati ai membri del Partner program.
Contattaci tramite WhatsApp al 375 593 1011 per richiedere ulteriori informazioni oppure scriviti alla casella di posta [email protected]
Supporta RHC attraverso:
Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.
Secondo gli esperti, questo problema risulta irto di gravi conseguenze. In primo luogo, diventa più difficile controllare il funzionamento dei sistemi di intelligenza artificiale e comprenderne i principi di funzionamento. In secondo luogo, tali modelli possono imparare a scambiarsi segretamente informazioni tra loro all’interno dello stesso pacchetto software.
Per combattere questo problema, gli scienziati propongono di utilizzare la cosiddetta “parafrasi”, ovvero la riformulazione delle risposte della rete neurale da parte di una persona. Ciò aiuterà a rimuovere le informazioni nascoste mantenendo il significato del messaggio. Tuttavia, non è ancora chiaro quanto sarà efficace questo approccio.
In generale, la ricerca in questo settore è in una fase iniziale. Ma è già chiaro che lo sviluppo di tali competenze nascoste nell’intelligenza artificiale richiede la massima attenzione da parte degli esperti. E’ necessaria quindi una analisi approfondita dei possibili rischi e lo sviluppo di misure per minimizzarli.
In precedenza, un effetto simile era stato osservato nel 2016 nel sistema AlphaGo di DeepMind.
Inizialmente addestrato sul gioco da tavolo Go, il sistema alla fine è riuscito a superare i suoi creatori e offrire persino mosse che hanno sorpreso gli esperti. Ora parliamo di modelli linguistici in grado di generare testi in linguaggio naturale. Migliorare le proprie competenze può portare a conseguenze imprevedibili se non si presta la dovuta attenzione alle questioni di trasparenza e interpretabilità.
I ricercatori della Redwood Research notano che gran parte della loro ricerca si è concentrata sulle capacità di ragionamento crittografate acquisite dai modelli attraverso l’apprendimento supervisionato. Tuttavia, in futuro, varrà la pena studiare più in dettaglio come tali competenze possano emergere nell’intelligenza artificiale che apprende da sola, senza supervisione.
In ogni caso l’argomento richiede un ulteriore approfondimento. È necessario capire in quali condizioni i modelli possono formare le proprie strategie steganografiche e anche sviluppare metodi per combattere tali effetti indesiderati.
Altrimenti sarà impossibile garantire la trasparenza e la sicurezza dei sistemi di intelligenza artificiale, che ogni anno penetrano sempre più profondamente nelle nostre vite. Ma fidarsi di una “scatola nera” dal comportamento imprevedibile sarebbe estremamente sconsiderato.
Una vulnerabilità critica è stata scoperta nel driver di offload del canale dati di OpenVPN per Windows, che può essere sfruttata da attaccanti locali per mandare in crash i sistemi. Il...
Durante una RHC Conference, Corrado Giustozzi sottolineò una verità tanto semplice quanto potente: “L’essere umano è, da sempre, un creatore di amplificatori.”. Dal...
Nelle ultime ore, un’ondata massiccia di defacement ha preso di mira almeno una quindicina di siti web italiani. L’attacco è stato rivendicato dal threat actor xNot_RespondinGx (tea...
Nel mezzo degli intensi combattimenti tra Iran e Israele, il cyberspazio è stato coinvolto in una nuova fase di conflitto. Con il lancio dell’operazione israeliana Rising Lion, mirata all&...
Gli esperti avvertono che due nuove vulnerabilità di escalation dei privilegi locali possono essere sfruttate per ottenere privilegi di root sui sistemi che eseguono le distribuzioni Linux pi...
Copyright @ REDHOTCYBER Srl
PIVA 17898011006