Red Hot Cyber
Sicurezza Informatica, Notizie su Cybercrime e Analisi Vulnerabilità
TM RedHotCyber 970x120 042543

I ChatBot pensano in Inglese. Il pericolo di limitazioni linguistiche potrebbe creare problemi di sicurezza

24 Marzo 2024 17:53

I modelli linguistici di grandi dimensioni (LLM) alla base dei chatbot “pensano” in inglese, anche se le domande vengono poste in altre lingue, scrive New Scientist, citando uno studio condotto da scienziati dell’École Polytechnique Fédérale de Lausanne. 

Per capire quale linguaggio utilizzano effettivamente i LLM durante l’elaborazione delle query, i ricercatori hanno studiato tre versioni del modello Llama 2 di Meta. Poiché Llama 2 è open source, i ricercatori hanno potuto vedere ogni fase dell’elaborazione della richiesta.

Secondo uno dei ricercatori, hanno aperto questi modelli e studiato ciascuno dei loro strati. I modelli di intelligenza artificiale sono costituiti da diversi livelli, ciascuno dei quali è responsabile di una fase specifica dell’elaborazione delle query: uno traduce le istruzioni scritte in token, l’altro contestualizza ciascun token per fornire infine una risposta.

Ai modelli sono stati offerti tre tipi di query in cinese, francese, tedesco e russo. Il primo prevedeva la ripetizione di una determinata parola, il secondo chiedeva di tradurre da una lingua non inglese a un’altra e il terzo chiedeva di colmare una lacuna di una parola in una frase, ad esempio: “___ è usato per sport come il calcio e il basket”. .”

Tracciando i processi che LLM attraversa per rispondere a una domanda, gli scienziati hanno scoperto che il percorso di elaborazione attraverso gli strati passa quasi sempre attraverso quello che chiamano il sottospazio inglese. Cioè, se chiedi a un modello di tradurre dal cinese al russo, i caratteri russi passano attraverso il sottospazio inglese prima di tornare in russo, dice lo scienziato, un forte segno che i modelli stanno usando l’inglese per aiutarsi a capire la query.

Ciò ha sollevato preoccupazioni tra gli scienziati sul fatto che l’uso dell’inglese come mezzo per addestrare un modello per analizzare la lingua comporta il rischio di estendere le limitazioni risultanti nella visione del mondo ad altre regioni linguisticamente e culturalmente distinte.

“Se l’inglese diventasse la lingua principale in cui i sistemi elaborano le query, rischieremmo di perdere concetti e sfumature che possono essere apprezzati solo in altre lingue”, afferma Carissa Véliz dell’Università di Oxford.

Ci sono anche rischi più fondamentali associati alla codifica dell’intelligenza artificiale generativa utilizzata in tutto il mondo con valori anglocentrici, ha affermato Aliya Bhatia del Center for Democracy and Technology di Washington, DC. 

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Cropped RHC 3d Transp2 1766828557 300x300
La Redazione di Red Hot Cyber fornisce aggiornamenti quotidiani su bug, data breach e minacce globali. Ogni contenuto è validato dalla nostra community di esperti come Pietro Melillo, Massimiliano Brolli, Sandro Sana, Olivia Terragni e Stefano Gazzella. Grazie alla sinergia con i nostri Partner leader nel settore (tra cui Accenture, CrowdStrike, Trend Micro e Fortinet), trasformiamo la complessità tecnica in consapevolezza collettiva, garantendo un'informazione accurata basata sull'analisi di fonti primarie e su una rigorosa peer-review tecnica.