Red Hot Cyber
Sicurezza Informatica, Notizie su Cybercrime e Analisi Vulnerabilità
Gli scienziati di Stanford smontano il mito dei grandi modelli linguistici: non ci sono abilità emergenti

Gli scienziati di Stanford smontano il mito dei grandi modelli linguistici: non ci sono abilità emergenti

7 Maggio 2023 09:51

Gli scienziati della Stanford University in un loro lavoro hanno affermato che è troppo presto per considerare i grandi modelli linguistici come un “gigantesco salto di opportunità”. Secondo gli esperti, le capacità di sviluppo dell’intelligenza artificiale sono un’illusione delle persone che ci lavorano.

I ricercatori ritengono che quando si analizzano i risultati di un modello per un’attività particolare, una persona possa scegliere una metrica che porti alla conclusione di “superpotere AI o un’altra metrica che non lo fa”

Advertising

Gli scienziati di Stanford hanno studiato i risultati del lavoro con GPT-3 e hanno scoperto che i superpoteri nell’intelligenza artificiale compaiono solo quando vengono utilizzate determinate metriche.

La scelta di una dimensione “non lineare” o “discontinua” può portare a quello che sembra essere un cambiamento brusco e imprevedibile, che viene poi erroneamente considerato un’abilità emergente.

In effetti, la curva delle prestazioni è andata crescendo gradualmente per tutto questo tempo, senza fare “salti da gigante”. Quando i ricercatori hanno cambiato la misurazione dei risultati da una metrica non lineare a una lineare, lo sviluppo del modello è diventato prevedibile e fluido, escludendo le abilità emergenti.

Ad esempio, l’abilità GPT-3 è stata assegnata per eseguire compiti aritmetici con numeri interi, vale a dire l’aggiunta di due numeri interi a cinque cifre. Secondo i ricercatori, molte persone credono che i piccoli modelli non possano svolgere tale compito. Ma dopo aver raggiunto una certa scala, l’intelligenza artificiale è improvvisamente diventata brava ad aggiungere numeri. Questo dà motivo di preoccupazione.

Ad esempio, potresti avere un modello che “si comporta bene ed è affidabile”, ma se addestri un altro modello con molti dati o molti parametri, può diventare tossico, fuorviante o dannoso in modo imprevedibile.

Gli scienziati hanno notato che non esiste un enorme salto di opportunità. Quando gli esperti hanno rivisto le metriche utilizzate per la valutazione, hanno scoperto che i modelli linguistici espandono le loro capacità in modo graduale e prevedibile.



Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Cropped RHC 3d Transp2 1766828557 300x300
La Redazione di Red Hot Cyber fornisce aggiornamenti quotidiani su bug, data breach e minacce globali. Ogni contenuto è validato dalla nostra community di esperti come Pietro Melillo, Massimiliano Brolli, Sandro Sana, Olivia Terragni e Stefano Gazzella. Grazie alla sinergia con i nostri Partner leader nel settore (tra cui Accenture, CrowdStrike, Trend Micro e Fortinet), trasformiamo la complessità tecnica in consapevolezza collettiva, garantendo un'informazione accurata basata sull'analisi di fonti primarie e su una rigorosa peer-review tecnica.