Gli scienziati di Stanford smontano il mito dei grandi modelli linguistici: non ci sono abilità emergenti

7 Maggio 2023 09:51

Gli scienziati della Stanford University in un loro lavoro hanno affermato che è troppo presto per considerare i grandi modelli linguistici come un “gigantesco salto di opportunità”. Secondo gli esperti, le capacità di sviluppo dell’intelligenza artificiale sono un’illusione delle persone che ci lavorano.

I ricercatori ritengono che quando si analizzano i risultati di un modello per un’attività particolare, una persona possa scegliere una metrica che porti alla conclusione di “superpotere AI o un’altra metrica che non lo fa”.

Gli scienziati di Stanford hanno studiato i risultati del lavoro con GPT-3 e hanno scoperto che i superpoteri nell’intelligenza artificiale compaiono solo quando vengono utilizzate determinate metriche.

La scelta di una dimensione “non lineare” o “discontinua” può portare a quello che sembra essere un cambiamento brusco e imprevedibile, che viene poi erroneamente considerato un’abilità emergente.

In effetti, la curva delle prestazioni è andata crescendo gradualmente per tutto questo tempo, senza fare “salti da gigante”. Quando i ricercatori hanno cambiato la misurazione dei risultati da una metrica non lineare a una lineare, lo sviluppo del modello è diventato prevedibile e fluido, escludendo le abilità emergenti.

Ad esempio, l’abilità GPT-3 è stata assegnata per eseguire compiti aritmetici con numeri interi, vale a dire l’aggiunta di due numeri interi a cinque cifre. Secondo i ricercatori, molte persone credono che i piccoli modelli non possano svolgere tale compito. Ma dopo aver raggiunto una certa scala, l’intelligenza artificiale è improvvisamente diventata brava ad aggiungere numeri. Questo dà motivo di preoccupazione.

Ad esempio, potresti avere un modello che “si comporta bene ed è affidabile”, ma se addestri un altro modello con molti dati o molti parametri, può diventare tossico, fuorviante o dannoso in modo imprevedibile.

Gli scienziati hanno notato che non esiste un enorme salto di opportunità. Quando gli esperti hanno rivisto le metriche utilizzate per la valutazione, hanno scoperto che i modelli linguistici espandono le loro capacità in modo graduale e prevedibile.

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Cropped RHC 3d Transp2 1766828557 300x300

Redazione

La Redazione di Red Hot Cyber fornisce aggiornamenti quotidiani su bug, data breach e minacce globali. Ogni contenuto è validato dalla nostra community di esperti come Pietro Melillo, Massimiliano Brolli, Sandro Sana, Olivia Terragni e Stefano Gazzella. Grazie alla sinergia con i nostri Partner leader nel settore (tra cui Accenture, CrowdStrike, Trend Micro e Fortinet), trasformiamo la complessità tecnica in consapevolezza collettiva, garantendo un'informazione accurata basata sull'analisi di fonti primarie e su una rigorosa peer-review tecnica.

Articoli in evidenza

Cybercrime

Campagna di phishing su Signal in Europa: sospetto coinvolgimento di attori statali

Bajram Zeqiri - 07/02/2026

Le autorità tedesche hanno recentemente lanciato un avviso riguardante una sofisticata campagna di phishing che prende di mira gli utenti di Signal in Germania e nel resto d’Europa. L’attacco si concentra su profili specifici, tra…

Innovazione

Robot in cerca di carne: Quando l’AI affitta periferiche. Il tuo corpo!

Silvia Felici - 06/02/2026

L’evoluzione dell’Intelligenza Artificiale ha superato una nuova, inquietante frontiera. Se fino a ieri parlavamo di algoritmi confinati dietro uno schermo, oggi ci troviamo di fronte al concetto di “Meatspace Layer”: un’infrastruttura dove le macchine non…

Cybercrime

DKnife: il framework di spionaggio Cinese che manipola le reti

Pietro Melillo - 06/02/2026

Negli ultimi anni, la sicurezza delle reti ha affrontato minacce sempre più sofisticate, capaci di aggirare le difese tradizionali e di penetrare negli strati più profondi delle infrastrutture. Un’analisi recente ha portato alla luce uno…

Vulnerabilità

Così tante vulnerabilità in n8n tutti in questo momento. Cosa sta succedendo?

Agostino Pellegrino - 06/02/2026

Negli ultimi tempi, la piattaforma di automazione n8n sta affrontando una serie crescente di bug di sicurezza. n8n è una piattaforma di automazione che trasforma task complessi in operazioni semplici e veloci. Con pochi click…

Innovazione

L’IA va in orbita: Qwen 3, Starcloud e l’ascesa del calcolo spaziale

Sergio Corpettini - 06/02/2026

Articolo scritto con la collaborazione di Giovanni Pollola. Per anni, “IA a bordo dei satelliti” serviva soprattutto a “ripulire” i dati: meno rumore nelle immagini e nei dati acquisiti attraverso i vari payload multisensoriali, meno…