
I ricercatori nel Regno Unito e in Canada mettono in guardia sui pericoli dell’addestramento di modelli di intelligenza artificiale (IA) con dati generati da altri modelli di intelligenza artificiale. In un articolo pubblicato su arXiv.org intitolato “The Curse of Recursion: Learning from Generated Data Causes Models to Forget”, hanno dimostrato che questo approccio può portare a un graduale deterioramento della qualità e del realismo di questi dati.
Il collasso del modello è un processo degenerativo in base al quale i modelli nel tempo dimenticano la vera distribuzione dei dati e iniziano a interpretare erroneamente ciò che pensano sia reale, rafforzando le proprie convinzioni.
Questo fenomeno ricorda l’oblio catastrofico e l’avvelenamento dei dati, che possono anche avere un impatto negativo sull’apprendimento dell’IA. Nell’oblio catastrofico, il modello “dimentica” i dati precedenti quando apprende nuove informazioni. L’avvelenamento dei dati è l’introduzione dannosa di informazioni false nelle origini dati.
Gli autori dell’articolo hanno condotto esperimenti con modelli di IA testuali e grafici e hanno scoperto che l’addestramento sui dati prodotti da altri modelli porta a un rapido deterioramento della qualità dei dati generati. “Siamo rimasti sorpresi nel vedere quanto velocemente il modello collassa: i modelli possono dimenticare rapidamente gran parte dei dati di input da cui hanno originariamente appreso”, ha affermato Ilya Shumailov, uno degli autori dell’articolo, dell’Università di Oxford.
Come ha affermato il collega e autore Ross Anderson dell’Università di Cambridge e dell’Università di Edimburgo, “Proprio come abbiamo disseminato gli oceani di detriti di plastica e riempito l’atmosfera di anidride carbonica, così riempiremo Internet di sciocchezze”.
I ricercatori offrono diversi modi per affrontare il collasso del modello. Uno di questi è conservare i dati originali creati dall’uomo per addestrare modelli futuri. L’altro approccio è tenere conto delle minoranze e degli eventi rari nei set di dati. Il terzo è controllare la qualità e le fonti dei dati utilizzati per l’addestramento dell’IA.
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

InnovazioneL’evoluzione dell’Intelligenza Artificiale ha superato una nuova, inquietante frontiera. Se fino a ieri parlavamo di algoritmi confinati dietro uno schermo, oggi ci troviamo di fronte al concetto di “Meatspace Layer”: un’infrastruttura dove le macchine non…
CybercrimeNegli ultimi anni, la sicurezza delle reti ha affrontato minacce sempre più sofisticate, capaci di aggirare le difese tradizionali e di penetrare negli strati più profondi delle infrastrutture. Un’analisi recente ha portato alla luce uno…
VulnerabilitàNegli ultimi tempi, la piattaforma di automazione n8n sta affrontando una serie crescente di bug di sicurezza. n8n è una piattaforma di automazione che trasforma task complessi in operazioni semplici e veloci. Con pochi click…
InnovazioneArticolo scritto con la collaborazione di Giovanni Pollola. Per anni, “IA a bordo dei satelliti” serviva soprattutto a “ripulire” i dati: meno rumore nelle immagini e nei dati acquisiti attraverso i vari payload multisensoriali, meno…
Cyber ItaliaNegli ultimi giorni è stato segnalato un preoccupante aumento di truffe diffuse tramite WhatsApp dal CERT-AGID. I messaggi arrivano apparentemente da contatti conosciuti e richiedono urgentemente denaro, spesso per emergenze come spese mediche improvvise. La…