AI Senza Dati: Entro il 2026 potremmo esaurire i dati di addestramento. Cosa succederà dopo?
Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
LECS 970x120 1
2nd Edition GlitchZone RHC 320x100 2
AI Senza Dati: Entro il 2026 potremmo esaurire i dati di addestramento. Cosa succederà dopo?

AI Senza Dati: Entro il 2026 potremmo esaurire i dati di addestramento. Cosa succederà dopo?

12 Novembre 2023 09:30

Recentemente avevamo parlato del fatto che l’intelligenza artificiale, una volta che utilizzerà i propri dati per alimentarsi, avrebbe potuto perdere di qualità e precisione. Una nuova ricerca inizia a prendere in considerazione il fatto che tra qualche anno, i dati prodotti dagli umani inizieranno a scarseggiare.

Questo determinerà meno informazioni per le IA ma anche un problema da risolvere da parte degli scienziati.

L’esaurimento dei dati di addestramento

L’intelligenza artificiale (AI), che ha raggiunto l’apice della popolarità, deve far fronte alla mancanza di dati di addestramento necessari per il suo funzionamento. Ciò potrebbe rallentare lo sviluppo di modelli di intelligenza artificiale. In particolare di modelli linguistici di grandi dimensioni, e persino cambiare il corso della rivoluzione dell’intelligenza artificiale.


Christmas Sale

Christmas Sale -40%
𝗖𝗵𝗿𝗶𝘀𝘁𝗺𝗮𝘀 𝗦𝗮𝗹𝗲! Sconto del 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮 del Corso "Dark Web & Cyber Threat Intelligence" in modalità E-Learning sulla nostra Academy!🚀 Fino al 𝟯𝟭 𝗱𝗶 𝗗𝗶𝗰𝗲𝗺𝗯𝗿𝗲, prezzi pazzi alla Red Hot Cyber Academy. 𝗧𝘂𝘁𝘁𝗶 𝗶 𝗰𝗼𝗿𝘀𝗶 𝘀𝗰𝗼𝗻𝘁𝗮𝘁𝗶 𝗱𝗲𝗹 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮.
Per beneficiare della promo sconto Christmas Sale, scrivici ad [email protected] o contattaci su Whatsapp al numero di telefono: 379 163 8765.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

L’addestramento di algoritmi IA potenti e accurati richiede grandi quantità di dati. Ad esempio, ChatGPT è stato addestrato su 300 miliardi di parole. Allo stesso modo, DALL-E, Lensa e Midjourney sono stati addestrati su set di dati LIAON-5B contenente 5,8 miliardi di coppie immagine-testo. Se un algoritmo viene addestrato su dati insufficienti, potrebbe produrre risultati imprecisi o di bassa qualità.

La ricerca mostra che il patrimonio di dati di Internet sta crescendo molto più lentamente rispetto ai set di dati utilizzati per addestrare l’intelligenza artificiale. 

il 2026 potrebbe essere la data limite

L’anno scorso, un gruppo di ricercatori ha previsto che i dati testuali di qualità si esauriranno entro il 2026. Questa previsione è state definita sulla base delle attuali tendenze di formazione dell’IA continueranno. Si stima inoltre che i dati linguistici di bassa qualità si esauriranno tra il 2030 e il 2050. Inoltre le immagini di bassa qualità si esauriranno tra il 2030 e il 2060. La mancanza di dati utilizzabili potrebbe rallentare lo sviluppo dell’intelligenza artificiale. Questo mentre si prevede che l’economia AI contribuirà fino a 15,7 trilioni di dollari all’economia globale entro il 2030.

Tuttavia, ci sono modi per risolvere il problema della carenza di dati. 

Soluzioni per poter generare nuovi dati

Una possibilità è migliorare gli algoritmi di intelligenza artificiale per utilizzare meglio i dati esistenti. Nei prossimi anni, gli sviluppatori saranno probabilmente in grado di addestrare sistemi di IA utilizzando meno dati e forse meno potenza di calcolo. Ciò contribuirà anche a ridurre l’impronta di carbonio dell’intelligenza artificiale. 

Un’altra opzione è utilizzare l’intelligenza artificiale per creare dati sintetici per addestrare i sistemi. Gli sviluppatori possono semplicemente generare i dati necessari adatti al loro modello di intelligenza artificiale specifico. Diversi progetti utilizzano già contenuti sintetici, spesso ottenuti da servizi di generazione dati. Questo diventerà più comune in futuro

Seguici su Google News, LinkedIn, Facebook e Instagram per ricevere aggiornamenti quotidiani sulla sicurezza informatica. Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

  • #ai
  • #artificialintelligence
  • #dataset
  • #LLM
Immagine del sito
Redazione

La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Amazon contro gli hacker nordcoreani: sventati oltre 1800 attacchi
Redazione RHC - 20/12/2025

Quando si pensa ad Amazon, viene subito in mente il colosso dell’e-commerce e della tecnologia, ma anche un’impresa che sta combattendo una battaglia silenziosa contro i cyber-attacchi. Ultimamente, Amazon ha alzato il velo su una…

Immagine del sito
Kimwolf, la botnet che ha trasformato smart TV e decoder in un’arma globale
Redazione RHC - 20/12/2025

Un nuovo e formidabile nemico è emerso nel panorama delle minacce informatiche: Kimwolf, una temibile botnet DDoS, sta avendo un impatto devastante sui dispositivi a livello mondiale. Le conseguenze di questa minaccia possono essere estremamente…

Immagine del sito
35 anni fa nasceva il World Wide Web: il primo sito web della storia
Redazione RHC - 20/12/2025

Ecco! Il 20 dicembre 1990, qualcosa di epocale successe al CERN di Ginevra. Tim Berners-Lee, un genio dell’informatica britannico, diede vita al primo sito web della storia. Si tratta di info.cern.ch, creato con l’obiettivo di…

Immagine del sito
ATM sotto tiro! 54 arresti in una gang che svuotava i bancomat con i malware
Redazione RHC - 20/12/2025

Una giuria federale del Distretto del Nebraska ha incriminato complessivamente 54 persone accusate di aver preso parte a una vasta operazione criminale basata sull’uso di malware per sottrarre milioni di dollari dagli sportelli automatici statunitensi.…

Immagine del sito
Curtis Yarvin: quando il problema non è la democrazia, ma l’ipocrisia del potere digitale
Sandro Sana - 20/12/2025

Curtis Yarvin non è un hacker, non è un criminale informatico e non è nemmeno, in senso stretto, un esperto di cybersecurity. Eppure il suo pensiero dovrebbe interessare molto più di quanto faccia oggi chi…