Suchir Balaji e Intelligenza Artificiale Generativa e copyright
Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
Banner Ransomfeed 970x120 1
Banner Mobile
Intelligenza Artificiale generativa e copyright, Suchir Balaji: “Internet sta volgendo al peggio”

Intelligenza Artificiale generativa e copyright, Suchir Balaji: “Internet sta volgendo al peggio”

Olivia Terragni : 15 Dicembre 2024 15:56

Suchir Balaji – che ha lasciato OpenAi questo agosto – si è chiesto se l’Intelligenza artificiale generativa sia davvero regolata da un uso corretto. Secondo la sua ricerca l’uso di dati protetti da copyright da parte di OpenAI violerebbe la legge e tecnologie come ChatGPT starebbero danneggiando Internet, oltre che apportare alla società più danni che benefici. La sua morte – avvenuta per suicidio  il 14 dicembre 2024 – riporta alla luce una visione etica dell’innovazione nella battaglia per un’intelligenza artiiciale più responsabile di chi mette in discussione l’operato delle Big Tech.

Suchir Balaji Intelligenza Artificiale generativa e copyright

“Negli ultimi due anni – ha rivelato Balji al New York Times – un certo numero di individui e aziende hanno fatto causa a varie aziende di intelligenza artificiale, tra cui OpenAI, sostenendo che hanno utilizzato illegalmente materiale protetto da copyright per addestrare le loro tecnologie”, cause che potrebbero avere un impatto significativo sullo sviluppo dell’IA negli USA.

Tra queste aziende – come riporta Harvard Law Today – ci sarebbe  il New York Times, secondo il quale ChatGBT avrebbe fatto scraping di parti fondamentali di suoi contenuti creando proprie librerie (con materiale non concesso in licenza): una pratica che indebolirebbe  il modello di business del Times, che – secondo i legali “si basa su licenze, abbonamenti e ricavi pubblicitari”. Tuttavia secondo Mason Kortz – istruttore presso la Harvard Law School Cyberlaw Clinic presso il Berkman Klein Center for Internet & Society – il New York Times dovrebbe dimostrare che gli elementi copiati includano un’espressione protetta e che la quantità utilizzata da parte dell’IA sia corretta. 


Christmas Sale

Christmas Sale -40%
𝗖𝗵𝗿𝗶𝘀𝘁𝗺𝗮𝘀 𝗦𝗮𝗹𝗲! Sconto del 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮 del Corso "Dark Web & Cyber Threat Intelligence" in modalità E-Learning sulla nostra Academy!🚀 Fino al 𝟯𝟭 𝗱𝗶 𝗗𝗶𝗰𝗲𝗺𝗯𝗿𝗲, prezzi pazzi alla Red Hot Cyber Academy. 𝗧𝘂𝘁𝘁𝗶 𝗶 𝗰𝗼𝗿𝘀𝗶 𝘀𝗰𝗼𝗻𝘁𝗮𝘁𝗶 𝗱𝗲𝗹 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮.
Per beneficiare della promo sconto Christmas Sale, scrivici ad [email protected] o contattaci su Whatsapp al numero di telefono: 379 163 8765.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Ebbene Suchir Balaji definisce l’uso corretto in base ad un bilanciamento di 4 fattori (di cui 1 e 4 tendono ad essere i più importanti), basati sulla Sezione 107 del Copyright Act del 1976, che regola l’uso corretto di un’opera protetta da copyright:

  1. lo scopo e il carattere dell’uso, incluso se tale uso è di natura commerciale o è per scopi educativi senza scopo di lucro,
  2. la natura dell’opera protetta da copyright,
  3. la quantità e la sostanzialità della porzione utilizzata in relazione all’opera protetta da copyright nel suo complesso,
  4. l’effetto dell’uso sul potenziale mercato o valore dell’opera protetta da copyright.

Nessuno dei quattro fattori sembra pesare a favore del fatto che ChatGPT si fondi su un uso corretto dei suoi dati di training. “Sebbene i modelli generativi raramente producano output sostanzialmente simili a uno qualsiasi dei loro input di training – spiega Balaji – “il processo di training di un modello generativo comporta la creazione di copie di dati protetti da copyright”.

Fonte immagine: Suchir Balaji, When does generative AI qualify for fair use?

L’addestramento suI dati protetti da copyright senza accordo di licenza è un tipo di danno di mercato

Il processo di training di un modello generativo comporta la creazione di copie di dati protetti da copyright: quindi se queste copie non sono autorizzate – e senza regolamentazione –  “ciò potrebbe potenzialmente essere considerato una violazione del copyright, a seconda che l’uso specifico del modello si qualifichi o meno come “uso corretto”, determinato necessariamente caso per caso. Balaji ha sostenuto che le pratiche di OpenAI stanno distruggendo la redditività commerciale di individui, aziende e servizi Internet, creando contenuti che competono direttamente con le fonti di dati originali, minandone l’uso corretto. Tornando al New York Times, i modelli generativi potrebbero avere un effetto lesivo sul mercato dell’originale: senza una buona regolamentazione – basata sulla trasparenza –  e tasse di licenza si potrebbe parlare di danno del mercato, questione legata anche al whistleblowing di Suchir Balaji, secondo cui la società di Sam Altman,  ha reperito enormi quantità di dati digitali da Internet per addestrare i suoi modelli di intelligenza artificiale, facendo copie non autorizzate dei dati protetti da copyright e creando versioni simili agli originali, senza rispettare le disposizioni sull’uso corretto.

“Questo non è un modello sostenibile per l’ecosistema di Internet” _ [Suchir Balaji, New York Times, ottobre 2024].

Le tecnologie di intelligenza artificiale generativa, stanno rivoluzionando l’acquisizione di informazioni e la produzione di contenuti in una varietà di domini. La studio “The consequences of generative AI for online knowledge communities”, pubblicato a maggio 2024, ha rilevato la forte influenza di ChatGPT sull’attività degli utenti di comunità di sviluppatori di come Stack Overflaw con il conseguente “calo sia nelle visite al sito che nei volumi di domande su Stack Overflow, in particolare sugli argomenti in cui ChatGPT eccelle”. Stack Overflaw però con Reddit, The Associated Press, News Corp, ha firmato degli accordi con gli sviluppatori di modelli come OpenAI e Google. 

Intelligenza Artificiale generativa studio
Fonte immagine: Gordon Burtch, Dokyun Lee & Zhichen Chen, The consequences of generative AI for online knowledge communities (Cit)

Anche considerando gli impatti positivi – miglioramento della produttività utente – il pericolo è che gli LLM possano sostituire del tutto le comunità di conoscenza online – con il peggioramento di ogni tipo di interazione interpersonale (anche nei luoghi di lavoro)  – oltre al fatto che la loro produzione di contenuti errati (allucinazioni) sia da prendere in seria considerazione.

Il problema dello sfruttamento dei dati protetti da copyright senza licenza o compensi per gli autori, evidenziato da Suchir Balaji è significativo: uno strumento come ChatGBT potrebbe entrare in competizione con gli stessi contenuti originali degli autori, danneggiando loro, gli  hub di informazione e le arti creative, con il rischio ulteriore di avvelenamento dei contenuti originali e la generazione di informazioni false o fuorvianti.

Intelligenza artificiale generativa conseguenze
Fonte immagine: Gordon Burtch, Dokyun Lee & Zhichen Chen, The consequences of generative AI for online knowledge communities (Cit)

Migliaia di artisti – e da tempo – si sono infine schierati contro la pratica di addestrare l’intelligenza artificiale generativa con materiale protetto da copyright e senza licenza: “spendono somme ingenti per persone ed eleborazione” ha detto Newton-Rex, fondatore di Fairly Trained “si aspettano di prendere gratuitamente i dati di addestramento”, termine disumanizzante che sarebbe “il lavoro delle persone, la loro scrittura, la loro arte, la loro musica”.

  • Intelligenza artificiale
Immagine del sitoOlivia Terragni
Autore, ex giornalista, laureata in Lettere e Filosofia con indirizzo storico-economico e poi in Architettura, ha poi approfondito i suoi studi in Network Economy e in Informations Economics, conclusi con un Master in Cyber Security e Digital Forensics e un Master in Filosofia e Governance del Digitale. Appassionata di innovazione tecnologica e sistemi complessi e della loro gestione nell’ambito della sicurezza e della loro sostenibilità in contesti internazionali. Criminalista. Velista ottimista.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Educazione digitale dei bambini: il grande ritardo di adulti e scuola
Di Inva Malaj - 08/12/2025

Secondo Eurostat nel 2023 solo il 55% dei cittadini dell’Unione Europea tra i 16 e i 74 anni possedeva competenze digitali almeno di base, con forti differenze tra paesi: si va da valori intorno all...

Immagine del sito
L’interruzione di Cloudflare del 5 dicembre 2025 dovuta alle patch su React Server. L’analisi tecnica
Di Redazione RHC - 07/12/2025

Cloudflare ha registrato un’interruzione significativa nella mattina del 5 dicembre 2025, quando alle 08:47 UTC una parte della propria infrastruttura ha iniziato a generare errori interni. L’inci...

Immagine del sito
GlobalProtect di Palo Alto Networks è sotto scansioni Attive. Abilitate la MFA!
Di Redazione RHC - 07/12/2025

Una campagna sempre più aggressiva, che punta direttamente alle infrastrutture di accesso remoto, ha spinto gli autori delle minacce a tentare di sfruttare attivamente le vulnerabilità dei portali V...

Immagine del sito
Rilasciata FreeBSD 15.0: ecco le novità e i miglioramenti della nuova versione
Di Redazione RHC - 06/12/2025

Dietro molte delle applicazioni e servizi digitali che diamo per scontati ogni giorno si cela un gigante silenzioso: FreeBSD. Conosciuto soprattutto dagli addetti ai lavori, questo sistema operativo U...

Immagine del sito
React2Shell: due ore tra la pubblicazione dell’exploit e lo sfruttamento attivo
Di Redazione RHC - 06/12/2025

Molto spesso parliamo su questo sito del fatto che la finestra tra la pubblicazione di un exploit e l’avvio di attacchi attivi si sta riducendo drasticamente. Per questo motivo diventa sempre più f...