Red Hot Cyber
Sicurezza Informatica, Notizie su Cybercrime e Analisi Vulnerabilità
Rimuovere dati privati dai modelli di AI? Ora è possibile senza accedere ai set di dati originali

Rimuovere dati privati dai modelli di AI? Ora è possibile senza accedere ai set di dati originali

21 Settembre 2025 10:02

Un team dell’Università della California, Riverside, ha mostrato un nuovo modo per rimuovere dati privati e protetti da copyright dai modelli di intelligenza artificiale senza accedere ai set di dati originali. La soluzione affronta il problema dei contenuti personali e a pagamento riprodotti quasi alla lettera nelle risposte, anche quando le fonti vengono eliminate o bloccate dietro password e paywall.

L’approccio è chiamato “source-free certified unlearning”. Viene utilizzato un set surrogato statisticamente simile all’originale. I parametri del modello vengono modificati come se fosse stato riaddestrato da zero. Viene introdotto rumore casuale accuratamente calcolato per garantire la cancellazione. Il metodo dispone di un nuovo meccanismo di calibrazione del rumore che compensa le discrepanze tra i dati originali e quelli surrogati. L’obiettivo è rimuovere le informazioni selezionate e mantenere le prestazioni sul materiale rimanente.

La domanda di tale tecnologia è dettata dai requisiti del GDPR e del CCPA, nonché dalle controversie relative all’addestramento su testi protetti. I modelli linguistici vengono addestrati su Internet e talvolta producono frammenti quasi esatti delle fonti, il che consente di aggirare l’accesso a pagamento. Separatamente, il New York Times ha intentato una causa contro OpenAI e Microsoft in merito all’uso di articoli per addestrare i modelli GPT.

Gli autori hanno testato il metodo su set di dati sintetici e reali. L’approccio è adatto anche quando i set di dati originali sono persi, frammentati o legalmente inaccessibili.

Il lavoro è attualmente progettato per architetture più semplici, ancora ampiamente utilizzate, ma con ulteriori sviluppi il meccanismo può essere scalato a sistemi più ampi come ChatGPT.

I prossimi passi sono l’adattamento a tipologie di modelli e dati più complesse, nonché la creazione di strumenti che renderanno la tecnologia disponibile agli sviluppatori di tutto il mondo. La tecnologia è utile per i media, le organizzazioni mediche e altri proprietari di informazioni sensibili, e offre inoltre alle persone la possibilità di richiedere la rimozione di dati personali e proprietari dall’IA.

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Stefano Gazzella 300x300
Privacy Officer e Data Protection Officer, è Of Counsel per Area Legale. Si occupa di protezione dei dati personali e, per la gestione della sicurezza delle informazioni nelle organizzazioni, pone attenzione alle tematiche relative all’ingegneria sociale. Responsabile del comitato scientifico di Assoinfluencer, coordina le attività di ricerca, pubblicazione e divulgazione. Giornalista pubblicista, scrive su temi collegati a diritti di quarta generazione, nuove tecnologie e sicurezza delle informazioni.
Aree di competenza: Privacy, GDPR, Data Protection Officer, Legal tech, Diritti, Meme
Visita il sito web dell'autore

Articoli in evidenza

Immagine del sitoCyber News
Attacco hacker alla Sapienza: chi sono gli hacker di Bablock/Rorschach
Redazione RHC - 04/02/2026

Secondo quanto riportato dal Corriere della Sera, l’attacco informatico che ha paralizzato i sistemi dell’Università La Sapienza non sarebbe motivato da fini politici. Gli hacker avrebbero inviato messaggi di rivendicazione spiegando di non agire per…

Immagine del sitoCybercrime
Supply Chain Attack: come è stato compromesso Notepad++ tramite il CVE-2025-15556
Manuel Roccon - 04/02/2026

Nella cyber security, spesso ci si concentra sulla ricerca di complessi bug nel codice sorgente, ignorando che la fiducia dell’utente finale passa per un elemento molto più semplice: un link di download. L’incidente che ha…

Immagine del sitoCyber News
Attacco Hacker All’università La Sapienza. Quello che sappiamo ad oggi
Redazione RHC - 04/02/2026

Nella giornata di lunedì mattina, un grave incidente informatico ha colpito l’Università La Sapienza di Roma, mettendo fuori uso una parte rilevante dell’infrastruttura digitale dell’ateneo. L’attacco ha avuto effetti immediati sulla didattica e sui servizi…

Immagine del sitoInnovazione
Il “Reddit per AI” progetta la fine dell’umanità e crea una Religione. Ecco la verità su Moltbook
Carolina Vivianti - 03/02/2026

L’evoluzione delle piattaforme digitali ha raggiunto un punto di rottura dove la presenza umana non è più richiesta per alimentare il dibattito. Moltbook emerge come un esperimento sociale senza precedenti, un ecosistema dove milioni di…

Immagine del sitoCybercrime
Initial Access Broker (IaB): Sempre più una comodity nei mercati underground
Luca Stivali - 03/02/2026

Nel mondo dell’underground criminale, il lavoro si divide tra “professionisti”. C’è chi sviluppa ed esercisce il ransomware, c’è chi vende un accesso iniziale alle aziende e c’è chi sfrutta l’accesso iniziale per condurre attacchi informatici…