La scorsa settimana, il laboratorio cinese DeepSeek ha presentato una nuova versione del suo modello di intelligenza artificiale R1, denominato R1-0528. Il sistema aggiornato ha ottenuto risultati impressionanti nei test matematici e software, ma ha immediatamente suscitato un’ondata di diffidenza tra gli esperti. Il motivo è la somiglianza con i risultati tipici dell’intelligenza artificiale della linea Gemini di Google.
Le fonti dei dati utilizzati per addestrare R1-0528 non sono state divulgate ufficialmente, ma alcuni indizi hanno portato i ricercatori a credere che il modello possa essere stato parzialmente addestrato sull’output di Gemini 2.5 Pro, secondo Sam Pack, uno sviluppatore che testa l'”intelligenza emotiva” dell’IA. Secondo le sue osservazioni, R1-0528 tende a scegliere una terminologia tipica del modello di Google. Conclusioni simili sono state tratte da uno sviluppatore anonimo che ha creato una valutazione della libertà di espressione per l’IA chiamata SpeechMap: secondo lui, il “pensiero” di DeepSeek è sospettosamente simile al comportamento di Gemini nei compiti logici.
Non ci sono ancora prove dirette, ma questa non è la prima volta che DeepSeek è sospettata di utilizzare i dati dei concorrenti. Già a dicembre 2024, gli sviluppatori avevano notato che il modello DeepSeek V3 si identificava spesso come ChatGPT, il che suggeriva che i log delle chat di OpenAI venissero utilizzati per l’addestramento. In seguito si è scoperto che Microsoft, in qualità di uno dei principali partner di OpenAI, aveva registrato attività sospette negli account degli sviluppatori di OpenAI, a loro avviso correlate a DeepSeek. Grandi quantità di dati potrebbero essere state caricate tramite questi account alla fine del 2024.
Questo ricorda una tecnica nota come “distillazione”, un processo in cui un nuovo modello viene addestrato sull’output di un sistema più avanzato. Sebbene il metodo sia considerato tecnicamente accettabile, viola direttamente i termini di servizio di OpenAI: utilizzare le risposte dei loro modelli per creare soluzioni concorrenti è proibito. La ricerca dimostra che i problemi di sicurezza del modello cinese vanno ben oltre la semplice violazione degli accordi con l’utente.
Allo stesso tempo, identificare la fonte dell’addestramento sta diventando sempre più difficile. Internet è inondato di contenuti generati dall’IA e molti modelli moderni stanno iniziando a utilizzare in modo indipendente le stesse frasi, termini e parole d’ordine. I bot generano testi su Reddit e X, e i siti di content farm riempiono i risultati con lo stesso tipo di spam basato sull’IA. Tutto ciò complica il filtraggio dei set di addestramento e consente ai dati di altre persone di filtrare attraverso le difese. Un’ulteriore preoccupazione è che i dati degli utenti di DeepSeek vengano trasmessi a server in Cina.
Tuttavia, alcuni esperti ritengono che sia abbastanza realistico consentire a DeepSeek di imparare da Gemini. Questa è l’opinione di Nathan Lambert dell’istituto di ricerca AI2, ad esempio. Secondo lui, con i fondi a disposizione ma un numero limitato di schede video, la mossa logica per DeepSeek sarebbe quella di generare in massa dati sintetici utilizzando i migliori modelli pubblici.
In risposta ai crescenti tentativi di distillazione, le principali aziende di intelligenza artificiale stanno rafforzando le loro difese. Ad aprile, OpenAI ha iniziato a richiedere la verifica dell’identità per accedere ad alcuni dei suoi modelli avanzati, sebbene l’elenco dei paesi supportati non includa la Cina. Google si è spinta ancora oltre, richiedendo che le tracce di ragionamento generate dai suoi modelli sulla sua piattaforma AI Studio vengano “compresse” in anticipo, rendendo più difficile copiare la logica dei modelli. Anthropic ha recentemente implementato una misura simile, citando il desiderio di proteggere i vantaggi competitivi delle sue soluzioni.
Google non ha ancora rilasciato dichiarazioni ufficiali sulla situazione di DeepSeek, ma a giudicare dalle crescenti misure di sicurezza adottate nel settore, il problema della distillazione e della fuga di dati si è già trasformato in una seria corsa al controllo della proprietà intellettuale. Gli esperti sottolineano inoltre che il modello cinese presenta gravi vulnerabilità di sicurezza, che possono creare ulteriori rischi per gli utenti.
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

VulnerabilitàVenerdì sera l’exchange di criptovalute sudcoreano Bithumb è stato teatro di un incidente operativo che ha rapidamente scosso il mercato locale di Bitcoin, dimostrando quanto anche un singolo errore umano possa avere effetti immediati e…
CybercrimeLe autorità tedesche hanno recentemente lanciato un avviso riguardante una sofisticata campagna di phishing che prende di mira gli utenti di Signal in Germania e nel resto d’Europa. L’attacco si concentra su profili specifici, tra…
InnovazioneL’evoluzione dell’Intelligenza Artificiale ha superato una nuova, inquietante frontiera. Se fino a ieri parlavamo di algoritmi confinati dietro uno schermo, oggi ci troviamo di fronte al concetto di “Meatspace Layer”: un’infrastruttura dove le macchine non…
CybercrimeNegli ultimi anni, la sicurezza delle reti ha affrontato minacce sempre più sofisticate, capaci di aggirare le difese tradizionali e di penetrare negli strati più profondi delle infrastrutture. Un’analisi recente ha portato alla luce uno…
VulnerabilitàNegli ultimi tempi, la piattaforma di automazione n8n sta affrontando una serie crescente di bug di sicurezza. n8n è una piattaforma di automazione che trasforma task complessi in operazioni semplici e veloci. Con pochi click…