
La scorsa settimana, il laboratorio cinese DeepSeek ha presentato una nuova versione del suo modello di intelligenza artificiale R1, denominato R1-0528. Il sistema aggiornato ha ottenuto risultati impressionanti nei test matematici e software, ma ha immediatamente suscitato un’ondata di diffidenza tra gli esperti. Il motivo è la somiglianza con i risultati tipici dell’intelligenza artificiale della linea Gemini di Google.
Le fonti dei dati utilizzati per addestrare R1-0528 non sono state divulgate ufficialmente, ma alcuni indizi hanno portato i ricercatori a credere che il modello possa essere stato parzialmente addestrato sull’output di Gemini 2.5 Pro, secondo Sam Pack, uno sviluppatore che testa l'”intelligenza emotiva” dell’IA. Secondo le sue osservazioni, R1-0528 tende a scegliere una terminologia tipica del modello di Google. Conclusioni simili sono state tratte da uno sviluppatore anonimo che ha creato una valutazione della libertà di espressione per l’IA chiamata SpeechMap: secondo lui, il “pensiero” di DeepSeek è sospettosamente simile al comportamento di Gemini nei compiti logici.
Non ci sono ancora prove dirette, ma questa non è la prima volta che DeepSeek è sospettata di utilizzare i dati dei concorrenti. Già a dicembre 2024, gli sviluppatori avevano notato che il modello DeepSeek V3 si identificava spesso come ChatGPT, il che suggeriva che i log delle chat di OpenAI venissero utilizzati per l’addestramento. In seguito si è scoperto che Microsoft, in qualità di uno dei principali partner di OpenAI, aveva registrato attività sospette negli account degli sviluppatori di OpenAI, a loro avviso correlate a DeepSeek. Grandi quantità di dati potrebbero essere state caricate tramite questi account alla fine del 2024.
Questo ricorda una tecnica nota come “distillazione”, un processo in cui un nuovo modello viene addestrato sull’output di un sistema più avanzato. Sebbene il metodo sia considerato tecnicamente accettabile, viola direttamente i termini di servizio di OpenAI: utilizzare le risposte dei loro modelli per creare soluzioni concorrenti è proibito. La ricerca dimostra che i problemi di sicurezza del modello cinese vanno ben oltre la semplice violazione degli accordi con l’utente.
Allo stesso tempo, identificare la fonte dell’addestramento sta diventando sempre più difficile. Internet è inondato di contenuti generati dall’IA e molti modelli moderni stanno iniziando a utilizzare in modo indipendente le stesse frasi, termini e parole d’ordine. I bot generano testi su Reddit e X, e i siti di content farm riempiono i risultati con lo stesso tipo di spam basato sull’IA. Tutto ciò complica il filtraggio dei set di addestramento e consente ai dati di altre persone di filtrare attraverso le difese. Un’ulteriore preoccupazione è che i dati degli utenti di DeepSeek vengano trasmessi a server in Cina.
Tuttavia, alcuni esperti ritengono che sia abbastanza realistico consentire a DeepSeek di imparare da Gemini. Questa è l’opinione di Nathan Lambert dell’istituto di ricerca AI2, ad esempio. Secondo lui, con i fondi a disposizione ma un numero limitato di schede video, la mossa logica per DeepSeek sarebbe quella di generare in massa dati sintetici utilizzando i migliori modelli pubblici.
In risposta ai crescenti tentativi di distillazione, le principali aziende di intelligenza artificiale stanno rafforzando le loro difese. Ad aprile, OpenAI ha iniziato a richiedere la verifica dell’identità per accedere ad alcuni dei suoi modelli avanzati, sebbene l’elenco dei paesi supportati non includa la Cina. Google si è spinta ancora oltre, richiedendo che le tracce di ragionamento generate dai suoi modelli sulla sua piattaforma AI Studio vengano “compresse” in anticipo, rendendo più difficile copiare la logica dei modelli. Anthropic ha recentemente implementato una misura simile, citando il desiderio di proteggere i vantaggi competitivi delle sue soluzioni.
Google non ha ancora rilasciato dichiarazioni ufficiali sulla situazione di DeepSeek, ma a giudicare dalle crescenti misure di sicurezza adottate nel settore, il problema della distillazione e della fuga di dati si è già trasformato in una seria corsa al controllo della proprietà intellettuale. Gli esperti sottolineano inoltre che il modello cinese presenta gravi vulnerabilità di sicurezza, che possono creare ulteriori rischi per gli utenti.
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

CybercrimeNegli ultimi anni, la sicurezza delle reti ha affrontato minacce sempre più sofisticate, capaci di aggirare le difese tradizionali e di penetrare negli strati più profondi delle infrastrutture. Un’analisi recente ha portato alla luce uno…
VulnerabilitàNegli ultimi tempi, la piattaforma di automazione n8n sta affrontando una serie crescente di bug di sicurezza. n8n è una piattaforma di automazione che trasforma task complessi in operazioni semplici e veloci. Con pochi click…
InnovazioneArticolo scritto con la collaborazione di Giovanni Pollola. Per anni, “IA a bordo dei satelliti” serviva soprattutto a “ripulire” i dati: meno rumore nelle immagini e nei dati acquisiti attraverso i vari payload multisensoriali, meno…
Cyber ItaliaNegli ultimi giorni è stato segnalato un preoccupante aumento di truffe diffuse tramite WhatsApp dal CERT-AGID. I messaggi arrivano apparentemente da contatti conosciuti e richiedono urgentemente denaro, spesso per emergenze come spese mediche improvvise. La…
Cyber NewsL’Italia si trova oggi davanti a una sfida digitale senza precedenti, dove la corsa all’innovazione non sempre coincide con una protezione adeguata delle infrastrutture. Pertanto la sicurezza dei sistemi connessi è diventata l’anello debole della…