Red Hot Cyber
Sicurezza Informatica, Notizie su Cybercrime e Analisi Vulnerabilità
Una persona di spalle, con felpa e jeans, osserva confusa una monumentale infrastruttura tecnologica, grattandosi la testa. Ai lati si ergono due enormi server rack speculari, densamente cablati. Il server di sinistra è illuminato da una calda luce arancione e integra uno schermo bianco con il logo e la scritta "ANTHROPIC". Il server di destra, avvolto da una fredda luce blu, mostra uno schermo analogo con il logo della balena blu e la scritta "deepseek". Una fitta e caotica coltre di cavi neri fluttua a mezz'aria, collegando i due server e creando un'atmosfera fantascientifica e complessa.

Anthropic e il mistero di Claude Opus 4.8: Perché si finge DeepSeek?

31 Maggio 2026 08:12
In sintesi

Il modello Claude Opus 4.8 di Anthropic ha recentemente mostrato comportamenti anomali, identificandosi come DeepSeek o Tongyi Qianwen. Questo incidente ha sollevato preoccupazioni sulla contaminazione dei dati e l'integrità dei modelli di intelligenza artificiale. La comunità globale dell'IA è divisa tra chi crede in una confusione cognitiva causata da troppi modelli open source cinesi e chi sospetta un avvelenamento dei dati.

La società americana Anthropic, che ha creato la famiglia di modelli Claude, è al centro di una strana controversia. Il problema riguarda il suo modello più avanzato, che alcuni utenti chiamano Claude Opus 4.8.

Quando si chiede a questo modello in cinese chi è, dà risposte strane. A volte dice di essere DeepSeek o Tongyi Qianwen, e nega di appartenere di essere un modello di Anthropic. Alcuni test hanno mostrato che il modello si ripete e si identifica in modo errato, citando anche informazioni su sviluppatori cinesi. Altri utenti hanno detto che durante le conversazioni sono apparsi improvvisamente contenuti in cinese, il che è difficile da spiegare.

Questo episodio ha fatto discutere la comunità tecnologica, soprattutto perché solo pochi mesi fa Anthropic aveva accusato alcune aziende cinesi di intelligenza artificiale di aver interagito con Claude in modo automatico, ipotizzando che stessero cercando di copiare il modello.

Advertising

Le aziende coinvolte avevano negato le accuse. Ora alcuni pensano che ci possa essere un “effetto boomerang” legato a queste pratiche. Tuttavia, le interpretazioni sono diverse: alcuni pensano che i dati di addestramento siano stati contaminati, mentre altri credono che si tratti semplicemente di comportamenti strani del modello in certe situazioni.

Al momento Anthropic non ha commentato l’episodio. Questa storia si inserisce in un contesto più ampio in cui i confini tra modelli, dati e tecniche di addestramento sono sempre più confusi, e questo fa discutere sulla reale “autonomia” e separazione tecnologica tra i principali sistemi di intelligenza artificiale.

La distillazione di un modello è una tecnica molto utile nel machine learning. Questa tecnica permette di “trasferire” le conoscenze di un modello grande e complesso, chiamato teacher, a un modello più piccolo e leggero, chiamato student. L’obiettivo principale è quello di mantenere le prestazioni del modello originale, riducendo però i costi computazionali, la memoria e il tempo di inferenza.

In pratica, il modello piccolo viene addestrato non solo sui dati originali, ma anche sulle risposte generate dal modello grande. Queste risposte contengono informazioni più ricche rispetto alle semplici etichette, quindi il modello student può imparare molto di più. Il funzionamento di questa tecnica si basa sul fatto che il modello teacher fornisce una distribuzione di probabilità sulle possibili risposte, mostrando “quanto” ogni alternativa sia plausibile.

Il modello student impara a imitare queste distribuzioni, cercando di replicare il comportamento del modello più potente. In questo modo, il modello student acquisisce parte della capacità di generalizzazione del modello teacher, pur restando più efficiente e veloce. La distillazione del modello è molto usata per portare modelli avanzati su dispositivi con risorse limitate, come ad esempio smartphone o dispositivi embedded, o per rendere più scalabili i sistemi di intelligenza artificiale. Ciò significa che i modelli di intelligenza artificiale possono essere utilizzati in un’ampia gamma di applicazioni, anche in quelle che richiedono bassi consumi di energia e risorse limitate.

Advertising

Quindi la domanda che diventa sempre più ricorrente. Quali sono i teacher e quali sono gli student?


📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su 🔔 Google News.
Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram.
Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici


Carolina Vivianti 300x300
Carolina Vivianti è consulente/Advisor autonomo in sicurezza informatica con esperienza nel settore tech e security. Ha lavorato come Security Advisor per Ford EU/Ford Motor Company e Vodafone e ha studi presso la Sapienza Università di Roma.
Aree di competenza: Cybersecurity, IT Risk Management, Security Advisory, Threat Analysis, Data Protection, Cloud Security, Compliance & Governance