Il modello Claude Opus 4.8 di Anthropic ha recentemente mostrato comportamenti anomali, identificandosi come DeepSeek o Tongyi Qianwen. Questo incidente ha sollevato preoccupazioni sulla contaminazione dei dati e l'integrità dei modelli di intelligenza artificiale. La comunità globale dell'IA è divisa tra chi crede in una confusione cognitiva causata da troppi modelli open source cinesi e chi sospetta un avvelenamento dei dati.
La società americana Anthropic, che ha creato la famiglia di modelli Claude, è al centro di una strana controversia. Il problema riguarda il suo modello più avanzato, che alcuni utenti chiamano Claude Opus 4.8.
Quando si chiede a questo modello in cinese chi è, dà risposte strane. A volte dice di essere DeepSeek o Tongyi Qianwen, e nega di appartenere di essere un modello di Anthropic. Alcuni test hanno mostrato che il modello si ripete e si identifica in modo errato, citando anche informazioni su sviluppatori cinesi. Altri utenti hanno detto che durante le conversazioni sono apparsi improvvisamente contenuti in cinese, il che è difficile da spiegare.
Questo episodio ha fatto discutere la comunità tecnologica, soprattutto perché solo pochi mesi fa Anthropic aveva accusato alcune aziende cinesi di intelligenza artificiale di aver interagito con Claude in modo automatico, ipotizzando che stessero cercando di copiare il modello.
Advertising
Le aziende coinvolte avevano negato le accuse. Ora alcuni pensano che ci possa essere un “effetto boomerang” legato a queste pratiche. Tuttavia, le interpretazioni sono diverse: alcuni pensano che i dati di addestramento siano stati contaminati, mentre altri credono che si tratti semplicemente di comportamenti strani del modello in certe situazioni.
Al momento Anthropic non ha commentato l’episodio. Questa storia si inserisce in un contesto più ampio in cui i confini tra modelli, dati e tecniche di addestramento sono sempre più confusi, e questo fa discutere sulla reale “autonomia” e separazione tecnologica tra i principali sistemi di intelligenza artificiale.
La distillazione di un modello è una tecnica molto utile nel machine learning. Questa tecnica permette di “trasferire” le conoscenze di un modello grande e complesso, chiamato teacher, a un modello più piccolo e leggero, chiamato student. L’obiettivo principale è quello di mantenere le prestazioni del modello originale, riducendo però i costi computazionali, la memoria e il tempo di inferenza.
In pratica, il modello piccolo viene addestrato non solo sui dati originali, ma anche sulle risposte generate dal modello grande. Queste risposte contengono informazioni più ricche rispetto alle semplici etichette, quindi il modello student può imparare molto di più. Il funzionamento di questa tecnica si basa sul fatto che il modello teacher fornisce una distribuzione di probabilità sulle possibili risposte, mostrando “quanto” ogni alternativa sia plausibile.
Il modello student impara a imitare queste distribuzioni, cercando di replicare il comportamento del modello più potente. In questo modo, il modello student acquisisce parte della capacità di generalizzazione del modello teacher, pur restando più efficiente e veloce. La distillazione del modello è molto usata per portare modelli avanzati su dispositivi con risorse limitate, come ad esempio smartphone o dispositivi embedded, o per rendere più scalabili i sistemi di intelligenza artificiale. Ciò significa che i modelli di intelligenza artificiale possono essere utilizzati in un’ampia gamma di applicazioni, anche in quelle che richiedono bassi consumi di energia e risorse limitate.
Advertising
Quindi la domanda che diventa sempre più ricorrente. Quali sono i teacher e quali sono gli student?
📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su Google Discover (scorri in basso e clicca segui) e su 🔔 Google News. Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram. Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici
Carolina Vivianti è consulente/Advisor autonomo in sicurezza informatica con esperienza nel settore tech e security. Ha lavorato come Security Advisor per Ford EU/Ford Motor Company e Vodafone e ha studi presso la Sapienza Università di Roma.
Aree di competenza:Cybersecurity, IT Risk Management, Security Advisory, Threat Analysis, Data Protection, Cloud Security, Compliance & Governance
Dopo il successo delle scorse edizioni, Red Hot Cyber è lieta di annunciare una nuova live-class del corso "Dark Web & Cyber Threat Intelligence". A differenza dei corsi e-learning pre-registrati, queste lezioni online in tempo reale, condotte dal professor Pietro Melillo, offrono un’esperienza formativa interattiva e coinvolgente, ideale per approfondire i contenuti e affrontare casi pratici.
Le Live Class sono progettate per garantire un apprendimento mirato e personalizzato, con un massimo di 14 partecipanti per sessione. Questo consente di adattare il percorso formativo alle esigenze specifiche, ma anche di mantenere alta la qualità: i posti sono limitati e nelle scorse edizioni sono andati in sold-out due settimane prima dell’inizio. Prenota subito per assicurarti il tuo posto!
Docente: Pietro Melillo, PhD presso l’Università del Sannio e docente presso IUSI University
Livello: Intermedio
Durata: 15 ore in Live Class con docente dal vivo
Prerequisiti: Navigazione Internet e conoscenze base di sicurezza informatica
Certificazione : Cyber Threat Intelligence Professional (CTIP) previo superamento dell’esame finale
Opportunità post-corso: Accesso al laboratorio operativo DarkLab per attività pratiche di intelligence
Al termine del corso, potrai accedere all’esclusivo Laboratorio di Intelligence DarkLab, un ambiente operativo dove mettere in pratica le competenze acquisite. Sarà l’occasione per sperimentare attività di investigazione nel Dark Web, analisi delle minacce e redazione di report di intelligence e ricerche approfondite.