
Redazione RHC : 30 Novembre 2025 08:44
L’azienda cinese DeepSeek ha introdotto un nuovo modello specializzato per la risoluzione di problemi matematici, DeepSeekMath-V2. Si tratta di un modello linguistico su larga scala, pensato appositamente per la dimostrazione di teoremi e per i problemi olimpici, la cui principale caratteristica distintiva è che non si limita a produrre risposte, ma verifica anche la correttezza del proprio ragionamento.
DeepSeekMath-V2 risponde essenzialmente a una domanda di vecchia nell’intelligenza artificiale: come garantire che un modello sia arrivato alla soluzione corretta in modo equo, anziché indovinare il risultato o trovare una scorciatoia ma sbagliata. La maggior parte dei modelli moderni è addestrata a giungere più frequentemente alla risposta finale corretta, per la quale vengono premiati con un sistema di ricompensa simile all’apprendimento per rinforzo.
Ma in matematica, questo non è sufficiente: in molti problemi, la risposta in sé non è importante quanto una dimostrazione rigorosa e trasparente. Gli autori affermano esplicitamente che un risultato finale esatto non garantisce la correttezza del ragionamento e, per i teoremi, non esiste un “numero corretto” preimpostato da verificare.
Christmas Sale -40% 𝗖𝗵𝗿𝗶𝘀𝘁𝗺𝗮𝘀 𝗦𝗮𝗹𝗲! Sconto del 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮 del Corso "Dark Web & Cyber Threat Intelligence" in modalità E-Learning sulla nostra Academy!🚀
Fino al 𝟯𝟭 𝗱𝗶 𝗗𝗶𝗰𝗲𝗺𝗯𝗿𝗲, prezzi pazzi alla Red Hot Cyber Academy. 𝗧𝘂𝘁𝘁𝗶 𝗶 𝗰𝗼𝗿𝘀𝗶 𝘀𝗰𝗼𝗻𝘁𝗮𝘁𝗶 𝗱𝗲𝗹 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮.
Per beneficiare della promo sconto Christmas Sale, scrivici ad [email protected] o contattaci su Whatsapp al numero di telefono: 379 163 8765.
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
DeepSeekMath-V2 è basato sulla base sperimentale DeepSeek-V3.2-Exp-Base. Il team addestra un modello di verifica separato che valuta le dimostrazioni matematiche, ricercando lacune logiche ed errori passo dopo passo, e quindi utilizza questo verificatore come “giudice” per il modello principale del generatore di dimostrazioni.
Il generatore riceve una ricompensa non solo per la risposta finale corretta, ma anche per la capacità del suo ragionamento di superare un rigoroso test di convalida. Se il test fallisce, il modello viene premiato per aver tentato di identificare autonomamente i punti deboli della sua soluzione e di riscrivere la dimostrazione in modo che superi il test di convalida.
Per evitare che il sistema si blocchi quando il generatore diventa più intelligente del verificatore, gli sviluppatori scalano separatamente le risorse di calcolo per il verificatore. Il verificatore impara da esempi sempre più complessi e difficili da verificare, generati dal modello stesso man mano che le sue capacità aumentano. Questo ciclo chiuso di “generazione, verifica e miglioramento del verificatore” aiuta a colmare il divario di competenze tra le due parti del sistema e a preservare la sua capacità di autocorreggersi.
I risultati sono impressionanti. In un post su GitHub, il team afferma che DeepSeekMath-V2 ha ottenuto l’oro alle Olimpiadi Internazionali di Matematica del 2025 e alle Olimpiadi Cinesi di Matematica del 2024, e alla Putnam Mathematical Competition del 2024, il modello ha ottenuto 118 punti su 120 utilizzando il calcolo scalabile nella fase di soluzione.
Nel benchmark specializzato IMO-ProofBench, sviluppato dal team Google DeepMind per il proprio modello Gemini DeepThink, DeepSeekMath-V2, secondo un’analisi tecnica indipendente, supera DeepThink nei test di base.
I report informali sui punteggi pubblicati da ricercatori e appassionati forniscono dati più specifici: DeepSeekMath-V2 ottiene un punteggio di circa il 99% nella parte base di IMO-ProofBench e del 61,9% in quella avanzata. Lo stesso report afferma che questo risultato è superiore alle prestazioni dei modelli GPT-5 e Gemini in questo set di compiti, sebbene non si tratti di una classifica ufficiale, bensì di un confronto tra singoli test.
Un altro punto importante per la comunità: DeepSeekMath-V2 viene pubblicizzato come la prima intelligenza artificiale matematica open source a raggiungere prestazioni di livello gold su problemi di livello IMO. La notizia è già stata riportata su forum specializzati, dove vengono pubblicati link al documento e ai pesi del modello.
Il modello è disponibile su GitHub e Hugging Face. Il repository è ospitato su Apache 2.0 e i modelli stessi sono concessi in licenza con una licenza separata che ne regola l’uso, incluso l’uso commerciale. Il lancio e la natura open source di DeepSeekMath-V2 sono ulteriormente annunciati in blog specializzati e post sui social media, sottolineando che i pesi possono essere scaricati liberamente ed eseguiti sul proprio hardware, nel rispetto dei termini della licenza del modello.
Per ora, DeepSeekMath-V2 rimane un esempio altamente specializzato, ma altamente esemplificativo di come l’intelligenza artificiale stia spostando la sua attenzione dall'”indovinare la risposta corretta” al controllo del processo di pensiero del modello. E la risposta entusiasta a questo nuovo prodotto da parte di sviluppatori, ricercatori e appassionati di competizioni matematiche dimostra che la corsa è ora aperta non solo per l’intelligenza generale, ma anche per la qualità e la verificabilità del ragionamento.
Seguici su Google News, LinkedIn, Facebook e Instagram per ricevere aggiornamenti quotidiani sulla sicurezza informatica. Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.
Redazione
Il MITRE ha reso pubblica la classifica delle 25 più pericolose debolezze software previste per il 2025, secondo i dati raccolti attraverso le vulnerabilità del national Vulnerability Database. Tali...

Un recente resoconto del gruppo Google Threat Intelligence (GTIG) illustra gli esiti disordinati della diffusione di informazioni, mettendo in luce come gli avversari più esperti abbiano già preso p...

All’interno del noto Dark Forum, l’utente identificato come “espansive” ha messo in vendita quello che descrive come l’accesso al pannello di amministrazione dell’Agenzia delle Entrate. Tu...

In seguito alla scoperta di due vulnerabilità zero-day estremamente critiche nel motore del browser WebKit, Apple ha pubblicato urgentemente degli aggiornamenti di sicurezza per gli utenti di iPhone ...

La recente edizione 2025.4 di Kali Linux è stata messa a disposizione del pubblico, introducendo significative migliorie per quanto riguarda gli ambienti desktop GNOME, KDE e Xfce. D’ora in poi, Wa...