
Redazione RHC : 30 Novembre 2025 08:44
L’azienda cinese DeepSeek ha introdotto un nuovo modello specializzato per la risoluzione di problemi matematici, DeepSeekMath-V2. Si tratta di un modello linguistico su larga scala, pensato appositamente per la dimostrazione di teoremi e per i problemi olimpici, la cui principale caratteristica distintiva è che non si limita a produrre risposte, ma verifica anche la correttezza del proprio ragionamento.
DeepSeekMath-V2 risponde essenzialmente a una domanda di vecchia nell’intelligenza artificiale: come garantire che un modello sia arrivato alla soluzione corretta in modo equo, anziché indovinare il risultato o trovare una scorciatoia ma sbagliata. La maggior parte dei modelli moderni è addestrata a giungere più frequentemente alla risposta finale corretta, per la quale vengono premiati con un sistema di ricompensa simile all’apprendimento per rinforzo.
Ma in matematica, questo non è sufficiente: in molti problemi, la risposta in sé non è importante quanto una dimostrazione rigorosa e trasparente. Gli autori affermano esplicitamente che un risultato finale esatto non garantisce la correttezza del ragionamento e, per i teoremi, non esiste un “numero corretto” preimpostato da verificare.
CALL FOR SPONSOR - Sponsorizza la Graphic Novel Betti-RHC Sei un'azienda innovativa, che crede nella diffusione di concetti attraverso metodi "non convenzionali"? Conosci il nostro corso sul cybersecurity awareness a fumetti? Red Hot Cyber sta ricercando un nuovo sponsor per una nuova puntata del fumetto Betti-RHC mentre il team è impegnato a realizzare 3 nuovi episodi che ci sono stati commissionati. Contattaci tramite WhatsApp al numero 375 593 1011 per richiedere ulteriori informazioni oppure alla casella di posta [email protected]
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
DeepSeekMath-V2 è basato sulla base sperimentale DeepSeek-V3.2-Exp-Base. Il team addestra un modello di verifica separato che valuta le dimostrazioni matematiche, ricercando lacune logiche ed errori passo dopo passo, e quindi utilizza questo verificatore come “giudice” per il modello principale del generatore di dimostrazioni.
Il generatore riceve una ricompensa non solo per la risposta finale corretta, ma anche per la capacità del suo ragionamento di superare un rigoroso test di convalida. Se il test fallisce, il modello viene premiato per aver tentato di identificare autonomamente i punti deboli della sua soluzione e di riscrivere la dimostrazione in modo che superi il test di convalida.
Per evitare che il sistema si blocchi quando il generatore diventa più intelligente del verificatore, gli sviluppatori scalano separatamente le risorse di calcolo per il verificatore. Il verificatore impara da esempi sempre più complessi e difficili da verificare, generati dal modello stesso man mano che le sue capacità aumentano. Questo ciclo chiuso di “generazione, verifica e miglioramento del verificatore” aiuta a colmare il divario di competenze tra le due parti del sistema e a preservare la sua capacità di autocorreggersi.
I risultati sono impressionanti. In un post su GitHub, il team afferma che DeepSeekMath-V2 ha ottenuto l’oro alle Olimpiadi Internazionali di Matematica del 2025 e alle Olimpiadi Cinesi di Matematica del 2024, e alla Putnam Mathematical Competition del 2024, il modello ha ottenuto 118 punti su 120 utilizzando il calcolo scalabile nella fase di soluzione.
Nel benchmark specializzato IMO-ProofBench, sviluppato dal team Google DeepMind per il proprio modello Gemini DeepThink, DeepSeekMath-V2, secondo un’analisi tecnica indipendente, supera DeepThink nei test di base.
I report informali sui punteggi pubblicati da ricercatori e appassionati forniscono dati più specifici: DeepSeekMath-V2 ottiene un punteggio di circa il 99% nella parte base di IMO-ProofBench e del 61,9% in quella avanzata. Lo stesso report afferma che questo risultato è superiore alle prestazioni dei modelli GPT-5 e Gemini in questo set di compiti, sebbene non si tratti di una classifica ufficiale, bensì di un confronto tra singoli test.
Un altro punto importante per la comunità: DeepSeekMath-V2 viene pubblicizzato come la prima intelligenza artificiale matematica open source a raggiungere prestazioni di livello gold su problemi di livello IMO. La notizia è già stata riportata su forum specializzati, dove vengono pubblicati link al documento e ai pesi del modello.
Il modello è disponibile su GitHub e Hugging Face. Il repository è ospitato su Apache 2.0 e i modelli stessi sono concessi in licenza con una licenza separata che ne regola l’uso, incluso l’uso commerciale. Il lancio e la natura open source di DeepSeekMath-V2 sono ulteriormente annunciati in blog specializzati e post sui social media, sottolineando che i pesi possono essere scaricati liberamente ed eseguiti sul proprio hardware, nel rispetto dei termini della licenza del modello.
Per ora, DeepSeekMath-V2 rimane un esempio altamente specializzato, ma altamente esemplificativo di come l’intelligenza artificiale stia spostando la sua attenzione dall'”indovinare la risposta corretta” al controllo del processo di pensiero del modello. E la risposta entusiasta a questo nuovo prodotto da parte di sviluppatori, ricercatori e appassionati di competizioni matematiche dimostra che la corsa è ora aperta non solo per l’intelligenza generale, ma anche per la qualità e la verificabilità del ragionamento.
Redazione
Secondo l’esperto di informatica forense Elom Daniel, i messaggi di WhatsApp possono contenere dati di geolocalizzazione nascosti anche quando l’utente non ha intenzionalmente condiviso la propria...

L’ecosistema npm è nuovamente al centro di un vasto attacco alla supply chain attribuito alla campagna Shai-Hulud. Questa ondata ha portato alla diffusione di centinaia di pacchetti apparentemente ...

Il team di GrapheneOS annuncia la chiusura completa della sua infrastruttura in Francia. Gli sviluppatori stanno accelerando il passaggio dal provider di hosting OVH e accusano dalle autorità frances...

Il Roskomnadzor della Federazione Russa ha annunciato che continua a imporre restrizioni sistematiche all’app di messaggistica WhatsApp a causa di violazioni della legge russa. Secondo l’agenzia, ...

Siamo nell’era dell’inganno a pagamento. Ogni tuo click è un referendum privato in cui vincono sempre loro, gli algoritmi. E non sbagliano mai: ti osservano, ti profilano, ti conoscono meglio di ...