
L’azienda cinese DeepSeek ha presentato una versione sperimentale del suo modello linguistico, DeepSeek-V3.2-Exp, che per la prima volta implementa una propria versione di attenzione sparsa, una tecnica che riduce significativamente i costi computazionali nell’elaborazione di lunghe sequenze di testo. Il nuovo meccanismo, denominato DeepSeek Sparse Attention, si dice in grado di ridurre di quasi la metà i costi di gestione del modello. Per dimostrare questi risparmi, l’azienda ha ridotto il prezzo delle API del 50%.
Il problema del carico computazionale nei modelli linguistici di grandi dimensioni è particolarmente acuto per i dialoghi lunghi. La classica architettura Transformer, sviluppata nel 2017, confronta ogni parola nella sequenza di input con ogni altra parola, con un conseguente aumento quadratico del numero di operazioni. Per mille parole, questo si traduce in un milione di confronti e per diecimila in cento milioni. Questo sovraccarico aumenta l’utilizzo di risorse nelle sessioni lunghe e rallenta le prestazioni, poiché il sistema è costretto a rianalizzare l’intera cronologia del dialogo a ogni nuova richiesta.
La tecnologia Sparse Attention funziona in modo diverso. Non abbina ogni parola a ogni altra, ma seleziona un insieme limitato delle connessioni più significative. DeepSeek utilizza un meccanismo proprietario chiamato Lightning Indexer, una piccola unità di rete neurale aggiuntiva che valuta la significatività delle coppie di parole e seleziona fino a 2.048 connessioni più rilevanti per ogni posizione. L’azienda non ha divulgato i dettagli su come l’indicizzatore prende le sue decisioni, ma afferma che non compromette la qualità della comprensione del testo.
Christmas Sale -40% 𝗖𝗵𝗿𝗶𝘀𝘁𝗺𝗮𝘀 𝗦𝗮𝗹𝗲! Sconto del 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮 del Corso "Dark Web & Cyber Threat Intelligence" in modalità E-Learning sulla nostra Academy!🚀
Fino al 𝟯𝟭 𝗱𝗶 𝗗𝗶𝗰𝗲𝗺𝗯𝗿𝗲, prezzi pazzi alla Red Hot Cyber Academy. 𝗧𝘂𝘁𝘁𝗶 𝗶 𝗰𝗼𝗿𝘀𝗶 𝘀𝗰𝗼𝗻𝘁𝗮𝘁𝗶 𝗱𝗲𝗹 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮.
Per beneficiare della promo sconto Christmas Sale, scrivici ad [email protected] o contattaci su Whatsapp al numero di telefono: 379 163 8765.
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
Test interni hanno dimostrato che il nuovo modello fornisce risultati comparabili alla versione precedente, DeepSeek-V3.1-Terminus, pur mantenendo un’elevata accuratezza e la capacità di elaborare sequenze lunghe. In particolare, DeepSeek ha reso open source i suoi componenti con licenza MIT e ha fornito pesi accessibili al pubblico, consentendo ad altri ricercatori di testare e sviluppare le soluzioni proposte.
DeepSeek ha fatto notizia per la prima volta a gennaio , quando il suo modello R1 ha raggiunto le prestazioni di OpenAI o1 con un costo di addestramento di soli 6 milioni di dollari. Inoltre, l’app di chat dell’azienda ha brevemente raggiunto il primo posto nell’app store per iPhone, superando ChatGPT. Da allora, l’attenzione del settore si è concentrata sul laboratorio cinese, costretto a trovare modi per ottimizzare i propri calcoli a causa dell’accesso limitato alle moderne GPU e ad altri chip specializzati a causa delle restrizioni all’esportazione.
Sebbene questo approccio abbia ricevuto da tempo scarsa attenzione e sia stato utilizzato per la prima volta in GPT-3 e in diversi altri modelli di sviluppatori occidentali, DeepSeek afferma che la sua implementazione ha consentito una messa a punto precisa e una significativa riduzione dei costi computazionali senza alcuna perdita di qualità evidente. Esperti indipendenti non hanno ancora confermato questi risultati, ma se le conclusioni dell’azienda si rivelassero corrette, tali metodi potrebbero cambiare significativamente l’economia dell’utilizzo di modelli di intelligenza artificiale a lungo termine.
Seguici su Google News, LinkedIn, Facebook e Instagram per ricevere aggiornamenti quotidiani sulla sicurezza informatica. Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

CyberpoliticaDietro il nome tecnicamente anodino di ChatControl si muove una delle più profonde torsioni del rapporto tra Stato, tecnologia e cittadini mai tentate nell’Unione europea. Non è una legge “contro la pedopornografia online”, come viene…
CulturaConosciamo quello che è stato considerato uno degli uomini di scienza, forse pari solo a Einstein, più poliedrici e geniali dello scorso secolo. Con un ampissimo spettro di talenti scientifici, sviluppati anche grazie ad un…
CybercrimeLa comunità dei criminali informatici sta rapidamente aumentando il suo interesse nel reclutare personale all’interno delle aziende. Invece di sofisticati attacchi esterni, i criminali si affidano sempre più a fonti interne, ovvero persone disposte a…
CyberpoliticaNella Virginia settentrionale, lungo quello che viene ormai definito il “corridoio dei data center”, sorgono enormi strutture senza finestre che costituiscono l’ossatura fisica della corsa statunitense all’intelligenza artificiale. Questi edifici, grandi quanto hangar industriali, assorbono…
HackingIl team AI Research (STAR) di Straiker ha individuato Villager, un framework di penetration testing nativo basato sull’intelligenza artificiale, sviluppato dal gruppo cinese Cyberspike. Lo strumento, presentato come soluzione red team, è progettato per automatizzare…