
Redazione RHC : 6 Ottobre 2025 06:49
L’azienda cinese DeepSeek ha presentato una versione sperimentale del suo modello linguistico, DeepSeek-V3.2-Exp, che per la prima volta implementa una propria versione di attenzione sparsa, una tecnica che riduce significativamente i costi computazionali nell’elaborazione di lunghe sequenze di testo. Il nuovo meccanismo, denominato DeepSeek Sparse Attention, si dice in grado di ridurre di quasi la metà i costi di gestione del modello. Per dimostrare questi risparmi, l’azienda ha ridotto il prezzo delle API del 50%.
Il problema del carico computazionale nei modelli linguistici di grandi dimensioni è particolarmente acuto per i dialoghi lunghi. La classica architettura Transformer, sviluppata nel 2017, confronta ogni parola nella sequenza di input con ogni altra parola, con un conseguente aumento quadratico del numero di operazioni. Per mille parole, questo si traduce in un milione di confronti e per diecimila in cento milioni. Questo sovraccarico aumenta l’utilizzo di risorse nelle sessioni lunghe e rallenta le prestazioni, poiché il sistema è costretto a rianalizzare l’intera cronologia del dialogo a ogni nuova richiesta.
La tecnologia Sparse Attention funziona in modo diverso. Non abbina ogni parola a ogni altra, ma seleziona un insieme limitato delle connessioni più significative. DeepSeek utilizza un meccanismo proprietario chiamato Lightning Indexer, una piccola unità di rete neurale aggiuntiva che valuta la significatività delle coppie di parole e seleziona fino a 2.048 connessioni più rilevanti per ogni posizione. L’azienda non ha divulgato i dettagli su come l’indicizzatore prende le sue decisioni, ma afferma che non compromette la qualità della comprensione del testo.
Scarica Gratuitamente Byte The Silence, il fumetto sul Cyberbullismo di Red Hot Cyber"Il cyberbullismo è una delle minacce più insidiose e silenziose che colpiscono i nostri ragazzi. Non si tratta di semplici "bravate online", ma di veri e propri atti di violenza digitale, capaci di lasciare ferite profonde e spesso irreversibili nell’animo delle vittime. Non possiamo più permetterci di chiudere gli occhi". Così si apre la prefazione del fumetto di Massimiliano Brolli, fondatore di Red Hot Cyber, un’opera che affronta con sensibilità e realismo uno dei temi più urgenti della nostra epoca. Distribuito gratuitamente, questo fumetto nasce con l'obiettivo di sensibilizzare e informare. È uno strumento pensato per scuole, insegnanti, genitori e vittime, ma anche per chi, per qualsiasi ragione, si è ritrovato nel ruolo del bullo, affinché possa comprendere, riflettere e cambiare. Con la speranza che venga letto, condiviso e discusso, Red Hot Cyber è orgogliosa di offrire un contributo concreto per costruire una cultura digitale più consapevole, empatica e sicura. Contattaci tramite WhatsApp al numero 375 593 1011 per richiedere ulteriori informazioni oppure alla casella di posta [email protected]
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
Test interni hanno dimostrato che il nuovo modello fornisce risultati comparabili alla versione precedente, DeepSeek-V3.1-Terminus, pur mantenendo un’elevata accuratezza e la capacità di elaborare sequenze lunghe. In particolare, DeepSeek ha reso open source i suoi componenti con licenza MIT e ha fornito pesi accessibili al pubblico, consentendo ad altri ricercatori di testare e sviluppare le soluzioni proposte.
DeepSeek ha fatto notizia per la prima volta a gennaio , quando il suo modello R1 ha raggiunto le prestazioni di OpenAI o1 con un costo di addestramento di soli 6 milioni di dollari. Inoltre, l’app di chat dell’azienda ha brevemente raggiunto il primo posto nell’app store per iPhone, superando ChatGPT. Da allora, l’attenzione del settore si è concentrata sul laboratorio cinese, costretto a trovare modi per ottimizzare i propri calcoli a causa dell’accesso limitato alle moderne GPU e ad altri chip specializzati a causa delle restrizioni all’esportazione.
Sebbene questo approccio abbia ricevuto da tempo scarsa attenzione e sia stato utilizzato per la prima volta in GPT-3 e in diversi altri modelli di sviluppatori occidentali, DeepSeek afferma che la sua implementazione ha consentito una messa a punto precisa e una significativa riduzione dei costi computazionali senza alcuna perdita di qualità evidente. Esperti indipendenti non hanno ancora confermato questi risultati, ma se le conclusioni dell’azienda si rivelassero corrette, tali metodi potrebbero cambiare significativamente l’economia dell’utilizzo di modelli di intelligenza artificiale a lungo termine.
Redazione
Un’indagine condotta dall’Unione Europea di Radiodiffusione (EBU), con il supporto della BBC, ha messo in luce che i chatbot più popolari tendono a distorcere le notizie, modificandone il senso, ...

Spesso abbiamo citato questa frase: “Combattere il cybercrime è come estirpare le erbacce: se non le estirpi completamente rinasceranno, molto più vigorose di prima” e mai come ora risulta esser...

Per tre giorni consecutivi, dal 19 al 22 ottobre, il Comune di Caponago è rimasto isolato dal web a causa di un insolito incidente: una volpe è finita in un pozzetto della rete telefonica, danneggia...

Un’allerta globale è stata lanciata dalla Cybersecurity and Infrastructure Security Agency (CISA) degli Stati Uniti, riguardante lo sfruttamento attivo di una falla critica di esecuzione di codice ...

Lunedì 20 ottobre, Channel 4 ha trasmesso un documentario completo condotto da un presentatore televisivo creativo integralmente dall’intelligenza artificiale. “Non sono reale. Per la prima volta...