L'IA costa troppo? Ecco come MoE e quantizzazione stanno cambiando le regole del gioco
Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
LECS 970x120 1
Banner Ransomfeed 320x100 1
L’IA costa troppo? Ecco come MoE e quantizzazione stanno cambiando le regole del gioco

L’IA costa troppo? Ecco come MoE e quantizzazione stanno cambiando le regole del gioco

Redazione RHC : 31 Maggio 2025 22:22

Man mano che i modelli linguistici di grandi dimensioni diventano più intelligenti, diventano anche più difficili da utilizzare. Ciò crea problemi, soprattutto nei paesi in cui l’accesso ai potenti chip americani è limitato, come la Cina. Tuttavia, anche al di fuori di queste regioni, sta crescendo l’interesse verso soluzioni che rendano l’IA più economica da utilizzare. Sempre più spesso gli sviluppatori utilizzano architetture Mixture of Experts (MoE) e tecnologie di compressione per ridurre i requisiti hardware e i costi di esecuzione dei grandi modelli linguistici (LLM).

Sebbene i primi modelli MoE, come Mixtral di Mistral AI, esistano da molto tempo, hanno iniziato a trovare un utilizzo diffuso nella pratica solo nell’ultimo anno. Oggi, architetture simili sono utilizzate nei modelli di Microsoft, Google, IBM, Meta, DeepSeek e Alibaba, tutti basati sul principio proposto nei primi anni ’90.

L’essenza del MoE è che il modello è costituito da molte sottoreti più piccole, gli “esperti”. Invece di attivare tutti i parametri, come avviene nei tradizionali modelli “densi”, il sistema collega solo gli esperti necessari per svolgere un compito specifico. Ad esempio, DeepSeek V3 utilizza 256 esperti instradati e uno generale, ma solo otto esperti instradati e uno generale sono attivi durante la generazione del testo. Ciò comporta notevoli guadagni in termini di efficienza: meno transazioni, minore produttività e minori costi di manutenzione.


Christmas Sale

Christmas Sale -40%
𝗖𝗵𝗿𝗶𝘀𝘁𝗺𝗮𝘀 𝗦𝗮𝗹𝗲! Sconto del 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮 del Corso "Dark Web & Cyber Threat Intelligence" in modalità E-Learning sulla nostra Academy!🚀 Fino al 𝟯𝟭 𝗱𝗶 𝗗𝗶𝗰𝗲𝗺𝗯𝗿𝗲, prezzi pazzi alla Red Hot Cyber Academy. 𝗧𝘂𝘁𝘁𝗶 𝗶 𝗰𝗼𝗿𝘀𝗶 𝘀𝗰𝗼𝗻𝘁𝗮𝘁𝗶 𝗱𝗲𝗹 𝟰𝟬% 𝘀𝘂𝗹 𝗽𝗿𝗲𝘇𝘇𝗼 𝗱𝗶 𝗰𝗼𝗽𝗲𝗿𝘁𝗶𝗻𝗮.
Per beneficiare della promo sconto Christmas Sale, scrivici ad [email protected] o contattaci su Whatsapp al numero di telefono: 379 163 8765.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Allo stesso tempo, la qualità dei modelli MoE potrebbe essere leggermente inferiore a quella delle loro controparti più dense. Ad esempio, il modello Qwen3-30B-A3B di Alibaba si è rivelato leggermente più debole nei risultati benchmark rispetto alla versione densa Qwen3-32B. Tuttavia, la nuova architettura richiede una larghezza di banda di memoria notevolmente inferiore: i parametri attivi in ​​MoE rappresentano solo una parte del volume totale, il che consente di fare a meno della costosa memoria HBM.

Per chiarezza, vale la pena confrontare i modelli Meta Llama 3.1 405B e Llama 4 Maverick. Il primo è un modello denso, che richiede oltre 405 GB di memoria e circa 20 TB/s di throughput per servire 50 token al secondo nella versione a 8 bit. Allo stesso tempo, anche il sistema di fascia alta basato su Nvidia HGX H100, il cui costo parte da 300 mila dollari, fornisce 26,8 TB/s e soddisfa praticamente tutte queste esigenze. Per eseguire una versione a 16 bit del modello, sarebbero necessari almeno due sistemi di questo tipo.

Il Llama 4 Maverick è un modello MoE con una quantità di memoria simile, ma ha solo 17 miliardi di parametri attivi. Ciò è sufficiente per ottenere le stesse prestazioni con una velocità di trasmissione inferiore a 1 TB/s. Sulla stessa base hardware, un modello del genere funzionerà molto più velocemente. In alternativa, se la velocità non è un fattore critico, è possibile utilizzarlo su soluzioni più economiche con GDDR6/7 o addirittura DDR, ad esempio sui nuovi server CPU di Intel.

Intel ha già dimostrato questa capacità: una piattaforma dual-socket basata su Xeon 6 con memoria MCRDIMM ad alta velocità ha mostrato una velocità di 240 token al secondo con una latenza media inferiore a 100 ms. Ciò è sufficiente per consentire a circa due dozzine di utenti di lavorare contemporaneamente con il modello.

Tuttavia, MoE riduce solo i requisiti di larghezza di banda, non quelli di memoria. Anche Llama 4 Maverick a 8 bit richiede oltre 400 GB di memoria video. Ed è qui che entra in gioco la seconda tecnologia chiave: la quantizzazione. La sua essenza è comprimere i pesi del modello mantenendone la precisione. Il passaggio da 16 a 8 bit non ha praticamente alcun effetto sulla qualità, ma la compressione a 4 bit richiede già dei compromessi. Alcuni sviluppatori, come DeepSeek, hanno iniziato ad addestrare i modelli direttamente in FP8, il che evita problemi di post-elaborazione.

Parallelamente si ricorre anche a metodi di potatura, ovvero alla rimozione di pesi in eccesso o insignificanti. Nvidia ha utilizzato attivamente questa pratica, rilasciando versioni ridotte di Llama 3 ed è stata una delle prime a implementare il supporto per FP8 e FP4, che riducono i requisiti di memoria e velocizzano i calcoli. AMD, a sua volta, sta preparando dei chip con supporto FP4 il mese prossimo.

Ad aprile Google ha mostrato come è possibile ottenere una compressione 4x nei suoi modelli Gemma 3 utilizzando l’apprendimento consapevole della quantizzazione (QAT). Allo stesso tempo, la qualità non è stata quasi influenzata e le perdite per perplessità sono state ridotte del 54%. Alcuni approcci, come Bitnet, vanno ancora oltre, comprimendo i modelli a 1,58 bit per parametro, il che ne riduce le dimensioni di un fattore 10.

Combinando MoE e quantizzazione, i modelli consumano molto meno memoria e larghezza di banda. Ciò è particolarmente rilevante nell’era delle soluzioni Blackwell Ultra più costose e delle restrizioni sulle esportazioni di chip. Anche se una delle due tecnologie viene utilizzata separatamente, è già in grado di ridurre significativamente i costi di lancio di modelli di grandi dimensioni e di renderli disponibili al di fuori dei data center.

Certo, resta un’ultima domanda: tutto questo porta con sé qualche vantaggio? Secondo un sondaggio IBM, solo il 25% dei progetti di intelligenza artificiale giustificava effettivamente l’investimento. Il resto, non ancora.

Seguici su Google News, LinkedIn, Facebook e Instagram per ricevere aggiornamenti quotidiani sulla sicurezza informatica. Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

  • AI
  • ia
  • innovazione
  • Intelligenza artificiale
  • ricerca
  • sviluppo
Immagine del sitoRedazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.

Lista degli articoli

Articoli in evidenza

Immagine del sito
MITRE pubblica la lista delle TOP25 debolezze software più pericolose del 2025
Di Redazione RHC - 13/12/2025

Il MITRE ha reso pubblica la classifica delle 25 più pericolose debolezze software previste per il 2025, secondo i dati raccolti attraverso le vulnerabilità del national Vulnerability Database. Tali...

Immagine del sito
Il Day-One del Caos di React2Shell! Spie, criminali e cryptominer si contendono i server
Di Redazione RHC - 13/12/2025

Un recente resoconto del gruppo Google Threat Intelligence (GTIG) illustra gli esiti disordinati della diffusione di informazioni, mettendo in luce come gli avversari più esperti abbiano già preso p...

Immagine del sito
Agenzia delle Entrate: accesso admin in vendita a 500$? Ecco perché i conti non tornano
Di Vincenzo Miccoli - 13/12/2025

All’interno del noto Dark Forum, l’utente identificato come “espansive” ha messo in vendita quello che descrive come l’accesso al pannello di amministrazione dell’Agenzia delle Entrate. Tu...

Immagine del sito
Apple aggiorna due bug 0day critici in iOS, presumibilmente abusati dagli spyware
Di Redazione RHC - 13/12/2025

In seguito alla scoperta di due vulnerabilità zero-day estremamente critiche nel motore del browser WebKit, Apple ha pubblicato urgentemente degli aggiornamenti di sicurezza per gli utenti di iPhone ...

Immagine del sito
Esce Kali Linux 2025.4! Miglioramenti e Novità nella Distribuzione per la Sicurezza Informatica
Di Redazione RHC - 12/12/2025

La recente edizione 2025.4 di Kali Linux è stata messa a disposizione del pubblico, introducendo significative migliorie per quanto riguarda gli ambienti desktop GNOME, KDE e Xfce. D’ora in poi, Wa...