Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Condividi la tua difesa. Incoraggia l'eccellenza.
La vera forza della cybersecurity risiede
nell'effetto moltiplicatore della conoscenza.
Banner Desktop
Banner Ancharia Mobile 1
Cos’è La Distillazione nei Modelli Linguistici di Grandi Dimensioni (LLM)

Cos’è La Distillazione nei Modelli Linguistici di Grandi Dimensioni (LLM)

7 Febbraio 2025 07:23

“Non ci vuole un pennello grande ma un grande pennello!”, chi non si ricorda questa pubblicità storica?

Negli ultimi anni, i modelli linguistici di grandi dimensioni (LLM) come GPT hanno rivoluzionato il modo in cui interagiamo con l’intelligenza artificiale. Tuttavia, la loro enorme complessità e il consumo di risorse computazionali rappresentano un collo di bottiglia significativo per il loro utilizzo.

Per affrontare questo problema, i ricercatori hanno adattato una tecnica applicata precedentemente nelle reti neurali profonde, non limitata al caso degli LLM, chiamata distillazione del modello.


Cyber Offensive Fundamentale Ethical Hacking 02

Avvio delle iscrizioni al corso Cyber Offensive Fundamentals
Vuoi smettere di guardare tutorial e iniziare a capire davvero come funziona la sicurezza informatica?
La base della sicurezza informatica, al di là di norme e tecnologie, ha sempre un unico obiettivo: fermare gli attacchi dei criminali informatici. Pertanto "Pensa come un attaccante, agisci come un difensore". Ti porteremo nel mondo dell'ethical hacking e del penetration test come nessuno ha mai fatto prima. Per informazioni potete accedere alla pagina del corso oppure contattarci tramite WhatsApp al numero 379 163 8765 oppure scrivendoci alla casella di posta [email protected].


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Tale tecnica permette di utilizzare modelli di dimensioni più ridotte a partire da modelli più grandi, preservandone le capacità, le performance ed ottimizzandone l’aspetto computazionale.

Cos’è la distillazione di un modello?

La distillazione del modello (o knowledge distillation) è un processo di compressione in cui un modello più grande e complesso (insegnante) trasferisce la sua conoscenza a un modello più piccolo e leggero (studente).

Questo permette di ottenere un modello che consuma meno risorse, mantenendo un buon livello di accuratezza. La prima forma di distillazione si ha in un articolo del 2006 intitolato Model Compression. Nel paper, impiegarono come modello di classificazione un insieme (ensemble) di un centinaio di classificatori di base, per etichettare un ampio set di dati.

Successivamente, addestrarono una singola rete neurale su questo dataset etichettato. Il risultato fu un modello compatto, più piccolo e più veloce, ma con le stesse prestazioni dell’ensemble originale. Questo approccio fu poi rivisto e reso più computazionalmente efficiente in un paper del 2015 Distilling the Knowledge in a Neural Network di Hinton et al. con un’analogia presa dalle scienze naturali: molti insetti hanno dimensioni specifiche in base alle funzioni diverse che svolgono durante le fasi della loro vita; si va dall’estrazione di sostanze nutritive quando sono ”piccoli” fino alla riproduzione e al trasporto delle stesse quando sono ”grandi”.

Nel deep learning, invece, si utilizzano gli stessi modelli sia per la fase di addestramento, atta ad approssimare le leggi matematiche che regolano il comportamento dei dati, che per quelle di inferenza, atta a generalizzare su dati non presenti durante la fase precedente. L’idea è avere modelli di dimensioni diverse, con il più ”grande” che, dopo aver carpito il comportamento dei dati, passa le sue informazioni al modello più ”piccolo” durante il suo addestramento.

Come funziona la distillazione?

Il processo di distillazione avviene in tre fasi principali:

  1. Addestramento del modello insegnante: Un modello di grandi dimensioni viene addestrato su un enorme dataset per raggiungere elevate prestazioni.
    1. Generazione di risposte soft: L’insegnante genera previsioni (output) che non sono solo le etichette (label) delle risposte definitive, ma includono anche informazioni sulle probabilità (logit) di altre risposte plausibili. Si procede con il minimizzare la funzioni di perdita cross−entropy, definita a partire dalle suddette probabilità: la configurazione più probabile è quella che minimizza tale funzione, cioè quella della risposte definitive.
    1. Addestramento del modello studente: Il modello più piccolo viene addestrato utilizzando sia i dati originali che le risposte del modello insegnante. In questo modo, il modello studente apprende non solo il risultato finale, ma anche il ragionamento dietro le previsioni del modello insegnante.

Vantaggi e svantaggi della distillazione

A questo punto si può fare un bilancio ed elencare vantaggi e svantaggi di questo metodo:

  • Efficienza computazionale: I modelli distillati possono essere eseguiti su dispositivi con meno potenza computazionale.
  • Riduzione del consumo energetico: Meno calcoli significano un minore consumo energetico, contribuendo alla sostenibilità ambientale.
  • Maggiore velocità: I modelli più leggeri rispondono più rapidamente, migliorando l’esperienza utente. Ciò permette di superare e ottenere una soluzione ai limiti di complessità computazionale e di implementazione di cui si è parlato nell’introduzione.
  • Consolidamento di pattern errati e allucinazioni: Il modello insegnante potrebbe trasmettere i bias appresi al modello studente, propagando così i pattern errati. Inoltre, bisogna controllare la qualità delle risposte soft del modello insegnante e verificare che siano effettivamente coerenti con i dati con cui è stato addestrato, evitando che inferisca su tipologie di dati non presenti durante l’addestramento (allucinazioni).

Applicazioni della distillazione negli LLM

La distillazione è diventata un metodo chiave per trasferire le capacità avanzate degli LLM (Large Language Models) a modelli più piccoli, spesso open source, favorendo la democratizzazione dell’AI generativa.

Gli LLM proprietari sono difficili da adattare a contesti specifici e risultano troppo pesanti per l’esecuzione locale su dispositivi mobili, creando problemi di privacy e logistica. La distillazione consente di ridurre le dimensioni dei modelli mantenendone le capacità, permettendo l’uso su dispositivi più leggeri, senza la necessità di un’infrastruttura a elevato numero di GPU. Di seguito è riportata una serie di task, peculiari per gli LLM, che sfruttano la distillazione:

  • Modelli multilingue: l’uso di più insegnanti specializzati in lingue diverse permette di trasferire conoscenze linguistiche a un singolo modello studente.
  • Instruction tuning: LLM più grandi possono generare dataset per addestrare modelli più piccoli. Un esempio `e dato dalla recente diatriba tra DeepSeek e OpenAI: l’azienda americana ha affermato che sul modello Deepseek R1 è stata utilizzata la distillazione, prendendo le risposte generate da GPT-4 o1.
  • Allineamento e preferenze: un modello insegnante può valutare gli output del modello studente e affinare il suo comportamento tramite una variante del RLHF (Reinforcement Learning with Human Feedback), nota come RLAIF (Reinforcement Learning with AI Feedback).

Conclusione

La distillazione dei modelli è una tecnica essenziale per rendere l’intelligenza artificiale più accessibile ed efficiente. Con il continuo sviluppo di LLM sempre più avanzati, l’uso della distillazione diventerà sempre più importante per garantire un equilibrio tra prestazioni e sostenibilità.

Si potranno, così, avere dei ”pennelli” duttili e pronti per poter dipingere sulla tela della nostra quotidianità.

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Articoli in evidenza

Immagine del sitoCyber Italia
Domini italiani esposti su forum underground. C’è anche un ospedale
Luca Stivali - 12/01/2026

Nel monitoraggio quotidiano dei forum underground capita spesso di imbattersi in leak che, almeno a una prima lettura, sembrano “ordinari”: liste di credenziali, accessi a servizi legacy, dump poco strutturati. Il thread “NEW LEAK FTP LOGIN” comparso…

Immagine del sitoCultura
Torvalds chiude l’era dell’hype: nel kernel Linux conta solo la qualità, non l’IA
Redazione RHC - 11/01/2026

Linus Torvalds, il creatore di Linux, ha espresso una posizione ferma e senza mezze misure riguardo al dibattito sull’integrazione e l’uso di strumenti di intelligenza artificiale nella scrittura e revisione del codice del kernel di…

Immagine del sitoCybercrime
Caso AGCOM Cloudflare. Il Cloud è potere: quando la sicurezza nazionale è in mano alle Big Tech
Redazione RHC - 11/01/2026

Nel mondo di oggi la tecnologia non è più un mero strumento di efficienza o comodità, ma una leva geopolitica di primaria importanza. L’accesso a infrastrutture digitali, piattaforme cloud e sistemi di comunicazione non è…

Immagine del sitoCybercrime
Internet c’è, ma non funziona: la nuova trappola dei governi per controllarci tutti
Redazione RHC - 11/01/2026

Immaginate una situazione in cui Internet sembra funzionare, ma i siti web non si aprono oltre la prima schermata, le app di messaggistica sono intermittenti e le aziende sono in continuo cambiamento. Secondo gli autori…

Immagine del sitoCultura
Ritrovato dopo 50 anni: il raro nastro UNIX V4 rivive al Computer History Museum
Redazione RHC - 10/01/2026

Recentemente, una bobina di nastro magnetico è rimasta in un normale armadio universitario per mezzo secolo, e ora è improvvisamente diventata una scoperta di “archeologia informatica del secolo“. Un nastro con la scritta “UNIX Original…