Salvatore Ricciardi : 7 Febbraio 2025 07:23
“Non ci vuole un pennello grande ma un grande pennello!”, chi non si ricorda questa pubblicità storica?
Negli ultimi anni, i modelli linguistici di grandi dimensioni (LLM) come GPT hanno rivoluzionato il modo in cui interagiamo con l’intelligenza artificiale. Tuttavia, la loro enorme complessità e il consumo di risorse computazionali rappresentano un collo di bottiglia significativo per il loro utilizzo.
Per affrontare questo problema, i ricercatori hanno adattato una tecnica applicata precedentemente nelle reti neurali profonde, non limitata al caso degli LLM, chiamata distillazione del modello.
Scarica Gratuitamente Byte The Silence, il fumetto sul Cyberbullismo di Red Hot Cyber
«Il cyberbullismo è una delle minacce più insidiose e silenziose che colpiscono i nostri ragazzi. Non si tratta di semplici "bravate online", ma di veri e propri atti di violenza digitale, capaci di lasciare ferite profonde e spesso irreversibili nell’animo delle vittime. Non possiamo più permetterci di chiudere gli occhi».
Così si apre la prefazione del fumetto di Massimiliano Brolli, fondatore di Red Hot Cyber, un’opera che affronta con sensibilità e realismo uno dei temi più urgenti della nostra epoca.
Distribuito gratuitamente, questo fumetto nasce con l'obiettivo di sensibilizzare e informare. È uno strumento pensato per scuole, insegnanti, genitori e vittime, ma anche per chi, per qualsiasi ragione, si è ritrovato nel ruolo del bullo, affinché possa comprendere, riflettere e cambiare.
Con la speranza che venga letto, condiviso e discusso, Red Hot Cyber è orgogliosa di offrire un contributo concreto per costruire una cultura digitale più consapevole, empatica e sicura.
Contattaci tramite WhatsApp al numero 375 593 1011 per richiedere ulteriori informazioni oppure alla casella di posta [email protected]
Tale tecnica permette di utilizzare modelli di dimensioni più ridotte a partire da modelli più grandi, preservandone le capacità, le performance ed ottimizzandone l’aspetto computazionale.
La distillazione del modello (o knowledge distillation) è un processo di compressione in cui un modello più grande e complesso (insegnante) trasferisce la sua conoscenza a un modello più piccolo e leggero (studente).
Questo permette di ottenere un modello che consuma meno risorse, mantenendo un buon livello di accuratezza. La prima forma di distillazione si ha in un articolo del 2006 intitolato Model Compression. Nel paper, impiegarono come modello di classificazione un insieme (ensemble) di un centinaio di classificatori di base, per etichettare un ampio set di dati.
Successivamente, addestrarono una singola rete neurale su questo dataset etichettato. Il risultato fu un modello compatto, più piccolo e più veloce, ma con le stesse prestazioni dell’ensemble originale. Questo approccio fu poi rivisto e reso più computazionalmente efficiente in un paper del 2015 Distilling the Knowledge in a Neural Network di Hinton et al. con un’analogia presa dalle scienze naturali: molti insetti hanno dimensioni specifiche in base alle funzioni diverse che svolgono durante le fasi della loro vita; si va dall’estrazione di sostanze nutritive quando sono ”piccoli” fino alla riproduzione e al trasporto delle stesse quando sono ”grandi”.
Nel deep learning, invece, si utilizzano gli stessi modelli sia per la fase di addestramento, atta ad approssimare le leggi matematiche che regolano il comportamento dei dati, che per quelle di inferenza, atta a generalizzare su dati non presenti durante la fase precedente. L’idea è avere modelli di dimensioni diverse, con il più ”grande” che, dopo aver carpito il comportamento dei dati, passa le sue informazioni al modello più ”piccolo” durante il suo addestramento.
Il processo di distillazione avviene in tre fasi principali:
A questo punto si può fare un bilancio ed elencare vantaggi e svantaggi di questo metodo:
La distillazione è diventata un metodo chiave per trasferire le capacità avanzate degli LLM (Large Language Models) a modelli più piccoli, spesso open source, favorendo la democratizzazione dell’AI generativa.
Gli LLM proprietari sono difficili da adattare a contesti specifici e risultano troppo pesanti per l’esecuzione locale su dispositivi mobili, creando problemi di privacy e logistica. La distillazione consente di ridurre le dimensioni dei modelli mantenendone le capacità, permettendo l’uso su dispositivi più leggeri, senza la necessità di un’infrastruttura a elevato numero di GPU. Di seguito è riportata una serie di task, peculiari per gli LLM, che sfruttano la distillazione:
La distillazione dei modelli è una tecnica essenziale per rendere l’intelligenza artificiale più accessibile ed efficiente. Con il continuo sviluppo di LLM sempre più avanzati, l’uso della distillazione diventerà sempre più importante per garantire un equilibrio tra prestazioni e sostenibilità.
Si potranno, così, avere dei ”pennelli” duttili e pronti per poter dipingere sulla tela della nostra quotidianità.
Trend Micro ha rilevato un attacco mirato ai settori governativo e aeronautico in Medio Oriente, utilizzando un nuovo ransomware chiamato Charon. Gli aggressori hanno utilizzato una complessa catena d...
Diversi prodotti di sicurezza Fortinet, tra cui FortiOS, FortiProxy e FortiPAM, sono interessati da una vulnerabilità di evasione dell’autenticazione di alta gravità. La falla, monito...
Agosto Patch Tuesday: Microsoft rilascia aggiornamenti sicurezza che fixano 107 vulnerabilità nei prodotti del suo ecosistema. L’aggiornamento include correzioni per 90 vulnerabilità,...
29.000 server Exchange sono vulnerabili al CVE-2025-53786, che consente agli aggressori di muoversi all’interno degli ambienti cloud Microsoft, portando potenzialmente alla compromissione compl...
Come era prevedibile, il famigerato bug scoperto su WinRar, viene ora sfruttato attivamente dai malintenzionati su larga scala, vista la diffusione e la popolarità del software. Gli esperti di ES...