Marcello Politi : 14 Dicembre 2023 09:50
Ad oggi, i large language models (LLMs) hanno dimensioni enormi e inoltre vengono utilizzati in molti software per permettere agli utenti di compiere azioni utilizzando semplicemente il linguaggio naturale.
Le recenti ricerche sull’intelligenza artificiale hanno dimostrato che i modelli linguistici di grandi dimensioni hanno buone capacità di generalizzazione permettendoci di utilizzare lo zero-shot learning, cioè poter chiedere al modello di risolvere un task per il quale non è stato addestrato.
Pensate che un modello come PaLM ha un totale di 540 miliardi di parametri, e questo non è neanche tra i modelli più grandi di oggi! Molte aziende desiderano utilizzare questi LLM e personalizzarli in base ai propri casi d’uso. Il problema è che utilizzare questi modelli in produzione in modo indipendente non è sempre fattibile in termini di costi e di hardware disponibile.
Iscriviti GRATIS alla RHC Conference 2025 (Venerdì 9 maggio 2025)
Il giorno Venerdì 9 maggio 2025 presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terrà
la RHC Conference 2025. Si tratta dell’appuntamento annuale gratuito, creato dalla community di RHC, per far accrescere l’interesse verso le tecnologie digitali, l’innovazione digitale e la consapevolezza del rischio informatico.
La giornata inizierà alle 9:30 (con accoglienza dalle 9:00) e sarà interamente dedicata alla RHC Conference, un evento di spicco nel campo della sicurezza informatica. Il programma prevede un panel con ospiti istituzionali che si terrà all’inizio della conferenza. Successivamente, numerosi interventi di esperti nazionali nel campo della sicurezza informatica si susseguiranno sul palco fino alle ore 19:00 circa, quando termineranno le sessioni. Prima del termine della conferenza, ci sarà la premiazione dei vincitori della Capture The Flag prevista per le ore 18:00.
Potete iscrivervi gratuitamente all'evento utilizzando questo link.
Per ulteriori informazioni, scrivi a [email protected] oppure su Whatsapp al 379 163 8765
Supporta RHC attraverso:
Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.
In un recente paper di Google AI, “Distilling Step by Step”, gli autori propongono un approccio per distillare la conoscenza di modelli di grandi dimensioni (540B PaLM) in uno molto più piccolo (770M-T5, 6GB RAM). La tecnica del distilling in generale consiste nell’utilizzare un modello molto grande per insegnare ad un modello più piccolo di comportarsi allo stesso modo. In questo modo potremo mettere in produzione solamente il modello più piccolo con prestazioni di poco inferiori.
Esistono due metodi principale che vengono utilizzati per customizzare un LLM a un caso d’uso specifico:
Nel paper, gli autori riformulano il problema della distillazione della conoscenza come un problema multi-task, utilizzando la generazione di rationale nella fase di addestramento.
Nello specifico l’apprendimento multi-task è un paradigma di apprendimento in cui il modello impara a svolgere più compiti/produrre più output simultaneamente al momento dell’addestramento (nel nostro caso label e rationale). Questo modello viene addestrato utilizzando una funzione loss che compone le loss di ogni singolo task:
C’è un grande interesse per le tecniche che permettono di ridurre le risorse necessarie per l’esecuzione di nuovi modelli di Machine Learning. In letteratura scientifica possiamo trovare diversi metodi per la compressione di tali modelli. Tra i più importanti abbiamo:
Se vi è piaciuto questo articolo, potreste essere interessati a saperne di più riguardo le tecniche di compressione quindi vi proprongo un mio recente articolo: Ottimizzare Modelli di Deep Learning in produzione.
Se volete implementare la distillazione della conoscenza o altre tecniche, potete consultare le seguenti librerie:
Una nuova campagna di phishing sta circolando in queste ore con un obiettivo ben preciso: spaventare le vittime con la minaccia di una multa stradale imminente e gonfiata, apparentemente proveniente d...
Negli ultimi giorni, NS Power, una delle principali aziende elettriche canadesi, ha confermato di essere stata vittima di un attacco informatico e ha pubblicato degli update all’interno della H...
1° Maggio, un giorno per onorare chi lavora, chi lotta per farlo in modo dignitoso e chi, troppo spesso, perde la vita mentre svolge la propria mansione. Nel 2025, l’Italia continua a pian...
Domani celebreremo uno degli elementi più iconici – e al tempo stesso vulnerabili – della nostra vita digitale: la password. Da semplice chiave d’accesso inventata negli anni...
Ci sono luoghi nel web dove la normalità cede il passo all’illecito, dove l’apparenza di un marketplace moderno e funzionale si trasforma in una vetrina globale per ogni tipo di rea...
Copyright @ REDHOTCYBER Srl
PIVA 17898011006