Sviluppo di una Pipeline di Training con RLHF per l’Allineamento dei LLMs: Strategie e Tecniche

Marcello Politi : 4 Dicembre 2023 07:56

Il Reinforcement Learning (RL) è storicamente legato ad ambiti diversi da quello dell’elaborazione del linguaggio naturale (NLP). Sicuramente è stato molto utilizzato nel campo della robotica. Pensate ad esempio ad un robot che deve apprendere come camminare rispettando un percorso.

Questo robot riceve un feedback negativo ogni volta che va a sbattere contro il muro, e in questo modo, come fa un bambino, sbagliando impara la strategia migliore per arrivare a destinazione.

Il Reinforcement learning with human feedback (RLHF), che ha recentemente attirato molta attenzione, ha avviato una nuova rivoluzione nell’applicazione delle tecniche di Reinforcment Learning (RL) nel campo dell’NLP, specialmente nei modelli di linguaggio più avanzati (LLM). In questo modo si riesce a sviluppare un modello che sia allineato con gli obiettivi umani, che generalmente consistono nel rispondere in modo etico ed evitando allucinazioni.

Sponsorizza la prossima Red Hot Cyber Conference!

Il giorno Lunedì 18 maggio e martedì 19 maggio 2026 9 maggio 2026, presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terrà la V edizione della la RHC Conference.
Si tratta dell’appuntamento annuale gratuito, creato dalla community di RHC, per far accrescere l’interesse verso le tecnologie digitali, l’innovazione digitale e la consapevolezza del rischio informatico.
Se sei interessato a sponsorizzare l'evento e a rendere la tua azienda protagonista del più grande evento della Cybersecurity Italiana, non perdere questa opportunità. E ricorda che assieme alla sponsorizzazione della conferenza, incluso nel prezzo, avrai un pacchetto di Branding sul sito di Red Hot Cyber composto da Banner più un numero di articoli che saranno ospitati all'interno del nostro portale.
Quindi cosa stai aspettando? Scrivici subito a [email protected] per maggiori informazioni e per accedere al programma sponsor e al media Kit di Red Hot Cyber.

Supporta Red Hot Cyber attraverso:

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

In questo blog, cercheremo di capire l’intero processo di addestramento basato sul RLHF per un LLM custom.

Il processo RLHF è composto da 3 fasi:

Domain Specific Pre-Training: Affinare un LLM pre-addestrato su dati testuali con un task obiettivo chiamato Causal Language Modelling.
Supervised fine-tuning: Affinare ulteriormente l’LLM su un dominio specifico utilizzando coppie di dati (prompt/istruzione, risposta).
RLHF
- Reward model training: Addestrare un modello linguistico per classificare le risposte come buone o cattive (spesso con feedback del tipo 👍 o 👎).
- RLHF fine-tuning: Utilizzare l’addestramento del modello di reward su dati (del tipo: prompt, buona risposta, cattiva risposta) etichettati dagli esperti umani per allineare le risposte dell’ LLM.

La pipeline di training è riassunta dal seguente diagramma.

Domain Specific Pre-training

La fase di domain specific pre-training è un fase in cui si fornisce al modello di linguaggio la conoscenza del dominio di applicazione finale (ad esempio ambito medico, giornalistico, etc). In questa fase, il modello viene perfezionato utilizzando il task di causal language modelling (cioè previsione del token/parola successivo), è molto simile a quando un modello viene addestrato da zero su un corpus di dati testuali grezzi specifici del dominio. In questo caso, tuttavia, i dati richiesti sono molto di meno, considerando che il modello è già stato pre-addestrato su milioni di token.

Per il task causal language modelling (CLM), prenderemo tutti i testi nel nostro dataset e li concateneremo dopo averli tokenizzati. Successivamente, li divideremo in esempi in sequenza di una certa lunghezza. In questo modo, il modello riceverà frammenti di testo contiguo e dovrà predirre il continuo della sequenza. Il modello dopo questa fase subirà una distribution shifting, cioè avrà più probabilità di generare la parola “malattia” se è stato addestrato su un dataset medico.

Supervised fine-tuning

L’output della fase di supervised fine tuning è un modello in grado di riconoscere il contesto del testo in input e generare le parole/frasi che siano legato al contesto e che siano della forma che ci aspettiamo. Questo modello assomiglia anche a un tipico modello sequence-to-sequence. Il fine-tuning supervisionato eseguito con coppie prompt-risposta è un metodo economico utilizzato per inserire conoscenze specifiche del dominio e del task in un LLM pre-addestrato per farlo rispondere a domande specifiche prendendo in considerazione il contesto.

Reward model training

Il RLHF è utilizzato per garantire che il LLM sia allineato alle preferenze umane e produca output migliori. A tal fine, il modello di ricompensa (o reward) viene addestrato per generare un punteggio per una ciascuna coppia (prompt, risposta), un pò come il robot che riceveva una ricompensa quando non sbatteva contro il muro.

Questo task può anche essere modellato come un semplice compito di classificazione. Il modello di ricompensa utilizza dati etichettati dove il ranking di preferenze su un numero n di risposte generate dal LLM sono state scelte da annotatori umani esperti.

RLHF fine-tuning (per allineamento)

In questa ultima fase, viene addestrato il modello generato dal passaggio 1, cioè il risultato dopo la fase di supervised fine tuning. Lo scopo è quello di generare degli output che massimizzino i punteggi del modello di reward. Fondamentalmente, utilizzeremo il modello di reward per regolare gli output del modello supervisionato in modo che produca risposte simili a quelle umane. Le ricerche hanno dimostrato che in presenza di dati di alta qualità, i modelli addestrati con il RLHF sono superiori ai modelli che sono solamente stati addestrati tramite il SFT. Questo addestramento viene eseguito utilizzando un metodo di apprendimento per rinforzo chiamato Proximal Policy Optimization (PPO).

L’Proximal Policy Optimization è un algoritmo di apprendimento per rinforzo introdotto da OpenAI nel 2017. Inizialmente utilizzato come uno degli algoritmi di deep reinforcement learning più performanti per problemi di controllo 2D e 3D (videogiochi, Go, locomozione 3D), PPO ha ora trovato un posto nell’NLP, nello specifico nel pipeline RLHF. Per una panoramica più dettagliata dell’algoritmo PPO, fare riferimento a questo link.

Conclusioni

In questo articolo, abbiamo brevemente introdotto il processo che molti ricercatori e ingegneri hanno utilizzato per creare i propri LLM specifici di dominio, allineati con le preferenze umane. Bisogna tenete a mente che il RLHF richiede un dataset curato di alta qualità etichettato da un esperto umano che ha valutato le risposte precedenti degli LLM (c’è quindi il coinvolgimento umano nel loop: “human in the loop”). Possiamo dire quindi che questo processo è costoso e lento. Oltre al RLHF, esistono nuove tecniche come DPO (Direct Preference Optimization) e RLAIF (Reinforcement Learning with AI Feedback). Questi metodi sono dimostrati essere più economici e rapidi rispetto a RLHF. Tuttavia, molti dei principi sottostanti rimangono gli stessi.

Marcello Politi
Esperto di intelligenza artificiale con una grande passione per l'esplorazione spaziale. Ho avuto la fortuna di lavorare presso l'Agenzia Spaziale Europea, contribuendo a progetti di ottimizzazione del flusso di dati e di architettura del software. Attualmente, sono AI Scientist & Coach presso la PiSchool, dove mi dedico alla prototipazione rapida di prodotti basati sull'intelligenza artificiale. Mi piace scrivere articoli riguardo la data science e recentemente sono stato riconosciuto come uno dei blogger più prolifici su Towards Data Science.

Lista degli articoli

Articoli in evidenza

Fastweb conferma il problema e fornisce una dichiarazione ufficiale

Di Redazione RHC - 22/10/2025

Nella giornata di oggi, migliaia di utenti Fastweb in tutta Italia hanno segnalato problemi di connessione alla rete fissa, con interruzioni improvvise del servizio Internet e difficoltà a navigare o...

Malfunzionamento Fastweb: migliaia di utenti senza connessione Internet

Di Redazione RHC - 22/10/2025

Mattinata difficile per i clienti Fastweb: dalle 9:30 circa, il numero di segnalazioni di malfunzionamento è schizzato alle stelle. Secondo i dati di Downdetector, le interruzioni hanno superato le 3...

Scientifica lancia la seconda edizione di GlitchZone per la cybersecurity

Di Redazione RHC - 22/10/2025

Dopo il successo dello scorso anno, Scientifica lancia la nuova edizione di GlitchZone, la competition dedicata alle start-up che sviluppano soluzioni innovative per la cybersecurity. L’iniziativa �...

HackerHood di RHC Rivela due nuovi 0day sui prodotti Zyxel

Di Redazione RHC - 21/10/2025

Il ricercatore di sicurezza Alessandro Sgreccia, membro del team HackerHood di Red Hot Cyber, ha segnalato a Zyxel due nuove vulnerabilità che interessano diversi dispositivi della famiglia ZLD (ATP ...

Vulnerabilità F5 BIG-IP: 266.000 dispositivi a rischio nel mondo! 2500 in Italia

Di Redazione RHC - 20/10/2025

La Cybersecurity and Infrastructure Security Agency (CISA) e il Multi-State Information Sharing & Analysis Center (MS-ISAC) pubblicano questo avviso congiunto sulla sicurezza informatica (CSA) in ...