Red Hot Cyber
Condividi la tua difesa. Incoraggia l'eccellenza. La vera forza della cybersecurity risiede nell'effetto moltiplicatore della conoscenza.
Cerca
TM RedHotCyber 970x120 042543
2nd Edition GlitchZone RHC 320x100 2
Intelligenza artificiale: Scopriamo cosa si intende per Training Set, Validation Set e Test Set

Intelligenza artificiale: Scopriamo cosa si intende per Training Set, Validation Set e Test Set

Simone Raponi : 25 Luglio 2023 10:15

Oggi parliamo di tre protagonisti fondamentali nel machine learning: i set di training, validation e test. Se avete mai avuto a che fare con il machine learning, vi sarete sicuramente imbattuti in questi termini.

Ma cosa significano e, soprattutto, perché sono così importanti? Ecco a voi una guida semplice e diretta.

Cos’è un Set di Training?

Il training set è dove tutto inizia. Questo set di dati viene utilizzato per addestrare il modello di machine learning, come suggerisce il nome. È il terreno di gioco principale per il nostro modello, dove apprende le regole del gioco.


Cve Enrichment Redhotcyber

CVE Enrichment
Mentre la finestra tra divulgazione pubblica di una vulnerabilità e sfruttamento si riduce sempre di più, Red Hot Cyber ha lanciato un servizio pensato per supportare professionisti IT, analisti della sicurezza, aziende e pentester: un sistema di monitoraggio gratuito che mostra le vulnerabilità critiche pubblicate negli ultimi 3 giorni dal database NVD degli Stati Uniti e l'accesso ai loro exploit su GitHub.

Cosa trovi nel servizio:
✅ Visualizzazione immediata delle CVE con filtri per gravità e vendor.
✅ Pagine dedicate per ogni CVE con arricchimento dati (NIST, EPSS, percentile di rischio, stato di sfruttamento CISA KEV).
✅ Link ad articoli di approfondimento ed exploit correlati su GitHub, per ottenere un quadro completo della minaccia.
✅ Funzione di ricerca: inserisci un codice CVE e accedi subito a insight completi e contestualizzati.


Supporta Red Hot Cyber attraverso: 

  1. L'acquisto del fumetto sul Cybersecurity Awareness
  2. Ascoltando i nostri Podcast
  3. Seguendo RHC su WhatsApp
  4. Seguendo RHC su Telegram
  5. Scarica gratuitamente “Byte The Silence”, il fumetto sul Cyberbullismo di Red Hot Cyber

Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì.

Pensa al training set come il libro di testo per un esame. Lo studi a fondo, comprendi i concetti, memorizzi i dettagli.

Cos’è un Set di Validation?

Il validation set è il secondo passo nel processo. Viene utilizzato per sintonizzare il modello e per evitare l’overfitting, che è quando un modello impara i dati di addestramento “a memoria”, rendendo il modello incapace di generalizzare bene su nuovi dati.

Puoi pensare al validation set come a un set di quiz basati sul tuo libro di testo. Testi quanto hai imparato e correggi il tuo metodo di studio in base ai risultati.

Cos’è un Set di Test?

Il test set è l’ultimo passo nel processo di addestramento. Viene utilizzato per valutare quanto bene il modello può generalizzare su dati mai visti prima. È come l’esame finale: non hai mai visto le domande prima, e il tuo punteggio riflette quanto bene hai compreso il materiale, non solo quanto bene lo hai memorizzato.

Una nota importante è che il test set dovrebbe rappresentare il più possibile la distribuzione dei dati che il modello incontrerà nel mondo reale. Questo significa che se il tuo modello dovrà fare previsioni su dati reali con caratteristiche particolari, il tuo set di test dovrebbe riflettere queste caratteristiche il più possibile.

Perché questa divisione?

L’obiettivo di dividere i dati in questi tre set è di prevenire l’overfitting e stimare l’abilità del modello di generalizzare su dati nuovi e non visti.

L’addestramento solo su set di training e validation non ci dà la certezza che il nostro modello generalizzerà bene su dati reali. Ecco perché il test set è così importante. Ci permette di avere un’idea più precisa di come il modello si comporterà quando lo implementeremo nel mondo reale.

Ma attenzione, il test set può darci un’indicazione, ma ancora non ci dice tutto. La performance del modello nei confronti dei business objectives, i risultati reali che vogliamo raggiungere, può essere influenzata da molti altri fattori. Ad esempio, le condizioni del mondo reale possono cambiare in modo imprevedibile rispetto a quelle dei nostri dati di test.

Conclusioni

In conclusione, i set di training, validation e test sono strumenti fondamentali nel processo di machine learning. Ricorda sempre di utilizzare tutti e tre per massimizzare le possibilità di successo del tuo modello!

Ma un modello ben addestrato non è sufficiente. È fondamentale monitorare costantemente le sue performance e adattarlo alle mutevoli condizioni del mondo reale. Solo così si può sperare di avvicinarsi al raggiungimento degli obiettivi di business.

Ricorda che la tua maratona di machine learning non finisce con un risultato decente su un test set. Il mondo reale è pieno di cambiamenti imprevisti e il tuo modello deve essere in grado di adattarsi per poter continuare ad essere rilevante nelle predizioni.

Immagine del sitoSimone Raponi
Esperto in machine learning e sicurezza informatica. Ha un dottorato in Computer Science and Engineering, durante il quale ha sviluppato modelli di intelligenza artificiale per rilevare pattern correlati alla cybersecurity. Durante la sua carriera accademica ha ricevuto diversi riconoscimenti ed ha pubblicato numerosi articoli scientifici divenuti popolari nell'ambito. Ex Machine Learning Scientist alla NATO, attualmente lavora come AI/ML Cybersecurity Engineer per una startup, dove impiega quotidianamente algoritmi di AI per affrontare e risolvere complesse sfide nel campo dell'automazione della sicurezza informatica.

Lista degli articoli

Articoli in evidenza

Immagine del sito
Inviare un’email a un destinatario sbagliato, è da considerarsi data breach?
Di Stefano Gazzella - 25/11/2025

Piaccia o meno, l’invio di un’email a un destinatario errato costituisce una violazione di dati personali secondo il GDPR. Ovviamente, questo vale se l’email contiene dati personali o se altrime...

Immagine del sito
5.000 utenti italiani “freschi” in vendita nelle underground. Scopriamo di cosa si tratta
Di Redazione RHC - 25/11/2025

Nel gergo dei forum underground e dei marketplace del cybercrime, il termine combo indica un insieme di credenziali rubate composto da coppie del tipo email:password. Non si tratta di semplici elenchi...

Immagine del sito
AGI: Storia dell’Intelligenza Artificiale Generale. Dalla nascita alla corsa agli armamenti
Di Redazione RHC - 25/11/2025

Sulla veranda di una vecchia baita in Colorado, Mark Gubrud, 67 anni, osserva distrattamente il crepuscolo in lontananza, con il telefono accanto a sé, lo schermo ancora acceso su un’app di notizie...

Immagine del sito
Anthropic lancia Claude Opus 4.5, il modello di intelligenza artificiale più avanzato
Di Redazione RHC - 24/11/2025

Anthropic ha rilasciato Claude Opus 4.5 , il suo nuovo modello di punta, che, secondo l’azienda, è la versione più potente finora rilasciata e si posiziona al vertice della categoria nella program...

Immagine del sito
La Sorveglianza Digitale sui Lavoratori sta Arrivando: Muovi il Mouse più Veloce!
Di Redazione RHC - 24/11/2025

Il lavoro da remoto, ha dato libertà ai dipendenti, ma con essa è arrivata anche la sorveglianza digitale. Ne abbiamo parlato qualche tempo fa in un articolo riportando che tali strumenti di monitor...