Red Hot Cyber

La cybersecurity è condivisione.
Riconosci il rischio, combattilo, condividi le tue esperienze ed 
incentiva gli altri a fare meglio di te.

Cerca

ZeroTrust Dataset: Il Profondo Rosso degli Attacchi Contraddittori e di Avvelenamento dei dati e il loro controllo

Massimiliano Brolli : 28 Marzo 2024 07:46

Gli attacchi di Avvelenamento dei dati nell’ambito dell’Intelligenza Artificiale (IA) stanno diventando sempre più pervasivi, con potenziali conseguenze devastanti. L’accesso non autorizzato ai dataset e la manipolazione degli stessi possono generare gravi problemi di sicurezza e affidabilità nei modelli di apprendimento automatico.

La manipolazione di queste preziose informazioni, attraverso attacchi di avvelenamento dei dati (Poisoning Attack) o contraddittori (Adversarial Attack), possono portare a degli output completamente differenti rispetto alle attese.

Ad esempio, nell’ambito del riconoscimento delle immagini, un’immagine può essere modificata in modo impercettibile aggiungendo del rumore o alterando pochissimi pixel. Tuttavia, queste piccolissime modifiche possono essere sufficienti a confondere un modello di una IA durante la fase di inferenza.

Ecco quindi che nasce il concetto di “ZeroTrust Dataset”.

Questo termine si riferisce a un dataset che è stato accuratamente verificato in termini di sicurezza, il quale mantiene un equilibrio non solo dal punto di vista etico e di genere, ma anche in termini di rappresentazione culturale, diversità, inclusione e trasparenza. L’obiettivo è quindi creare dataset sicuri che possano essere utilizzati nell’addestramento dei modelli di intelligenza artificiale, offrendo una base solida e affidabile per lo sviluppo di algoritmi e applicazioni avanzate.

Attacchi di Avvelenamento dei dati e Movimenti Laterali

Nell’era digitale, l’accesso non autorizzato a dataset e la manipolazione dei dati rappresentano una minaccia subdola e insidiosa per i sistemi di Intelligenza Artificiale (IA). Gli attacchi di avvelenamento e i movimenti laterali all’interno dei sistemi informatici creano un terreno fertile per la compromissione dei dataset utilizzati per l’addestramento degli algoritmi di apprendimento automatico.

Gli attacchi di avvelenamento si infiltrano nell’integrità dei dataset, introducendo dati dannosi o manipolati. Ma tali dataset possono anche essere prelevati da repository pubblici i quali non essendo stati verificati, possono contenere delle backdoor ignote che possono rivelarsi altamente pericolose per il modello stesso.

Questi dati possono essere inseriti in modo strategico per influenzare il processo decisionale degli algoritmi, portando a risultati distorti o addirittura dannosi. Attraverso attacchi di ingegneria sociale o attraverso vulnerabilità software, un attaccante potrebbe insinuarsi nell’infrastruttura IT di una azienda e attraverso movimenti laterali raggiungere il target: i dataset di apprendimento degli algoritmi di IA. A questo punto poter manipolare a piacimento il dataset consentirebbe all’attaccante di alterare l’integrità dei dati in esso contenuti ed inserire al suo interno potenziali backdoor in modo graduale e discreto.

Il pericolo di questi attacchi risiede nella loro natura sfuggente e nel loro potenziale impatto. Le manipolazioni nei dataset possono compromettere la fiducia nel processo decisionale degli algoritmi di IA, portando a risultati errati di etichettatura del modello.

Affrontare questa minaccia richiede un approccio multidimensionale alla sicurezza informatica e alla sicurezza dei dataset e dei sistemi di IA. È fondamentale quindi implementare misure robuste di sicurezza informatica e come sempre, non dimenticarsi della consapevolezza del rischio informatico e la formazione del proprio personale, anche se qua si tratta di altra storia.

L’importanza del dato

Nel contesto dell’Intelligenza Artificiale (IA), la fiducia nei dataset utilizzati per l’addestramento dei modelli rappresenta un elemento fondamentale per garantire l’integrità e l’affidabilità dei risultati. Il concetto di “trust” nei dataset sottolinea la necessità di considerare questi dati come fonti accurate e prive di interferenze esterne, indispensabili per lo sviluppo di sistemi di IA etici ed efficaci.

I dataset sono l’input primario per l’addestramento degli algoritmi di apprendimento automatico e, di conseguenza, la qualità e l’affidabilità di tali dati influenzano direttamente le prestazioni e la validità dei modelli risultanti. Il trust nei dataset implica quindi la garanzia che le informazioni in essi contenute siano accurate, rappresentative e prive di manipolazioni malevole.

Un aspetto cruciale del trust nei dataset è il bilanciamento etico e di genere delle informazioni. I dataset devono riflettere in modo equo la diversità della società, evitando discriminazioni o distorsioni nei confronti di determinati gruppi o categorie. Questo richiede una cura particolare nella selezione e nell’annotazione dei dati, assicurando una rappresentazione equa e inclusiva di tutte le persone e le realtà presenti nel contesto analizzato.

Inoltre, il trust nei dataset implica anche la verifica e la validazione continua delle informazioni contenute in essi. È fondamentale garantire che i dati siano accurati, aggiornati e liberi da errori o manipolazioni. Questo richiede l’implementazione di procedure di controllo di qualità rigorose e sistemi di monitoraggio costante, al fine di identificare e correggere eventuali anomalie o discrepanze.

La nascita del concetto di “ZeroTrust Dataset” riflette proprio questa esigenza di garanzia di un livello elevato di sicurezza e affidabilità nei dataset utilizzati per l’addestramento di modelli di IA. Questi dataset devono essere privi di interferenze esterne e correttamente bilanciati dal punto di vista etico e di genere, rappresentando così un fondamento solido per lo sviluppo di sistemi di IA sicuri ed etici.

Nascita del Concetto di ZeroTrust Dataset

Il concetto emergente di “ZeroTrust Dataset” rappresenta una risposta chiave alle sfide sempre più complesse e pervasivi associate alla sicurezza dei dati nell’ambito dell’Intelligenza Artificiale (IA). L’evoluzione di questo concetto è motivata dalla necessità di garantire un livello elevato di sicurezza e affidabilità nei dataset utilizzati per addestrare gli algoritmi di apprendimento automatico.

ZeroTrust Dataset nasce dalla consapevolezza che, in un contesto digitale sempre più vulnerabile, non è più sufficiente affidarsi ciecamente alla provenienza o alla qualità dei dati. La fiducia nei dataset deve essere guadagnata attraverso una rigorosa valutazione della loro sicurezza e affidabilità, indipendentemente dalle loro origini.

Questo approccio si basa sull’idea fondamentale che nessun dato debba essere considerato affidabile per impostazione predefinita. In altre parole, è necessario adottare una mentalità di “Zero Trust” nei confronti dei dati, considerandoli potenzialmente compromessi finché non viene dimostrato il contrario attraverso rigorosi processi di verifica e validazione.

L’introduzione di ZeroTrust Dataset riflette anche la crescente consapevolezza dei rischi associati ai movimenti laterali all’interno dei sistemi di IA. Come discusso precedentemente, i movimenti laterali consentono agli attaccanti di muoversi liberamente all’interno dei sistemi una volta ottenuto l’accesso iniziale, rendendo possibile la manipolazione dei dataset utilizzati per l’addestramento dei modelli. In questo contesto, lo ZeroTrust Dataset si rivela tale solo attraverso ricorsive attività di controllo, che possono verificare eventuali violazioni e ripristinarne la sicurezza.

È importante sottolineare che il concetto di ZeroTrust Dataset andrà sempre più di pari passo con l’evoluzione dei sistemi di IA.

Problemi di Regolamentazione e Laboratori di Certificazione dei Dataset

Attualmente, uno dei principali ostacoli nel campo dell’Intelligenza Artificiale (IA) è la mancanza di regolamentazione e certificazione dei dataset. Questa lacuna normativa lascia spazio a una serie di rischi e sfide legate alla sicurezza e all’affidabilità dei dati utilizzati per addestrare gli algoritmi di IA. Tuttavia, stanno emergendo iniziative e proposte normative, come l’AI Act, che mirano a definire un quadro regolatorio chiaro e metodico per affrontare questi problemi.

L’AI Act, proposto dall’Unione Europea, rappresenta un tentativo significativo di regolamentare l’uso e lo sviluppo dell’IA, incluso l’addestramento dei modelli sui dataset. Questa proposta legislativa mira a garantire un utilizzo etico, sicuro e responsabile dell’IA, introducendo norme e standard riguardanti la qualità e la sicurezza dei dati utilizzati per addestrare gli algoritmi.

Tuttavia, nonostante questi sforzi, resta ancora molto da fare per sviluppare un quadro normativo completo e coerente per la governance dei dataset nell’IA. Attualmente, mancano regole specifiche per la valutazione e la certificazione dei dataset, nonché per la responsabilità legali in caso di utilizzo di dati non conformi alle normative etiche e di sicurezza ancora tutte da definire.

E’ quanto mai necessario affrontare il problema della disponibilità e dell’accessibilità dei dataset validati e sicuri per le aziende operanti nel mondo dell’IA. Molti dataset gratuiti, spesso utilizzati per ragioni di convenienza e di costo, possono contenere vulnerabilità o essere soggetti a manipolazioni malevole.

È quindi fondamentale creare degli specifici laboratori di certificazione dei dataset a livello europeo che possano effettuare ricerca, valutazione e controllo dei dataset che possano essere utilizzati in infrastrutture critiche nazionali.

Tali laboratori dovranno occuparsi di:

  1. Valutare la qualità dei dati: I laboratori potrebbero valutare la qualità dei dataset in termini di accuratezza, completezza, rappresentatività e privazione di pregiudizi. Ciò potrebbe coinvolgere l’analisi della precisione dei dati rispetto al fenomeno che intendono rappresentare e la valutazione della presenza di eventuali bias o distorsioni nei dati;
  2. Certificazione di conformità normativa: I laboratori potrebbero verificare che i dataset siano conformi alla normativa sulla protezione dei dati personali e ad altre normative applicabili in materia di privacy e sicurezza dei dati. Ciò potrebbe includere la valutazione della conformità alle leggi sulla privacy, alla normativa sulla sicurezza dei dati e alle linee guida etiche;
  3. Trasparenza e documentazione: I laboratori potrebbero richiedere agli operatori di fornire documentazione dettagliata sulla provenienza, sulla qualità e sulla manipolazione dei dati nei loro dataset. Ciò potrebbe includere informazioni sulla raccolta dei dati, sulle fonti dei dati, sulle metodologie di campionamento e sulla gestione dei dati mancanti o incompleti;
  4. Revisione indipendente: I laboratori potrebbero condurre revisioni indipendenti dei dataset per garantire l’integrità e l’affidabilità delle fonti. Ciò potrebbe coinvolgere la revisione dei metodi di raccolta dati, la validazione dei dati rispetto alle fonti originali e la verifica della conformità alle migliori pratiche e agli standard di settore;
  5. Certificazione di qualità: Una volta completata l’analisi e la valutazione, i laboratori potrebbero rilasciare certificazioni di qualità per i dataset che soddisfano determinati criteri di qualità e affidabilità. Queste certificazioni potrebbero essere utilizzate dagli operatori di IA e dalle parti interessate come marchio di garanzia per la qualità e l’affidabilità dei dati;
  6. Ricerca & Sviluppo: I laboratori dovrebbero impegnarsi costantemente nell’analizzare ulteriori modalità di manipolazione dei dataset, conducendo attività di ricerca per comprendere nuovi metodi e tecniche utilizzati dai malintenzionati. Questo sforzo di ricerca dovrebbe essere accompagnato dalla definizione di adeguate strategie di mitigazione e contromisure per contrastare gli scenari di manipolazione individuati;
  7. Collaborazione con la comunità scientifica: Inoltre, i laboratori potrebbero collaborare attivamente con la comunità scientifica e le istituzioni accademiche per condividere le scoperte e promuovere lo sviluppo di soluzioni innovative per proteggere l’integrità e l’affidabilità dei dataset utilizzati nell’ambito dell’intelligenza artificiale.

Per affrontare questi problemi, sono necessarie iniziative a livello europeo di livello “politico” e non solo a livello livello nazionale, regionale o della singola azienda. Laboratori centrali, possibilmente a livello europeo o internazionale, sono quantomai necessari per supervisionare la qualità e la sicurezza dei dataset e renderli disponibili solo dopo aver superato rigorosi test di verifica e certificazione.

Guardando al futuro, è chiaro che la regolamentazione dei dataset nell’IA diventerà sempre più cruciale. L’evoluzione delle tecnologie di IA e il loro impatto sempre maggiore sulla società rendono essenziale garantire la sicurezza e l’affidabilità dei dati utilizzati per addestrare gli algoritmi. Solo attraverso un quadro normativo chiaro e coerente sarà possibile garantire un utilizzo etico, sicuro e responsabile dell’IA, nel rispetto dei diritti e delle normative vigenti.

Conclusioni

L’importanza dei dataset nell’addestramento degli algoritmi di Intelligenza Artificiale (IA) è indiscutibile. Essi costituiscono il fondamento su cui si basano i modelli di IA, influenzando direttamente la loro efficacia, etica e la sicurezza. Tuttavia, la crescente complessità del mondo digitale hanno evidenziato la necessità di garantire un livello elevato di sicurezza e affidabilità nei dataset utilizzati per l’IA.

Gli attacchi di avvelenamento rappresentano una minaccia sempre più pervasiva, mettendo in discussione l’integrità dei dati e la validità dei modelli risultanti. In questo contesto, il concetto di ZeroTrust Dataset emerge come una risposta chiave per mitigare i rischi associati a tali minacce, garantendo che i dati utilizzati per addestrare gli algoritmi siano affidabili e privi di interferenze malevole.

Tuttavia, la mancanza di una regolamentazione efficace dei dataset rappresenta ancora un ostacolo significativo. Mentre iniziative come l’AI Act dell’Unione Europea offrono una base per una governance più robusta dell’IA, resta ancora molto da fare per sviluppare un quadro normativo completo e coerente per la gestione dei dataset.

Guardando al futuro, è chiaro che la sicurezza e l’affidabilità dei dataset diventeranno sempre più cruciali. È essenziale promuovere la creazione e l’utilizzo di dataset supervisionati e certificati, anche per la sicurezza nazionale che rispettino standard elevati di sicurezza e qualità. Solo attraverso un impegno collettivo per garantire un utilizzo etico, sicuro e responsabile dell’IA potremo sfruttare appieno il potenziale di questa tecnologia e affrontare le sfide etiche e sociali del nostro tempo.

Massimiliano Brolli
Responsabile del RED Team di TIM S.p.a. e dei laboratori di sicurezza informatica in ambito 4G/5G. Ha rivestito incarichi manageriali in Telecom Italia che vanno dal ICT Risk Management all’ingegneria del software alla docenza.