Alcuni di voi possono pensare che la data science e la cybersecurity siano due mondi separati, ma in realtà esistono interconnessioni significative tra le due discipline.
Dalla nascita del MLaaS, Machine Learning as a service, è diventato di fondamentale importanza capire i problemi che i modelli di Machine Learning possono comportare a livello di privacy e sicurezza.
Uno dei problemi più studiati è quello del Model Inversion Attack, che è un tipo di attacco in cui si cerca di inferire le informazioni riguardo un sogetto usando l’output di un modello di Machine Learning che questo ha usato.
Advertising
In questo articolo però vorrei porre la vostra attenzione a un caso ancora più specifico per introdurvi quello che viene chiamato Hidden Learning.
Setting
Immaginate di essere uno user, e di volerlo utilizzare una Neural Network fornitavi da una compagnia. Voi utilizzerete la rete dandogli in input dei dati sensibili per ricevere un output. Magari state usando un’app che crea un avatar da una vostra foto per esempio.
Siccome prima di usare l’app avete letto policy riguardo la privacy, siete certi però che la compagnia puo accedere esclusivamente all’output della rete e non alla vostra foto in input, quindi i vostri dati sensibili sono al sicuro. Ma in realtà, questo non vuol dire che la compagnia non possa utilizzare l’output per inferire qualche informazione sul vostro input. Questo potrebbe essere possibile se la compagnia ha utilizzato l’Hidden Learning.
Hidden Learning Framework
Mettiamoci adesso dal lato dell’attaccante, quindi nel caso precedente dal lato della compagnia. Quello che facciamo è di creare una rete ufficiale No che effettivamente risolva il task ufficiale To che gli user si aspettano, ma nello stesso momento creiamo una rete segreta Ns che risolve un altro task segreto Ts.
Il modello sarà trainato in contemporanea facendo una combinazione dell’output del task ufficiale e del task segreto, questa combinazione potrebbe essere banalmente la somma delle loss. Quindi la rete imparerà in contemporanea a risolvere entrambi i task.
Advertising
Questa rete non desterà sospetti perché il modello avrà una grande performance sul task ufficiale, quasi stato dell’arte, non ci sarà un grande downgrade, ma in più avremo la seconda parte della rete il cui task sarà quello di estrarre dall’output ottenuto di nuovo le informazioni contenute nell’input, un pò come funziona per gli autoencoder.
Perchè questo framework è pericoloso?
Immaginate durante un emergenza medica come quella del Covid-19 il governo che chiede ad una compagnia privata di sviluppare un’app che consenta di predire se una persona potrebbe manifestare sintomi gravi. Il codice non è open source e quindi non può essere controllato dalla community.
Se questa compagnia adottaste questo framework, potrebbe risalire a informazioni sensibili come il fatto, se la persona soffriva di malattia cardiovascolari o altro ancora.
Conclusioni
L’Hidden Learning è un framework semplice che permette di allenare una rete per risolvere un task segreto. Le performance del task originale vengono degradate non raggiungendo lo state dell’arte ma rimangono comunque molto buone da non destare sospetti.
L’output di una prima rete viene passata ad una seconda rete segreta che ricostruisce le informazioni di partenza. Questo può portare ad un data leackage, ed è un campo in cui si continuerà a fare molta ricerca.
📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su Google Discover (scorri in basso e clicca segui) e su 🔔 Google News. Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram. Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici
Esperto di intelligenza artificiale con una grande passione per l'esplorazione spaziale. Ho avuto la fortuna di lavorare presso l'Agenzia Spaziale Europea, contribuendo a progetti di ottimizzazione del flusso di dati e di architettura del software. Attualmente, sono AI Scientist & Coach presso la PiSchool, dove mi dedico alla prototipazione rapida di prodotti basati sull'intelligenza artificiale. Mi piace scrivere articoli riguardo la data science e recentemente sono stato riconosciuto come uno dei blogger più prolifici su Towards Data Science.
Aree di competenza:Intelligenza artificiale, AI decentralizzata su blockchain, Smart contract e protocolli ERC-8004, Sistemi multi-agente, Sicurezza e Defensive AI, Inference decentralizzata verificabile, Blockchain engineering e integrazione AI
Dopo il successo delle scorse edizioni, Red Hot Cyber è lieta di annunciare una nuova live-class del corso "Dark Web & Cyber Threat Intelligence". A differenza dei corsi e-learning pre-registrati, queste lezioni online in tempo reale, condotte dal professor Pietro Melillo, offrono un’esperienza formativa interattiva e coinvolgente, ideale per approfondire i contenuti e affrontare casi pratici.
Le Live Class sono progettate per garantire un apprendimento mirato e personalizzato, con un massimo di 14 partecipanti per sessione. Questo consente di adattare il percorso formativo alle esigenze specifiche, ma anche di mantenere alta la qualità: i posti sono limitati e nelle scorse edizioni sono andati in sold-out due settimane prima dell’inizio. Prenota subito per assicurarti il tuo posto!
Docente: Pietro Melillo, PhD presso l’Università del Sannio e docente presso IUSI University
Livello: Intermedio
Durata: 15 ore in Live Class con docente dal vivo
Prerequisiti: Navigazione Internet e conoscenze base di sicurezza informatica
Certificazione : Cyber Threat Intelligence Professional (CTIP) previo superamento dell’esame finale
Opportunità post-corso: Accesso al laboratorio operativo DarkLab per attività pratiche di intelligence
Al termine del corso, potrai accedere all’esclusivo Laboratorio di Intelligence DarkLab, un ambiente operativo dove mettere in pratica le competenze acquisite. Sarà l’occasione per sperimentare attività di investigazione nel Dark Web, analisi delle minacce e redazione di report di intelligence e ricerche approfondite.