Red Hot Cyber

Sicurezza informatica, cybercrime, hack
news, e altro ancora
  • English

L’avvelenamento dei dati nelle AI porterà a non riconoscere i malware come tali

Negli ultimi dieci anni, l’intelligenza artificiale è stata utilizzata per il riconoscimento facciale, il rating del credito e le previsioni meteorologiche.

Allo stesso tempo, i casi di hack sofisticati sono diventati più frequenti. La combinazione di intelligenza artificiale e sicurezza informatica era inevitabile poiché entrambi i campi cercavano strumenti migliori e nuovi modi di utilizzare questa tecnologia.

Ma c’è un problema serio che minaccia di minare questi sforzi e potrebbe consentire agli aggressori di aggirare la protezione digitale senza essere scoperti.

Si tratta di una minaccia che a suo tempo avevamo trattato all’interno delle attività di hacking delle AI ovvero dell‘avvelenamento dei dati. 

Advertisements

Molte aziende potrebbero non essere preparate ad affrontare questi rischi sempre più crescenti. Si prevede che il mercato globale della sicurezza informatica dell’IA triplicherà fino a raggiungere i 35 miliardi di dollari entro il 2028. I fornitori di servizi di sicurezza e i loro clienti potrebbero dover combinare più strategie per raggiungere il giusto livello di sicurezza informatica.

Data un’enorme quantità di dati, ai computer può essere insegnato a classificare correttamente le informazioni. Lo stesso approccio viene utilizzato nella sicurezza informatica. Per catturare il malware, le aziende caricano i dati nei loro sistemi e lasciano che l’IA impari da sola. 

Grazie a numerosi esempi di codice buono e cattivo, i computer possono imparare a individuare il malware. 

I sistemi di apprendimento automatico richiedono un numero enorme di campioni correttamente etichettati per identificare con precisione le minacce. 

Advertisements

Il problema è che anche le più grandi società di sicurezza possono confrontare e classificare solo un numero limitato di esempi di malware, quindi non hanno altra scelta che acquistare altri propri dati di addestramento da altre fonti. Alcuni dati potrebbero potrebbero essere opensource o in crowdsourcing.

Ma qualche malintenzionato, potrebbe contrassegnando dei campioni come validi quando di fatto contengono codice dannoso. In questo modo un hacker può indurre la rete neurale a pensare che il codice pericoloso sia innocuo. 

Catturare tali campioni di codice è quasi impossibile. Il codice backdoor può bypassare completamente i meccanismi di difesa, avvelenando meno dello 0,7% dei dati inviati al suo sistema di apprendimento automatico.

Pertanto, un sistema di apprendimento automatico può diventare vulnerabile anche se utilizza solo una piccola quantità di dati open source non verificati.

Un modo per prevenire l’avvelenamento dei dati consiste nel controllare regolarmente l’accuratezza di tutte le etichette nei dati di addestramento da parte degli scienziati che sviluppano modelli di intelligenza artificiale.

Advertisements

Ad esempio, i ricercatori di OpenAI LLP, durante l’analisi dei set di dati per un nuovo strumento di imaging, hanno analizzato regolarmente i dati attraverso filtri speciali per garantire che ogni etichetta fosse accurata.

Ma come starete pensando, la complessità sta aumentando in modo impressionante e generalmente, la complessità non è un fattore che contribuisce ad aumentare la sicurezza.