I ricercatori del Security, Algorithms, Networking and Data (SAND) Lab dell’Università di Chicago hanno testato i programmi di sintesi vocale deepfake disponibili nella comunità di sviluppatori open source Github per vedere se potevano aggirare i sistemi di riconoscimento vocale in Amazon Alexa, WeChat e Microsoft Azure.
Secondo gli sviluppatori di SV2TTS, il programma impiega solo cinque secondi per creare una simulazione accettabile. Descritto come un “toolkit di clonazione vocale in tempo reale”, SV2TTS è stato in grado di ingannare Microsoft Azure circa il 30% delle volte e di ingannare con successo WeChat e Amazon Alexa nel 63% dei casi.
Il programma potrebbe ingannare le orecchie umane: su 200 volontari a cui è stato chiesto di identificare voci reali tra i deepfake, circa la metà delle volte le risposte erano sbagliate.
L’audio deepfake è stato utilizzato con maggior successo per simulare voci femminili e voci di non madrelingua inglese.
“Abbiamo scoperto che sia gli esseri umani che i computer possono essere facilmente ingannati dalla sintesi vocale”
hanno detto i ricercatori a NewScientist.
Gli esperti hanno testato un altro programma di sintesi vocale chiamato AutoVC, che richiede cinque minuti di audio per ricreare una voce umana.
AutoVC è riuscito a ingannare Microsoft Azure solo il 15% delle volte, quindi i ricercatori si sono rifiutati di testarlo su WeChat e Alexa.
Fonte
https://github.com/CorentinJ/Real-Time-Voice-Cloning
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull’informatica in generale.