I ricercatori del Security, Algorithms, Networking and Data (SAND) Lab dell’Università di Chicago hanno testato i programmi di sintesi vocale deepfake disponibili nella comunità di sviluppatori open source Github per vedere se potevano aggirare i sistemi di riconoscimento vocale in Amazon Alexa, WeChat e Microsoft Azure.
Secondo gli sviluppatori di SV2TTS, il programma impiega solo cinque secondi per creare una simulazione accettabile. Descritto come un “toolkit di clonazione vocale in tempo reale”, SV2TTS è stato in grado di ingannare Microsoft Azure circa il 30% delle volte e di ingannare con successo WeChat e Amazon Alexa nel 63% dei casi.
Il programma potrebbe ingannare le orecchie umane: su 200 volontari a cui è stato chiesto di identificare voci reali tra i deepfake, circa la metà delle volte le risposte erano sbagliate.
L’audio deepfake è stato utilizzato con maggior successo per simulare voci femminili e voci di non madrelingua inglese.
“Abbiamo scoperto che sia gli esseri umani che i computer possono essere facilmente ingannati dalla sintesi vocale”
hanno detto i ricercatori a NewScientist.
Gli esperti hanno testato un altro programma di sintesi vocale chiamato AutoVC, che richiede cinque minuti di audio per ricreare una voce umana.
AutoVC è riuscito a ingannare Microsoft Azure solo il 15% delle volte, quindi i ricercatori si sono rifiutati di testarlo su WeChat e Alexa.
Fonte
https://github.com/CorentinJ/Real-Time-Voice-Cloning
La Redazione di Red Hot Cyber fornisce aggiornamenti quotidiani su
bug,
data breach e
minacce globali. Ogni contenuto è validato dalla nostra community di esperti come
Pietro Melillo,
Massimiliano Brolli,
Sandro Sana,
Olivia Terragni e
Stefano Gazzella.
Grazie alla sinergia con i nostri
Partner leader nel settore (tra cui
Accenture,
CrowdStrike,
Trend Micro e
Fortinet), trasformiamo la complessità tecnica in consapevolezza collettiva, garantendo un'informazione accurata basata sull'analisi di fonti primarie e su una rigorosa
peer-review tecnica.