
Il problema dei deepfake sta degenerando sempre più rapidamente.
Diversi lavori recenti hanno mostrato come è possibile ottenere immagini della testa umana altamente realistiche addestrando reti neurali convoluzionali per generarle.
Per creare un modello di testa parlante personalizzato, occorre l’addestramento su un ampio set di dati e di immagini di una singola persona.
Tuttavia, in molti scenari pratici, tali modelli di testa parlante possono essere creati anche con una singola immagine di una faccia di una persona.
La Cornell University ha presentato una ricerca per creare sistema con tale capacità, dove le AI eseguono un lungo meta-apprendimento su un ampio set di dati video, dopodiché risultano in grado di effettuare delle interpolazioni delle singole immagini e quindi generare dei video in modo naturale.
Il sistema di intelligenza artificiale risulta quindi in grado di inizializzare i parametri sia del generatore che del discriminatore in modo del tutto autonomo e specifico per quella singola immagine/persona, in modo che l’allenamento possa essere basato su poche immagini (ma anche una) e fatto rapidamente, nonostante la necessità di regolare decine di milioni di parametri.
Questo di fatto consente di creare delle teste parlanti partendo da un singolo ritratto.
I ricercatori di Samsung AI hanno creato recentemente un sistema in grado di generare un video di una persona che parla e fa espressioni ordinarie, da una sola immagine del viso utilizzando questi modelli.
Il risultato è abbastanza convincente e utilizza tre passaggi:
La promessa di questa tecnologia è quella di aiutare i grafici, gli sviluppatori di giochi e altri artisti ad accelerare i tempi di sviluppo, consentendo loro di spendere più tempo per le attività creative, ma ovviamente potrebbe anche generare degli usi impropri e alimentare i deepfake.
Pertanto oggi come oggi (ma soprattutto un domani), anche una singola immagine può rappresentare un modo per poter creare video di una persona di alta qualità che dice cose che non ha mai detto realmente in un video che risulta totalmente realistico.
Pertanto le foto dei profili di whatsapp, o sui social network (o immagini di visi presenti su internet in generale), possono alimentare un mercato dell’estorsione che al momento è solo immaginabile, ma in un futuro molto vicino altamente possibile.
Fonte
https://arxiv.org/abs/1905.08233
https://www.sciencealert.com/samsung-s-ai-can-now-generate-talking-heads-from-a-single-image
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

CybercrimeQuando si parla di cybersecurity, non è raro imbattersi in notizie che sembrano prese da un film di fantascienza. Eppure, la realtà è ancora più sorprendente e a volte inquietante. La storia dei due cittadini…
CybercrimeDopo un lungo periodo di silenzio, il malware downloader Gootloader è tornato alla ribalta. Lo scorso novembre il team di Huntress ha rilevato una nuova campagna che indicava il ritorno di uno sviluppatore precedentemente associato…
CybercrimeNel corso di un’audizione al Senato francese, il ministro dell’Interno Laurent Nuñez ha illustrato in modo dettagliato le modalità del cyberattacco che ha colpito il suo dicastero, precisando fin da subito che parte delle informazioni…
VulnerabilitàCisco ha confermato che una falla critica di sicurezza zero-day, che consente l’esecuzione remota di codice, è attualmente oggetto di sfruttamento attivo nei suoi dispositivi Secure Email Gateway e Secure Email and Web Manager. Questa…
InnovazioneQuesta settimana ha segnato la fine di un’era: Microsoft ha finalmente terminato il supporto per Windows Server 2008, il sistema operativo basato su Windows Vista. Il sistema operativo server, nome in codice Longhorn Server, è…