Deepfake parlanti da una sola immagine. Il panorama è inquietante.

2 Settembre 2021 20:41

Il problema dei deepfake sta degenerando sempre più rapidamente.

Diversi lavori recenti hanno mostrato come è possibile ottenere immagini della testa umana altamente realistiche addestrando reti neurali convoluzionali per generarle.

Advertising

Per creare un modello di testa parlante personalizzato, occorre l’addestramento su un ampio set di dati e di immagini di una singola persona.

Tuttavia, in molti scenari pratici, tali modelli di testa parlante possono essere creati anche con una singola immagine di una faccia di una persona.

La Cornell University ha presentato una ricerca per creare sistema con tale capacità, dove le AI eseguono un lungo meta-apprendimento su un ampio set di dati video, dopodiché risultano in grado di effettuare delle interpolazioni delle singole immagini e quindi generare dei video in modo naturale.

Advertising

Il sistema di intelligenza artificiale risulta quindi in grado di inizializzare i parametri sia del generatore che del discriminatore in modo del tutto autonomo e specifico per quella singola immagine/persona, in modo che l’allenamento possa essere basato su poche immagini (ma anche una) e fatto rapidamente, nonostante la necessità di regolare decine di milioni di parametri.

Questo di fatto consente di creare delle teste parlanti partendo da un singolo ritratto.

I ricercatori di Samsung AI hanno creato recentemente un sistema in grado di generare un video di una persona che parla e fa espressioni ordinarie, da una sola immagine del viso utilizzando questi modelli.

Il risultato è abbastanza convincente e utilizza tre passaggi:

Il modello di rete neurale apprende i punti di riferimento del viso su una grande quantità di dati video;
L’immagine del viso viene inserita nel modello (può essere un’immagine o anche un dipinto);
Attraverso un processo di “perdita di trasferimento di stile”, in pochi secondi, si ottiene un video realistico della testa in movimento .

La promessa di questa tecnologia è quella di aiutare i grafici, gli sviluppatori di giochi e altri artisti ad accelerare i tempi di sviluppo, consentendo loro di spendere più tempo per le attività creative, ma ovviamente potrebbe anche generare degli usi impropri e alimentare i deepfake.

Pertanto oggi come oggi (ma soprattutto un domani), anche una singola immagine può rappresentare un modo per poter creare video di una persona di alta qualità che dice cose che non ha mai detto realmente in un video che risulta totalmente realistico.

Pertanto le foto dei profili di whatsapp, o sui social network (o immagini di visi presenti su internet in generale), possono alimentare un mercato dell’estorsione che al momento è solo immaginabile, ma in un futuro molto vicino altamente possibile.

Fonte

https://arxiv.org/abs/1905.08233

https://www.sciencealert.com/samsung-s-ai-can-now-generate-talking-heads-from-a-single-image

📢 Resta aggiornatoTi è piaciuto questo articolo? Rimani sempre informato seguendoci su 🔔 Google News.
Ne stiamo anche discutendo sui nostri social: 💼 LinkedIn, 📘 Facebook e 📸 Instagram.
Hai una notizia o un approfondimento da segnalarci? ✉️ Scrivici

Cropped RHC 3d Transp2 1766828557 300x300

Redazione

La Redazione di Red Hot Cyber fornisce aggiornamenti quotidiani su bug, data breach e minacce globali. Ogni contenuto è validato dalla nostra community di esperti come Pietro Melillo, Massimiliano Brolli, Sandro Sana, Olivia Terragni e Stefano Gazzella. Grazie alla sinergia con i nostri Partner leader nel settore (tra cui Accenture, CrowdStrike, Trend Micro e Fortinet), trasformiamo la complessità tecnica in consapevolezza collettiva, garantendo un'informazione accurata basata sull'analisi di fonti primarie e su una rigorosa peer-review tecnica.