Red Hot Cyber

La cybersecurity è condivisione.
Riconosci il rischio, combattilo, condividi le tue esperienze ed 
incentiva gli altri a fare meglio di te.

Cerca

Deepfake parlanti da una sola immagine. Il panorama è inquietante.

Redazione RHC : 2 Settembre 2021 20:41

Il problema dei deepfake sta degenerando sempre più rapidamente.

Diversi lavori recenti hanno mostrato come è possibile ottenere immagini della testa umana altamente realistiche addestrando reti neurali convoluzionali per generarle.

Per creare un modello di testa parlante personalizzato, occorre l’addestramento su un ampio set di dati e di immagini di una singola persona.

Tuttavia, in molti scenari pratici, tali modelli di testa parlante possono essere creati anche con una singola immagine di una faccia di una persona.

La Cornell University ha presentato una ricerca per creare sistema con tale capacità, dove le AI eseguono un lungo meta-apprendimento su un ampio set di dati video, dopodiché risultano in grado di effettuare delle interpolazioni delle singole immagini e quindi generare dei video in modo naturale.

Il sistema di intelligenza artificiale risulta quindi in grado di inizializzare i parametri sia del generatore che del discriminatore in modo del tutto autonomo e specifico per quella singola immagine/persona, in modo che l’allenamento possa essere basato su poche immagini (ma anche una) e fatto rapidamente, nonostante la necessità di regolare decine di milioni di parametri.

Questo di fatto consente di creare delle teste parlanti partendo da un singolo ritratto.

I ricercatori di Samsung AI hanno creato recentemente un sistema in grado di generare un video di una persona che parla e fa espressioni ordinarie, da una sola immagine del viso utilizzando questi modelli.

Il risultato è abbastanza convincente e utilizza tre passaggi:

  • Il modello di rete neurale apprende i punti di riferimento del viso su una grande quantità di dati video;
  • L’immagine del viso viene inserita nel modello (può essere un’immagine o anche un dipinto);
  • Attraverso un processo di “perdita di trasferimento di stile”, in pochi secondi, si ottiene un video realistico della testa in movimento .

La promessa di questa tecnologia è quella di aiutare i grafici, gli sviluppatori di giochi e altri artisti ad accelerare i tempi di sviluppo, consentendo loro di spendere più tempo per le attività creative, ma ovviamente potrebbe anche generare degli usi impropri e alimentare i deepfake.

Pertanto oggi come oggi (ma soprattutto un domani), anche una singola immagine può rappresentare un modo per poter creare video di una persona di alta qualità che dice cose che non ha mai detto realmente in un video che risulta totalmente realistico.

Pertanto le foto dei profili di whatsapp, o sui social network (o immagini di visi presenti su internet in generale), possono alimentare un mercato dell’estorsione che al momento è solo immaginabile, ma in un futuro molto vicino altamente possibile.

Fonte

https://arxiv.org/abs/1905.08233

https://www.sciencealert.com/samsung-s-ai-can-now-generate-talking-heads-from-a-single-image

Redazione
La redazione di Red Hot Cyber è composta da un insieme di persone fisiche e fonti anonime che collaborano attivamente fornendo informazioni in anteprima e news sulla sicurezza informatica e sull'informatica in generale.