
Il problema dei deepfake sta degenerando sempre più rapidamente.
Diversi lavori recenti hanno mostrato come è possibile ottenere immagini della testa umana altamente realistiche addestrando reti neurali convoluzionali per generarle.
Per creare un modello di testa parlante personalizzato, occorre l’addestramento su un ampio set di dati e di immagini di una singola persona.
Tuttavia, in molti scenari pratici, tali modelli di testa parlante possono essere creati anche con una singola immagine di una faccia di una persona.
La Cornell University ha presentato una ricerca per creare sistema con tale capacità, dove le AI eseguono un lungo meta-apprendimento su un ampio set di dati video, dopodiché risultano in grado di effettuare delle interpolazioni delle singole immagini e quindi generare dei video in modo naturale.
Il sistema di intelligenza artificiale risulta quindi in grado di inizializzare i parametri sia del generatore che del discriminatore in modo del tutto autonomo e specifico per quella singola immagine/persona, in modo che l’allenamento possa essere basato su poche immagini (ma anche una) e fatto rapidamente, nonostante la necessità di regolare decine di milioni di parametri.
Questo di fatto consente di creare delle teste parlanti partendo da un singolo ritratto.
I ricercatori di Samsung AI hanno creato recentemente un sistema in grado di generare un video di una persona che parla e fa espressioni ordinarie, da una sola immagine del viso utilizzando questi modelli.
Il risultato è abbastanza convincente e utilizza tre passaggi:
La promessa di questa tecnologia è quella di aiutare i grafici, gli sviluppatori di giochi e altri artisti ad accelerare i tempi di sviluppo, consentendo loro di spendere più tempo per le attività creative, ma ovviamente potrebbe anche generare degli usi impropri e alimentare i deepfake.
Pertanto oggi come oggi (ma soprattutto un domani), anche una singola immagine può rappresentare un modo per poter creare video di una persona di alta qualità che dice cose che non ha mai detto realmente in un video che risulta totalmente realistico.
Pertanto le foto dei profili di whatsapp, o sui social network (o immagini di visi presenti su internet in generale), possono alimentare un mercato dell’estorsione che al momento è solo immaginabile, ma in un futuro molto vicino altamente possibile.
Fonte
https://arxiv.org/abs/1905.08233
https://www.sciencealert.com/samsung-s-ai-can-now-generate-talking-heads-from-a-single-image
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

InnovazioneAlle dieci del mattino, a Wuhan, due robot umanoidi alti 1,3 metri iniziano a muoversi con precisione. Girano, saltano, seguono il ritmo. È il segnale di apertura del primo negozio 7S di robot umanoidi del…
Cyber ItaliaIl 29 gennaio 2026, sul forum BreachForums, l’utente p0ppin ha pubblicato un annuncio di vendita relativo a un presunto accesso amministrativo non autorizzato ai sistemi interni di una “Italian Car Company”. Come spesso accade in questo tipo di annunci, nessun riferimento…
Cyber NewsIvanti ha rilasciato una serie di aggiornamenti critici per arginare due vulnerabilità di sicurezza che hanno colpito Ivanti Endpoint Manager Mobile (EPMM). Si tratta di falle sfruttate attivamente in attacchi zero-day, una criticità tale da…
CulturaAlla fine degli anni 90, Internet era ancora piccolo, lento e per pochi. In quel periodo, essere “smanettoni” significava avere una conoscenza tecnica che sembrava quasi magia agli occhi degli altri. Non era raro che…
CulturaCerte volte, pensandoci bene, uno si chiede come facciamo a dare per scontato il mondo che ci circonda. Tipo, clicchiamo, scorriamo, digitiamo, e tutto sembra così naturale, quasi fosse sempre stato qui. E invece no,…