
La generazione automatica di video tramite intelligenza artificiale ha compiuto un salto significativo il 25 dicembre 2025, quando l’Università di Tsinghua ha annunciato il rilascio open source di TurboDiffusion. Il framework, sviluppato dal laboratorio TSAIL in collaborazione con Shengshu Technology e Biological Mathematics, consente di ridurre drasticamente i tempi di creazione dei video mantenendo una qualità visiva quasi priva di perdita.
Secondo i dati diffusi dal team di ricerca, TurboDiffusion permette di accelerare la generazione video fino a 200 volte rispetto ai modelli di diffusione tradizionali. In uno scenario che fino a poco tempo fa richiedeva diversi minuti di elaborazione, oggi è possibile ottenere un video in circa due secondi utilizzando una singola scheda grafica di fascia alta.

I test condotti su una RTX 5090 mostrano un confronto diretto particolarmente indicativo: un video di 5 secondi in risoluzione 480P, basato su un modello da 1,3 miliardi di parametri, richiedeva in precedenza circa 184 secondi di calcolo. Con TurboDiffusion, lo stesso processo viene completato in 1,9 secondi, con un incremento di velocità pari a circa 97 volte.
Avvio delle iscrizioni al corso Cyber Offensive Fundamentals Vuoi smettere di guardare tutorial e iniziare a capire davvero come funziona la sicurezza informatica? La base della sicurezza informatica, al di là di norme e tecnologie, ha sempre un unico obiettivo: fermare gli attacchi dei criminali informatici. Pertanto "Pensa come un attaccante, agisci come un difensore". Ti porteremo nel mondo dell'ethical hacking e del penetration test come nessuno ha mai fatto prima. Per informazioni potete accedere alla pagina del corso oppure contattarci tramite WhatsApp al numero 379 163 8765 oppure scrivendoci alla casella di posta [email protected].
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
L’effetto dell’ottimizzazione risulta evidente anche su modelli di dimensioni maggiori. Un modello immagine-video da 14 miliardi di parametri in risoluzione 720P può ora essere generato in 38 secondi, mentre versioni ottimizzate scendono a 24 secondi. La variante 480P dello stesso modello richiede meno di 10 secondi di elaborazione.
Il rallentamento storico dei modelli di generazione video basati su Diffusion Transformer è legato a tre fattori principali: l’elevato numero di passaggi di campionamento, il costo computazionale dei meccanismi di attenzione e i limiti di memoria della GPU. TurboDiffusion affronta questi colli di bottiglia integrando quattro tecnologie complementari.
Il primo elemento è SageAttention2++, una tecnica di attenzione a bassa precisione che utilizza quantizzazione INT8 e INT4. Attraverso strategie di smoothing e quantizzazione a livello di thread, il sistema riduce il consumo di memoria e accelera il calcolo dell’attenzione da tre a cinque volte, senza impatti visibili sulla qualità del video generato.

A questa soluzione si affianca l’attenzione Sparse-Linear Attention (SLA), che combina la selezione dei pixel rilevanti con una complessità computazionale lineare. Poiché SLA è compatibile con la quantizzazione a basso bit, può essere applicata in parallelo a SageAttention, amplificando ulteriormente l’efficienza dell’inferenza.
Il terzo pilastro è la distillazione a stadi rCM. Grazie a questo approccio, modelli che richiedevano decine di iterazioni possono ora generare risultati comparabili in uno o quattro passaggi, riducendo drasticamente la latenza complessiva.
Infine, TurboDiffusion (disponibile su GitHub) introduce la quantizzazione W8A8 per i livelli lineari e l’uso di operatori personalizzati sviluppati in Triton e CUDA. Questa combinazione sfrutta pienamente i Tensor Core INT8 della RTX 5090 e riduce il sovraccarico delle implementazioni standard di PyTorch. L’integrazione delle quattro tecniche consente di ottenere incrementi di velocità complessivi fino a 200 volte.
L’accelerazione ottenuta non rappresenta solo un progresso sperimentale. La possibilità di generare video 720P in pochi secondi su una singola GPU rende l’uso di questi modelli accessibile anche a singoli creatori, piccole imprese e contesti consumer, riducendo al contempo i costi di inferenza su infrastrutture cloud.
Secondo i ricercatori, una riduzione della latenza di inferenza fino a 100 volte consente alle piattaforme SaaS di servire un numero di utenti proporzionalmente maggiore a parità di risorse. Questo apre la strada a nuovi scenari, come l’editing video in tempo reale, la generazione interattiva di contenuti e la produzione automatizzata di format audiovisivi basati su AI.
Le tecnologie sviluppate dal team TSAIL risultano inoltre compatibili con architetture di chip AI cinesi, grazie all’uso di bassa profondità di bit, strutture sparse e operatori personalizzabili. SageAttention, in particolare, è già stato integrato in TensorRT di NVIDIA e adottato da piattaforme come Huawei Ascend e Moore Threads S6000, oltre che da numerose aziende e laboratori internazionali.
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

VulnerabilitàI ricercatori del team di Sicurezza Informatica e Crittografia Industriale della KU Leuven hanno scoperto una falla critica nel protocollo Google Fast Pair. La vulnerabilità consente agli aggressori di dirottare il controllo di milioni di…
CyberpoliticaNel mese di novembre il Servizio di Sicurezza britannico (MI5) ha inviato un avviso riservato a parlamentari e membri del loro staff per segnalare un’operazione di cyber-spionaggio riconducibile ad attori legati ai servizi segreti cinesi…
CybercrimeLe moderne funzioni di analisi automatica dei contenuti multimediali stanno modificando in profondità il modello di sicurezza degli smartphone. In particolare, la capacità dei dispositivi di elaborare allegati audio in modo proattivo, senza alcuna interazione…
CulturaMandiant ha reso pubblico un ampio set di tabelle rainbow dedicate a Net-NTLMv1 con l’obiettivo di dimostrare in modo concreto quanto questo protocollo di autenticazione sia ormai insicuro. Nonostante Net-NTLMv1 sia deprecato da anni e…
CybercrimeQuando si parla di cybersecurity, non è raro imbattersi in notizie che sembrano prese da un film di fantascienza. Eppure, la realtà è ancora più sorprendente e a volte inquietante. La storia dei due cittadini…