All’inizio sembra quasi una notizia come tante, una di quelle che scorrono veloci. Poi però ti fermi, rileggi, e capisci che qualcosa si sta muovendo sul serio. Nel mondo della robotica e dell’intelligenza artificiale, soprattutto in Cina, il ritmo è diventato incalzante, quasi febbrile.
Il 12 febbraio Xiaomi ha deciso di fare il suo ingresso ufficiale in questa partita affollata, scegliendo una strada che ormai è tutto tranne che neutrale: l’open source. Una scelta che espone, certo, ma che promette anche velocità, influenza e, diciamo, una certa presa sull’ecosistema.
Il modello presentato si chiama Robotics-0 ed è il primo VLA open source dell’azienda. Parliamo di un sistema da 4,7 miliardi di parametri, pensato per consentire ai robot di eseguire compiti di manipolazione complessi, anche usando entrambe le mani. Non roba teorica, insomma.
Alla base c’è Qwen3-VL-4B-Instruct, un modello di visione-linguaggio rilasciato da Alibaba Cloud, capace di interpretare immagini e istruzioni in linguaggio naturale. Xiaomi ha innestato un trasformatore aggiuntivo per generare segmenti di azione continui e precisi. Il risultato? Un modello che prova a colmare il divario tra comprensione e azione.
I VLA, acronimo di Vision-Language-Action, sono modelli di intelligenza artificiale pensati per collegare tre capacità che, fino a poco tempo fa, vivevano separate. Da una parte la visione, quindi la capacità di interpretare ciò che una macchina “vede”; dall’altra il linguaggio, cioè la comprensione di istruzioni espresse in modo naturale; infine l’azione, ovvero l’esecuzione concreta di movimenti nel mondo fisico. L’idea è semplice solo in apparenza: permettere a un robot di osservare una scena, capire cosa gli viene chiesto e tradurre tutto questo in gesti coerenti e precisi.
La vera complessità dei VLA sta nel collegamento continuo tra queste tre dimensioni. Non si tratta solo di riconoscere un oggetto o decifrare una frase, ma di adattare l’azione mentre l’ambiente cambia. Se qualcosa scivola, se un oggetto non è dove ci si aspettava, il modello deve ricalcolare e correggere il movimento in tempo reale. È proprio questo passaggio dalla comprensione all’azione, fluido e dinamico, che rende i VLA centrali per la robotica moderna e li distingue dai modelli di sola visione o solo linguaggio.
I numeri sono importanti, e qui pesano.
Robotics-0 è stato addestrato su 204 milioni di iterazioni di traiettorie robotiche e 80 milioni di dati di visione e linguaggio, provenienti sia da fonti open source sia da teleoperazione. In totale, quasi 300 milioni di punti dati.
Nel post-addestramento entra in gioco una tecnica di esecuzione asincrona. In pratica, il robot può “pensare” alle azioni successive mentre ne sta già eseguendo un’altra. Gli esempi mostrati parlano chiaro: smontare costruzioni Lego fino a venti pezzi o piegare tovaglioli, adattando la presa se qualcosa va storto. Piccole cose, forse, ma molto rivelatrici.
Xiaomi sostiene che Robotics-0 superi la maggior parte dei modelli VLA esistenti. Secondo l’azienda, alcune capacità sarebbero superiori anche rispetto a modelli VLM come MolmoAct e Pi0.5. Il punto è che mancano dati pubblici dettagliati.
Questa assenza rende le affermazioni difficili da verificare e, inevitabilmente, un po’ fragili. È uno schema già visto: grandi promesse, benchmark citati, ma pochi numeri concreti messi sul tavolo.
Il contesto, poi, è tutt’altro che vuoto. ByteDance ha aperto la strada con GR-3 già nel luglio 2025, puntando su oggetti mai visti e concetti astratti. Xpeng ha rilanciato con VLA 2.0, pensato sia per la guida autonoma sia per la robotica. Alibaba, infine, è entrata con la famiglia Rynnbrain.
In questo scenario, l’open source diventa uno strumento strategico, quasi di soft power. Xiaomi non parte da zero: a novembre aveva già rilasciato MiMo-Embodied, e ha rafforzato il team con investimenti mirati, un LLM proprietario e l’arrivo di Zach Lu Zeyu, ex Optimus di Tesla.
Questa evoluzione conferma una tendenza chiara: l’AI applicata alla robotica non è più una promessa lontana, ma un terreno di competizione concreta dove apertura, dati e capacità operative contano quanto – se non più – degli annunci.
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.
