
Gli ingegneri dell’azienda cinese Alibaba hanno presentato un nuovo modello di apprendimento automatico multimodale chiamato mPLUG-Owl3. Questo modello è in grado di analizzare in modo efficiente testo, immagini e video.
Gli sviluppatori prestano particolare attenzione alla velocità della rete neurale, sostenendo che bastano solo quattro secondi per elaborare un video di due ore.
mPLUG-Owl3 si basa sul modello Qwen2, che è stato notevolmente migliorato e ottimizzato. Grazie a queste modifiche, il tempo di attesa per il primo token è stato ridotto di sei volte e una singola scheda grafica A100 ora può elaborare fino a 400 immagini al secondo.
Il modello utilizza anche uno speciale blocco HATB (Hyper Attention Transformer), che integra funzionalità visive e testuali, consentendo, ad esempio, di cercare immagini visive in base a query testuali.
Il codice del progetto è aperto e pubblicato su GitHub. Inoltre, gli sviluppatori hanno fornito tutto il materiale necessario per lavorare sulle piattaforme Hugging Face e sull’analogo cinese Model Scope.
Il testo completo dello studio descrive in dettaglio lo sviluppo e il funzionamento del modello mPLUG-Owl3.
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

InnovazioneVenerdì è emersa online una notizia capace di strappare un sorriso e, subito dopo, generare un certo disagio: il lancio di Moltbook, un social network popolato non da persone ma da agenti di intelligenza artificiale.…
Cyber NewsPer oltre tre decenni è stato una colonna silenziosa dell’ecosistema Windows. Ora però il tempo di NTLM sembra definitivamente scaduto. Microsoft ha deciso di avviare una transizione profonda che segna la fine di un’era e…
InnovazioneAlle dieci del mattino, a Wuhan, due robot umanoidi alti 1,3 metri iniziano a muoversi con precisione. Girano, saltano, seguono il ritmo. È il segnale di apertura del primo negozio 7S di robot umanoidi del…
Cyber ItaliaIl 29 gennaio 2026, sul forum BreachForums, l’utente p0ppin ha pubblicato un annuncio di vendita relativo a un presunto accesso amministrativo non autorizzato ai sistemi interni di una “Italian Car Company”. Come spesso accade in questo tipo di annunci, nessun riferimento…
Cyber NewsIvanti ha rilasciato una serie di aggiornamenti critici per arginare due vulnerabilità di sicurezza che hanno colpito Ivanti Endpoint Manager Mobile (EPMM). Si tratta di falle sfruttate attivamente in attacchi zero-day, una criticità tale da…