
Redazione RHC : 22 Agosto 2024 12:14
Gli ingegneri dell’azienda cinese Alibaba hanno presentato un nuovo modello di apprendimento automatico multimodale chiamato mPLUG-Owl3. Questo modello è in grado di analizzare in modo efficiente testo, immagini e video.
Gli sviluppatori prestano particolare attenzione alla velocità della rete neurale, sostenendo che bastano solo quattro secondi per elaborare un video di due ore.
mPLUG-Owl3 si basa sul modello Qwen2, che è stato notevolmente migliorato e ottimizzato. Grazie a queste modifiche, il tempo di attesa per il primo token è stato ridotto di sei volte e una singola scheda grafica A100 ora può elaborare fino a 400 immagini al secondo.
Vuoi diventare un esperto del Dark Web e della Cyber Threat Intelligence (CTI)? Stiamo per avviare il corso intermedio in modalità "Live Class" del corso "Dark Web & Cyber Threat Intelligence". A differenza dei corsi in e-learning, disponibili online sulla nostra piattaforma con lezioni pre-registrate, i corsi in Live Class offrono un’esperienza formativa interattiva e coinvolgente. Condotti dal professor Pietro Melillo, le lezioni si svolgono online in tempo reale, permettendo ai partecipanti di interagire direttamente con il docente e approfondire i contenuti in modo personalizzato. Questi corsi, ideali per aziende, consentono di sviluppare competenze mirate, affrontare casi pratici e personalizzare il percorso formativo in base alle esigenze specifiche del team, garantendo un apprendimento efficace e immediatamente applicabile. Guarda subito l'anteprima gratuita del corso su academy.redhotcyber.com Contattaci per ulteriori informazioni tramite WhatsApp al 375 593 1011 oppure scrivi a [email protected]
Se ti piacciono le novità e gli articoli riportati su di Red Hot Cyber, iscriviti immediatamente alla newsletter settimanale per non perdere nessun articolo. La newsletter generalmente viene inviata ai nostri lettori ad inizio settimana, indicativamente di lunedì. |
Il modello utilizza anche uno speciale blocco HATB (Hyper Attention Transformer), che integra funzionalità visive e testuali, consentendo, ad esempio, di cercare immagini visive in base a query testuali.
Il codice del progetto è aperto e pubblicato su GitHub. Inoltre, gli sviluppatori hanno fornito tutto il materiale necessario per lavorare sulle piattaforme Hugging Face e sull’analogo cinese Model Scope.
Il testo completo dello studio descrive in dettaglio lo sviluppo e il funzionamento del modello mPLUG-Owl3.
Redazione
Nove mesi dopo la sua implementazione in Europa, lo strumento di intelligenza artificiale (IA) conversazionale di Meta, integrato direttamente in WhatsApp, sarà oggetto di indagine da parte della Com...

Un’episodio di cyberattacco ha interessato Leroy Merlin, coinvolgendo i dati personali di numerosi clienti in Francia, con un impatto su centinaia di migliaia di individui. Leroy Merlin assicura che...

Gli sforzi dei legislatori e delle forze dell’ordine per contrastare il riciclaggio di denaro e le procedure più complesse di verifica delle schede SIM non hanno indebolito in modo significativo la...

Sviluppatori e amministratori di tutto il mondo stanno aggiornando urgentemente i propri server a seguito della scoperta di una vulnerabilità critica in React Server, che consente agli aggressori di ...

Il panorama della sicurezza informatica moderna è imprescindibile dalla conoscenza della topografia del Dark Web (DW), un incubatore di contenuti illeciti essenziale per la criminalità organizzata. ...