Grok 1.5V: Il modello che vuole comprendere la realtà come un essere umano

16 Aprile 2024 08:18

La società xAI di Elon Musk ha introdotto il suo primo modello multimodale, Grok 1.5 Vision (Grok-1.5V). Il modello è progettato per competere con OpenAI e ha la capacità di analizzare testi, documenti, grafici, diagrammi, screenshot e fotografie.

Nel novembre 2023, la società ha rilasciato la prima versione del suo modello Grok e a marzo xAI ha reso pubblici l’architettura e i pesi del modello base. Il nuovo modello multimodale Grok 1.5 Vision è arrivato appena un mese dopo.

Secondo il sito web dell’azienda, Grok 1.5V è in grado di connettere il mondo fisico e quello digitale. Il modello può, ad esempio, convertire un’immagine del diagramma di flusso in codice Python o calcolare il contenuto calorico di un prodotto da un’etichetta nutrizionale.

Può anche creare una fiaba basata sul disegno di un bambino o spiegare perché un particolare meme è divertente.

Il modello non solo intrattiene, ma svolge anche compiti pratici: converte le tabelle in formato CSV, aiuta a correggere gli errori nel codice e fornisce anche suggerimenti per la ristrutturazione della casa in base alle immagini fornite. I risultati dei test hanno mostrato che Grok 1.5V supera significativamente gli altri modelli AI.

*Confronto delle prestazioni di vari compiti Grok 1.5V con altri modelli*

Inoltre, xAI ha introdotto un nuovo benchmark, RealWorldQA, che valuta la capacità di comprendere il mondo reale in termini spaziali. Il nuovo benchmark RealWorldQA è progettato per valutare le capacità di base di comprensione del mondo reale dei modelli multimodali.

Anche se molti dei compiti del benchmark sembrano semplici per gli esseri umani, sono impegnativi per i modelli AI. La prima versione di RealWorldQA presenta oltre 700 immagini con domande e risposte verificabili, comprese immagini di veicoli anonimizzate e altri scenari del mondo reale.

Il set di dati è disponibile per il download con una licenza CC BY-ND 4.0.

Elon Musk, in una recente intervista, ha espresso l’opinione che entro la fine del 2025 l’intelligenza artificiale sarà più intelligente di qualsiasi essere umano. Tutti gli occhi sono ora puntati sui miglioramenti che la sua azienda apporterà allo sviluppo dell’intelligenza artificiale nei prossimi mesi. xAI sta inoltre pianificando miglioramenti significativi in altri settori come audio, voce e video.

Il modello Grok 1.5 Vision sarà presto disponibile per il test da parte degli utenti esistenti.

Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

Cropped RHC 3d Transp2 1766828557 300x300

Redazione

La Redazione di Red Hot Cyber fornisce aggiornamenti quotidiani su bug, data breach e minacce globali. Ogni contenuto è validato dalla nostra community di esperti come Pietro Melillo, Massimiliano Brolli, Sandro Sana, Olivia Terragni e Stefano Gazzella. Grazie alla sinergia con i nostri Partner leader nel settore (tra cui Accenture, CrowdStrike, Trend Micro e Fortinet), trasformiamo la complessità tecnica in consapevolezza collettiva, garantendo un'informazione accurata basata sull'analisi di fonti primarie e su una rigorosa peer-review tecnica.

Articoli in evidenza

Cybercrime

Campagna di phishing su Signal in Europa: sospetto coinvolgimento di attori statali

Bajram Zeqiri - 07/02/2026

Le autorità tedesche hanno recentemente lanciato un avviso riguardante una sofisticata campagna di phishing che prende di mira gli utenti di Signal in Germania e nel resto d’Europa. L’attacco si concentra su profili specifici, tra…

Innovazione

Robot in cerca di carne: Quando l’AI affitta periferiche. Il tuo corpo!

Silvia Felici - 06/02/2026

L’evoluzione dell’Intelligenza Artificiale ha superato una nuova, inquietante frontiera. Se fino a ieri parlavamo di algoritmi confinati dietro uno schermo, oggi ci troviamo di fronte al concetto di “Meatspace Layer”: un’infrastruttura dove le macchine non…

Cybercrime

DKnife: il framework di spionaggio Cinese che manipola le reti

Pietro Melillo - 06/02/2026

Negli ultimi anni, la sicurezza delle reti ha affrontato minacce sempre più sofisticate, capaci di aggirare le difese tradizionali e di penetrare negli strati più profondi delle infrastrutture. Un’analisi recente ha portato alla luce uno…

Vulnerabilità

Così tante vulnerabilità in n8n tutti in questo momento. Cosa sta succedendo?

Agostino Pellegrino - 06/02/2026

Negli ultimi tempi, la piattaforma di automazione n8n sta affrontando una serie crescente di bug di sicurezza. n8n è una piattaforma di automazione che trasforma task complessi in operazioni semplici e veloci. Con pochi click…

Innovazione

L’IA va in orbita: Qwen 3, Starcloud e l’ascesa del calcolo spaziale

Sergio Corpettini - 06/02/2026

Articolo scritto con la collaborazione di Giovanni Pollola. Per anni, “IA a bordo dei satelliti” serviva soprattutto a “ripulire” i dati: meno rumore nelle immagini e nei dati acquisiti attraverso i vari payload multisensoriali, meno…