Gli scienziati dell’Università di Twente (Paesi Bassi) hanno sviluppato un nuovo metodo di intelligenza artificiale in grado di costruire scene da immagini che possono servire come base per generare immagini realistiche e coerenti. Di recente hanno pubblicato i loro risultati sulla rivista IEEE Transactions on Pattern Analysis and Machine Intelligence.
I modelli di intelligenza artificiale generativa possono creare immagini basate su query di testo. Questi modelli funzionano meglio quando creano immagini di singoli oggetti. Creare scene complete è ancora difficile. Michael Ying Yang, ricercatore presso la facoltà ITC dell’Università di Twente, ha sviluppato un nuovo metodo in grado di costruire scene da immagini che possono servire come base per generare immagini realistiche e coerenti.

Gli esseri umani sono bravi a definire le relazioni tra gli oggetti. “Possiamo vedere che la sedia è sul pavimento e il cane sta camminando per strada. I modelli di intelligenza artificiale lo trovano impegnativo”, spiega Yang, professore associato dello Scene Understanding Group presso il Dipartimento di Geoscienze e Osservazione della Terra (ITC).
Migliorare la capacità del computer di rilevare e comprendere le relazioni visive è essenziale per la generazione di immagini, ma può anche aiutare anche a migliorare i veicoli a guida autonoma e i robot.
Attualmente esistono metodi per costruire una comprensione semantica di un’immagine, ma sono lenti. Questi metodi utilizzano un approccio in due fasi. Innanzitutto, visualizzano tutti gli oggetti nella scena. Nella seconda fase, una rete neurale specifica passa attraverso tutte le possibili connessioni e poi le etichetta con la relazione corretta. Il numero di connessioni che questo metodo deve attraversare aumenta in modo esponenziale con il numero di oggetti. “Il nostro modello fa solo un passo. Prevede automaticamente soggetti, oggetti e le loro relazioni allo stesso tempo”, afferma Yang.
Questo modello analizza il tutto in un’unica fase, esaminando le caratteristiche visive degli oggetti nella scena concentrandosi sui dettagli più importanti per determinare le relazioni. Evidenzia le aree importanti in cui gli oggetti interagiscono o sono correlati tra loro.
Queste tecniche di addestramento sono sufficienti per determinare le relazioni più importanti tra oggetti diversi. Resta solo da generare una descrizione di come sono correlati. “Il modello rileva che nell’immagine campione è molto probabile che una persona interagisca con una mazza da baseball. Poi impara a descrivere la relazione più probabile”, dice Yang.
Ti è piaciuto questo articolo? Ne stiamo discutendo nella nostra Community su LinkedIn, Facebook e Instagram. Seguici anche su Google News, per ricevere aggiornamenti quotidiani sulla sicurezza informatica o Scrivici se desideri segnalarci notizie, approfondimenti o contributi da pubblicare.

CybercrimeLe autorità tedesche hanno recentemente lanciato un avviso riguardante una sofisticata campagna di phishing che prende di mira gli utenti di Signal in Germania e nel resto d’Europa. L’attacco si concentra su profili specifici, tra…
InnovazioneL’evoluzione dell’Intelligenza Artificiale ha superato una nuova, inquietante frontiera. Se fino a ieri parlavamo di algoritmi confinati dietro uno schermo, oggi ci troviamo di fronte al concetto di “Meatspace Layer”: un’infrastruttura dove le macchine non…
CybercrimeNegli ultimi anni, la sicurezza delle reti ha affrontato minacce sempre più sofisticate, capaci di aggirare le difese tradizionali e di penetrare negli strati più profondi delle infrastrutture. Un’analisi recente ha portato alla luce uno…
VulnerabilitàNegli ultimi tempi, la piattaforma di automazione n8n sta affrontando una serie crescente di bug di sicurezza. n8n è una piattaforma di automazione che trasforma task complessi in operazioni semplici e veloci. Con pochi click…
InnovazioneArticolo scritto con la collaborazione di Giovanni Pollola. Per anni, “IA a bordo dei satelliti” serviva soprattutto a “ripulire” i dati: meno rumore nelle immagini e nei dati acquisiti attraverso i vari payload multisensoriali, meno…