Redazione RHC : 22 Ottobre 2021 06:30
Nvidia e Microsoft hanno mostrato il loro nuovo modello di linguaggio di trasformazione monolitico più grande e potente addestrato fino ad oggi. Si chiama Megatron-Turing Natural Language Generation (MT-NLG), e contiene al suo interno circa 530 miliardi di parametri, secondo un comunicato stampa.
Iscriviti GRATIS alla RHC Conference 2025 (Venerdì 9 maggio 2025)
Il giorno Venerdì 9 maggio 2025 presso il teatro Italia di Roma (a due passi dalla stazione termini e dalla metro B di Piazza Bologna), si terrà
la RHC Conference 2025. Si tratta dell’appuntamento annuale gratuito, creato dalla community di RHC, per far accrescere l’interesse verso le tecnologie digitali, l’innovazione digitale e la consapevolezza del rischio informatico.
La giornata inizierà alle 9:30 (con accoglienza dalle 9:00) e sarà interamente dedicata alla RHC Conference, un evento di spicco nel campo della sicurezza informatica. Il programma prevede un panel con ospiti istituzionali che si terrà all’inizio della conferenza. Successivamente, numerosi interventi di esperti nazionali nel campo della sicurezza informatica si susseguiranno sul palco fino alle ore 19:00 circa, quando termineranno le sessioni. Prima del termine della conferenza, ci sarà la premiazione dei vincitori della Capture The Flag prevista per le ore 18:00.
Potete iscrivervi gratuitamente all'evento utilizzando questo link.
Per ulteriori informazioni, scrivi a [email protected] oppure su Whatsapp al 379 163 8765
Supporta RHC attraverso:
Ti piacciono gli articoli di Red Hot Cyber? Non aspettare oltre, iscriviti alla newsletter settimanale per non perdere nessun articolo.
MT-NLG supera i precedenti sistemi di entrambe le società ed è sostanzialmente è il più grande e più complesso modello Turing-NLG di Microsoft e del Megatron-LM di Nvidia, con tre volte più parametri distribuiti su 105 livelli.
Come successore di Turing NLG 17B e Megatron-LM, MT-NLG ha raggiunto un’accuratezza senza rivali in un’ampia gamma di compiti nel linguaggio naturale come la previsione del completamento, la comprensione della lettura, il ragionamento di buon senso, le inferenze del linguaggio naturale e la disambiguazione del senso delle parole.
Uno dei modelli di linguaggio generativo più grandi e potenti al mondo
MLT-NLG è stato addestrato su Microsoft Azure NDv4 e sul supercomputer di apprendimento automatico Selene di Nvidia, composto da 560 server DGX A100, ciascuno con otto GPU A100 da 80 GB, su un enorme set di dati noto come The Pile.
Il modello è composto da set di dati più piccoli per un totale di 825 GB di testo ottenuto da Internet. Queste fonti vanno da articoli di Wikipedia e archivi di riviste accademiche a clip di notizie.
Grazie a questo, MT-NLG supera i suoi predecessori in un’ampia gamma di attività in linguaggio naturale, tra cui il completamento automatico delle frasi, la risposta, la lettura e il ragionamento.
Può anche completare attività simili con poca o nessuna messa a punto, un processo noto come apprendimento a colpo zero.
A causa della grande quantità di dati utilizzati per addestrare il modello, i ricercatori non sono stati in grado di cancellare il set di dati di parole che non dovrebbero ancora essere utilizzate.
L’MT-NLG raccoglie stereotipi e pregiudizi dai dati su cui è formato, e questo significa che, purtroppo, MT-NLG può produrre output offensivi potenzialmente razzisti o sessisti.
I ricercatori di Microsoft e NVIDIA si sono impegnati ad affrontare questo problema e, sebbene non sia noto se MT-NLG sarà disponibile in commercio, il comunicato stampa afferma fermamente che l’utilizzo di MT-NLG nelle impostazioni di produzione deve garantire che siano messi in atto i meccanismi necessari per ridurre e limitare possibili danni agli utenti.
“La qualità e i risultati che abbiamo ottenuto oggi sono un grande passo avanti nel viaggio verso lo sblocco della piena promessa dell’intelligenza artificiale nel linguaggio naturale. Le innovazioni di DeepSpeed e Megatron-LM andranno a beneficio dello sviluppo del modello di intelligenza artificiale esistente e futuro e renderanno grandi modelli di intelligenza artificiale più economici e veloce da addestrare”
si legge nel comunicato.
“La protezione dei diritti di bambini e adolescenti rappresenta una priorità per la Polizia di Stato e richiede un’attenta valutazione delle minacce emergenti, l’impiego di t...
Nel vasto arsenale del cybercrimine, una categoria di malware continua ad evolversi con una velocità e una precisione quasi industriale: gli information stealer. Questi strumenti, nati inizialmen...
Sabato 3 maggio, un post pubblicato su un canale Telegram legato al gruppo “Mr Hamza” ha rivendicato un cyberattacco ai danni del Ministero della Difesa italiano. Il messaggio, scritto i...
Microsoft ha confermato che il protocollo RDP (Remote Desktop Protocol) consente l’accesso ai sistemi Windows anche utilizzando password già modificate o revocate. L’azienda ha chia...
Una nuova campagna di phishing sta circolando in queste ore con un obiettivo ben preciso: spaventare le vittime con la minaccia di una multa stradale imminente e gonfiata, apparentemente proveniente d...
Copyright @ REDHOTCYBER Srl
PIVA 17898011006