Microsoft assembla 4.500 schede grafiche di Nvidia per creare la più potente intelligenza artificiale del mondo

Microsoft assembla 4.500 schede grafiche di Nvidia per creare la più potente intelligenza artificiale del mondo

Microsoft e Nvidia hanno progettato e realizzato un’estesa intelligenza artificiale, che riesce ad emulare il linguaggio umano in modo in un modo molto vicino alla realtà. Tuttavia, i tempi e le risorse economiche spese in questo progetto stanno mettendo in dubbio se lo stesso possa ugualmente andare avanti ed evolversi. L’intelligenza artificiale realizzata grazie alla partnership tra Microsft e Nvidia è denominata Megatron-Turing Natural Language Generation” (in acronimo MT-NLG); si tratta di una rete neurale, che presenta 530 miliardi di parametri, toccando livelli di performance tre volte superiori alla rete neurale “GPT-3 di OpenAI”, fino ad ora la migliore intelligenza artificiale mai progettata. Fin dagli inizi, lo sviluppo di questo progetto targato Microsoft – Nvidia è costato un lavoro importante, lungo oltre un mese, effettuato su un supercomputer che presentava quasi 4.500 schede grafiche molto potenti e costose, usate per ottimizzare le performance delle reti neurali.

Stando a quanto riportato da Wikipedia e da altre pubblicazioni scientifiche su riviste specializzate, Megatron-Turing Natural Language Generation è stato “addestrato” su “Microsoft Azure NDv4”, oltre che sul supercomputer di apprendimento automatico “Selene” di Nvidia, che presenta 560 server DGX A100, costituito ciascuno da otto GPU A100 da 80 GB, basandosi su una notevole quantità di dati, conosciuta meglio come “The Pile”. Nel complesso, la tecnologia è formata da più set di dati più piccoli, restituendo 825 GB di testo, ricavato da Internet. Pertanto, Microsoft e Nvidia hanno realizzato un’intelligenza artificiale completamente diversa dalle altre; infatti, il “loro modello di linguaggio di trasformazione monolitico è il più grande e potente addestrato fino ad oggi”. E da Seattle, sede della Nvidia, attraverso un comunicato, hanno fatto sapere che Megatron-Turing Natural Language Generation (MT-NLG) “è il risultato di una collaborazione di ricerca tra Microsoft e NVIDIA per parallelizzare e ottimizzare ulteriormente l’addestramento di modelli di intelligenza artificiale molto grandi”.

Considerato il successore di Turing NLG 17B e Megatron-LM, MT-NLG offre precisione e capacità nell’espletare istruzioni in linguaggio naturale, “come la previsione del completamento, la comprensione della lettura, il ragionamento del buon senso, inferenze del linguaggio naturale e disambiguazione del senso delle parole”. Inoltre, MT – NLG ha mostrato abilità nella risposta, completando attività di diverso tipo, anche senza ricevere input di notevole importanza. Questo processo, conosciuto anche come “apprendimento a colpo zero” o semplicemente “zero”, si avvicina sempre più ai processi caratteristici dell’intelligenza umana. Anche gli sviluppatori di Redmond hanno mostrato il loro entusiasmo per il progetto realizzato in collaborazione con Nvidia. E hanno affermato: “L’MT-NLG a 105 strati, basato su trasformatore, è migliorato rispetto ai precedenti modelli all’avanguardia nelle impostazioni zero, uno e pochi scatti e ha stabilito il nuovo standard per i modelli linguistici su larga scala, sia come modello sia come qualità”.

Le tecnologie linguistiche basate su “trasformatori nell’elaborazione del linguaggio naturale” (NLP) hanno fatto registrare importanti passi in avanti nei diversi settori e, allo stesso tempo, i sistemi dotati di un grande numero di parametri, contando su “più dati e più tempo di formazione”, hanno permesso “una comprensione del linguaggio stesso più ricca e sfumata”. Alla luce di questi obiettivi, il comunicato stampa ha concluso: “La qualità e i risultati che abbiamo ottenuto sono un grande passo avanti nel viaggio verso lo sblocco della piena promessa dell’AI nel linguaggio naturale. Le innovazioni di DeepSpeed e Megatron-LM andranno a beneficio dello sviluppo del modello AI esistente nel futuro e renderanno grandi modelli AI più economici e veloci da addestrare“.