Site icon Syrus

Amazon SageMaker HyperPod facilita l’addestramento dei modelli LLM

Nel corso della conferenza re:Invent, Amazon Web Services (AWS), la divisione cloud di Amazon, ha annunciato il lancio di SageMaker HyperPod, un nuovo servizio appositamente progettato per l’addestramento e l’affinamento di modelli di linguaggio di grandi dimensioni (LLM). SageMaker HyperPod è ora disponibile per tutti gli utenti.

Amazon ha da tempo puntato su SageMaker, il suo servizio per la costruzione, l’addestramento e il rilascio di modelli di apprendimento automatico, come il pilastro della sua strategia di apprendimento automatico. Ora, con l’avvento dell’intelligenza artificiale generativa, non sorprende che Amazon si stia affidando a SageMaker come prodotto principale per semplificare l’addestramento e l’affinamento dei modelli LLM.

Il pilastro della strategia di apprendimento automatico

Ankur Mehrotra, responsabile generale di SageMaker presso AWS, ha dichiarato in un’intervista che “SageMaker HyperPod offre la possibilità di creare un cluster distribuito con istanze accelerate ottimizzate per l’addestramento distribuito. Fornisce gli strumenti per distribuire in modo efficiente modelli e dati nel tuo cluster, velocizzando così il processo di addestramento“.

Inoltre, SageMaker HyperPod consente agli utenti di salvare frequentemente i checkpoint, consentendo loro di mettere in pausa, analizzare e ottimizzare il processo di addestramento senza dover ricominciare da capo. Il servizio include anche una serie di meccanismi di sicurezza in modo che se una GPU dovesse smettere di funzionare per qualche motivo, l’intero processo di addestramento non fallisca.

Vantaggi di SageMaker HyperPod

Per un team di machine learning, SageMaker HyperPod offre un’esperienza di addestramento senza problemi, essendo un cluster che si autoricostituisce in caso di guasti. Questa caratteristica si traduce in un’esperienza “a prova di errore” per gli utenti e consente di addestrare i modelli fino al 40% più velocemente. Questo vantaggio è significativo se si considerano sia il costo che il tempo di commercializzazione della soluzione.

Gli utenti possono scegliere di utilizzare i chip personalizzati Trainium di Amazon o istanze GPU basate su Nvidia, comprese quelle che utilizzano il processore H100. Amazon promette che HyperPod può accelerare il processo di addestramento fino al 40%. La società ha già esperienza nell’utilizzo di SageMaker per la costruzione di modelli LLM. Ad esempio, il modello Falcon 180B è stato addestrato su SageMaker utilizzando un cluster di migliaia di GPU A100. AWS ha potuto trarre vantaggio da questa esperienza e dall’esperienza precedente con la scalabilità di SageMaker per costruire HyperPod.

Testimonianze degli utenti

Aravind Srinivas, co-fondatore e CEO di Perplexity AI, ha dichiarato di aver avuto accesso anticipato al servizio durante la fase di beta privata. Inizialmente, il suo team era scettico sull’utilizzo di AWS per l’addestramento e l’affinamento dei modelli. Tuttavia, dopo aver testato il servizio gratuitamente, hanno scoperto che AWS aveva un’infrastruttura eccellente per l’addestramento di modelli di grandi dimensioni. Srinivas ha anche sottolineato la facilità di ottenere supporto da AWS e l’accesso a un numero sufficiente di GPU per il caso d’uso di Perplexity AI. È stato di grande aiuto il fatto che il team fosse già familiare con l’uso di AWS per l’inferenza dei modelli.

Srinivas ha anche evidenziato che il team di HyperPod di AWS si è concentrato fortemente sull’ottimizzazione delle interconnessioni tra le schede grafiche Nvidia. “Hanno ottimizzato le primitive di Nvidia che consentono di comunicare questi gradienti e parametri tra i diversi nodi“, ha spiegato.

Syrus

Exit mobile version