Llama 3 di Meta sfida i giganti dell’IA

24/04/2024

By auroraoddi

Meta ha annunciato il lancio della nuova generazione del suo noto modello di linguaggio, Llama 3. Secondo Meta, Llama 3 supera la maggior parte degli altri modelli di intelligenza artificiale disponibili sul mercato, compreso Gemini di Google. In un post sul blog aziendale, Meta ha sottolineato i vantaggi e le prestazioni superiori di Llama 3 rispetto ai suoi predecessori e ai modelli concorrenti.

Le caratteristiche di Llama 3

Llama 3 è un modello di linguaggio di grandi dimensioni che viene rilasciato oggi ai fornitori di cloud come AWS e alle librerie di modelli come Hugging Face. Al momento, Llama 3 è disponibile in due varianti con 8 miliardi e 70 miliardi di parametri. La complessità di un modello e la sua capacità di comprendere il training influiscono sulla quantità di parametri.

Llama 3, tuttavia, offre solo risposte basate su testo, ma Meta afferma che queste rappresentano un “salto significativo” rispetto alla versione precedente. Llama 3 mostra una maggiore diversità nelle risposte ai prompt, meno rifiuti falsi in cui il modello rifiuta di rispondere alle domande, e una migliore capacità di ragionamento. Meta sostiene inoltre che Llama 3 comprende meglio le istruzioni e scrive codice di qualità superiore rispetto al passato.

Il confronto con i modelli concorrenti

Secondo il post di Meta, Llama 3 supera modelli di dimensioni simili come Gemma e Gemini di Google, Mistral 7B e Claude 3 di Anthropic in determinati test di benchmarking. Nel benchmark MMLU, che misura tipicamente la conoscenza generale, Llama 3 8B ha ottenuto risultati significativamente migliori rispetto a Gemma 7B e Mistral 7B, mentre Llama 3 70B ha superato di poco Gemini Pro 1.5. È interessante notare che nel post di 2700 parole di Meta non viene menzionato GPT-4, il modello di punta di OpenAI.

Test e valutazioni umane

Benché i test di benchmarking siano utili per comprendere la potenza dei modelli di intelligenza artificiale, è importante sottolineare che non sono perfetti. I dataset utilizzati per i benchmarking fanno parte del training dei modelli, il che significa che il modello già conosce le risposte alle domande che gli esaminatori gli faranno. È pertanto necessario considerare con cautela i risultati dei benchmarking.

Meta afferma che anche gli valutatori umani hanno valutato Llama 3 più positivamente rispetto ad altri modelli, incluso GPT-3.5 di OpenAI. Meta sostiene di aver creato un nuovo dataset affinché i valutatori umani potessero emulare scenari reali in cui potrebbe essere utilizzato Llama 3. Questo dataset includeva casi d’uso come richiesta di consigli, sintesi e scrittura creativa. L’azienda afferma che il team che ha lavorato sul modello non aveva accesso a questi nuovi dati di valutazione e che essi non hanno influenzato le prestazioni del modello.

Le potenzialità future di Llama 3

Llama 3 dovrebbe presto ottenere dimensioni di modello ancora più grandi, in grado di comprendere istruzioni e dati più lunghi, nonché di fornire risposte multimodali più avanzate come “Genera un’immagine” o “Trascrivi un file audio”. Meta afferma che queste versioni più grandi, che superano i 400 miliardi di parametri e possono teoricamente apprendere modelli più complessi rispetto alle versioni più piccole, sono attualmente in fase di training.

Tuttavia, i test preliminari di performance mostrano che questi modelli possono rispondere a molte delle domande poste nei benchmarking. È importante notare che Meta non ha rilasciato un’anteprima di questi modelli più grandi e non li ha confrontati con altri grandi modelli come GPT-4.