Phi-2: La sorprendente potenza degli Small Language Model
15/12/2023
I modelli di linguaggio hanno raggiunto una notevole evoluzione negli ultimi anni, grazie all’aumento delle dimensioni dei modelli stessi. Tuttavia, c’è ancora spazio per l’innovazione e la ricerca di modelli più piccoli ma altrettanto potenti. Il team Machine Learning Foundations di Microsoft Research ha sviluppato una serie di modelli di linguaggio chiamati “Phi” che dimostrano prestazioni eccezionali su diversi benchmark. In particolare, Phi-2, il modello più recente con 2,7 miliardi di parametri, si distingue per le sue capacità di ragionamento e comprensione del linguaggio.
Le intuizioni chiave di Phi-2
L’obiettivo del team di ricerca di Microsoft è quello di sviluppare modelli di linguaggio che raggiungano prestazioni paragonabili a modelli di dimensioni molto più grandi. Per fare ciò, sono state identificate due intuizioni chiave:
- La qualità dei dati di addestramento gioca un ruolo critico nelle prestazioni del modello. In particolare, i dati di addestramento di alta qualità sono essenziali per insegnare al modello il ragionamento basato sul buon senso e la conoscenza generale. Microsoft Research ha creato dataset sintetici appositamente progettati per insegnare a Phi-2 il ragionamento basato sul buon senso, che include scienza, attività quotidiane e teoria della mente. Inoltre, i dati provenienti dal web sono stati accuratamente selezionati in base al loro valore educativo e alla qualità dei contenuti.
- L’utilizzo di tecniche innovative per la scalabilità del modello. Phi-2 è stato sviluppato a partire dal modello Phi-1.5, che conta 1,3 miliardi di parametri. Questo trasferimento di conoscenza ha accelerato la convergenza dell’addestramento e ha migliorato le prestazioni di Phi-2 sui benchmark.
Dettagli dell’addestramento di Phi-2
Phi-2 è un modello basato su Transformer con l’obiettivo di predire la parola successiva nel testo. È stato addestrato su 1,4 trilioni di token provenienti da dataset sintetici e web. L’addestramento di Phi-2 è durato 14 giorni utilizzando 96 GPU A100. È importante sottolineare che Phi-2 è un modello di base che non è stato sottoposto a miglioramenti tramite apprendimento per rinforzo o addestramento specifico. Nonostante ciò, Phi-2 mostra un comportamento migliore in termini di tossicità e pregiudizi rispetto ad altri modelli open-source che hanno subito miglioramenti simili.
Valutazione di Phi-2
Phi-2 è stato valutato su diversi benchmark accademici, dimostrando prestazioni superiori rispetto a modelli più grandi come Mistral e Llama-2. Ad esempio, su compiti di ragionamento complesso, come la programmazione e la matematica, Phi-2 supera le prestazioni del modello Llama-2-70B, che è 25 volte più grande. Inoltre, Phi-2 ottiene risultati comparabili al modello Google Gemini Nano 2, nonostante le dimensioni ridotte.
È importante sottolineare che la valutazione dei modelli di linguaggio presenta ancora sfide, in quanto molti benchmark pubblici potrebbero essere trapelati nei dati di addestramento. Tuttavia, Microsoft Research ha condotto uno studio esaustivo per garantire la qualità dei dati di addestramento di Phi-2, eliminando possibili contaminazioni.
Test su casi d’uso concreti
Per valutare le capacità di Phi-2, sono stati condotti numerosi test su casi d’uso specifici. Ad esempio, Phi-2 è stato in grado di risolvere correttamente un problema di fisica, dimostrando le sue capacità di ragionamento scientifico. Inoltre, Phi-2 è stato testato su prompt comuni utilizzati dalla comunità di ricerca, mostrando risultati coerenti con le prestazioni rilevate nei benchmark.