AI21 Labs: Un nuovo modello di intelligenza artificiale in grado di gestire più contesto rispetto alla maggior parte

02/04/2024

By auroraoddi

L’industria dell’intelligenza artificiale sta sempre più orientandosi verso modelli generativi con contesti più ampi. Tuttavia, i modelli con finestre di contesto ampie tendono ad essere intensivi dal punto di vista computazionale. Or Dagan, responsabile del prodotto presso la startup di intelligenza artificiale AI21 Labs, sostiene che questo non debba necessariamente essere il caso, e la sua azienda sta rilasciando un modello generativo per dimostrarlo.

I contesti, o finestre di contesto, si riferiscono ai dati di input (ad esempio testo) che un modello considera prima di generare l’output (altro testo). I modelli con finestre di contesto piccole tendono a dimenticare il contenuto di conversazioni anche molto recenti, mentre i modelli con contesti più ampi evitano questo problema e, inoltre, comprendono meglio il flusso dei dati che elaborano.

Il nuovo modello di testo-generazione e analisi di AI21 Labs, chiamato Jamba, può svolgere molte delle stesse attività dei modelli come ChatGPT di OpenAI e Gemini di Google. Allenato con una combinazione di dati pubblici e proprietari, Jamba può scrivere testi in inglese, francese, spagnolo e portoghese.

Una caratteristica unica di Jamba è la sua capacità di gestire fino a 140.000 token con una singola GPU con almeno 80 GB di memoria, come ad esempio una potente Nvidia A100. Ciò corrisponde a circa 105.000 parole, o 210 pagine, una dimensione adeguata per un romanzo di buone dimensioni.

A confronto, Meta’s Llama 2 ha una finestra di contesto di 32.000 token, una dimensione inferiore rispetto agli standard attuali, ma richiede solo una GPU con circa 12 GB di memoria per essere eseguito. (Le finestre di contesto sono tipicamente misurate in token, che sono frammenti di testo grezzo e altri dati.)

A prima vista, Jamba potrebbe sembrare un modello ordinario. Esistono molti modelli di intelligenza artificiale generativi liberamente disponibili e scaricabili, come il recentemente rilasciato DBRX di Databricks e il già citato Llama 2.

Quello che rende Jamba unico è ciò che si nasconde sotto il cofano. Utilizza una combinazione di due architetture di modelli: i transformer e i modelli di spazio di stato (SSM).

I transformer sono l’architettura preferita per compiti di ragionamento complessi e alimentano modelli come GPT-4 e il già citato Gemini di Google. Hanno diverse caratteristiche uniche, ma la caratteristica distintiva dei transformer è senza dubbio il loro “meccanismo di attenzione“. Per ogni pezzo di dati di input (ad esempio una frase), i transformer “ponderano” la rilevanza di ogni altro input (altre frasi) e attingono da essi per generare l’output (una nuova frase).

Gli SSM, d’altra parte, combinano diverse qualità di tipi di modelli di intelligenza artificiale più vecchi, come le reti neurali ricorrenti e le reti neurali convoluzionali, per creare un’architettura più efficiente dal punto di vista computazionale in grado di gestire lunghe sequenze di dati.

Gli SSM hanno le loro limitazioni. Tuttavia, alcune delle prime incarnazioni, tra cui un modello open source chiamato Mamba sviluppato da ricercatori di Princeton e Carnegie Mellon, possono gestire input più grandi rispetto ai loro equivalenti basati sui transformer e superarli nelle attività di generazione del linguaggio.

Jamba utilizza effettivamente Mamba come parte del modello di base, e Dagan afferma che offre un throughput tre volte superiore su contesti lunghi rispetto a modelli basati sui transformer di dimensioni comparabili.

“Sebbene ci siano alcuni esempi accademici iniziali di modelli SSM, questo è il primo modello di produzione di grado commerciale“,

ha detto Dagan in un’intervista a TechCrunch.

“Questa architettura, oltre ad essere innovativa e interessante per ulteriori ricerche da parte della comunità, apre grandi possibilità di efficienza e throughput“.

Sebbene Jamba sia stato rilasciato con licenza Apache 2.0, una licenza open source con poche restrizioni d’uso, Dagan sottolinea che si tratta di un rilascio per scopi di ricerca e non è destinato ad un uso commerciale. Il modello non dispone di salvaguardie per prevenire la generazione di testo tossico o mitigazioni per affrontare eventuali pregiudizi; una versione affinata e presuntamente “più sicura” sarà resa disponibile nelle prossime settimane.

Tuttavia, Dagan afferma che Jamba dimostra già il potenziale dell’architettura SSM anche in questa fase iniziale.

“La peculiarità di questo modello, sia per le sue dimensioni che per la sua architettura innovativa, è che può essere facilmente adattato a una singola GPU“,

ha detto.

“Crediamo che le prestazioni miglioreranno ulteriormente con ulteriori ottimizzazioni di Mamba“.

Vantaggi dei modelli di intelligenza artificiale con contesto ampio

L’industria dell’intelligenza artificiale è in continua evoluzione, e sempre più si sta spostando verso l’adozione di modelli generativi con contesti più ampi. Questi modelli, come Jamba di AI21 Labs, consentono di tenere in considerazione una maggiore quantità di informazioni prima di generare l’output desiderato.

I modelli con contesti ampi presentano diversi vantaggi rispetto a quelli con finestre di contesto più piccole. In primo luogo, i modelli con contesti ampi hanno una maggiore capacità di comprendere e memorizzare informazioni importanti provenienti da conversazioni precedenti. Ciò significa che il modello può creare un output più coerente e preciso, evitando ripetizioni o errori dovuti alla mancanza di contesto.

Inoltre, i modelli con contesti ampi sono in grado di cogliere meglio il flusso dei dati che prendono in considerazione. Questo significa che possono comprendere meglio il contesto generale e creare un output che si adatta meglio al contesto specifico in cui viene utilizzato.

Un esempio pratico dell’utilità dei modelli con contesti ampi è il campo dei chatbot. I chatbot basati su modelli con contesti ampi possono comprendere meglio le conversazioni precedenti e rispondere in modo più accurato e coerente alle domande degli utenti. Ciò porta a un’esperienza utente migliore e più soddisfacente.

Inoltre, i modelli con contesti ampi possono essere utilizzati in una varietà di settori e applicazioni. Ad esempio, possono essere utilizzati per generare automaticamente testi, tradurre da una lingua all’altra, creare dialoghi realistici per videogiochi o film, e molto altro ancora.

Jamba: il potenziale dei modelli SSM

Un aspetto interessante del modello Jamba di AI21 Labs è l’utilizzo di una combinazione di due architetture di modelli: i transformer e i modelli di spazio di stato (SSM). I transformer sono noti per essere molto efficaci nelle attività di ragionamento complesso, mentre gli SSM sono in grado di gestire sequenze di dati più lunghe.

L’uso combinato di queste due architetture consente a Jamba di ottenere il meglio di entrambi i mondi. I transformer forniscono le capacità di ragionamento complesso, come l’analisi del contesto e la generazione di testi coerenti, mentre gli SSM consentono di gestire sequenze di dati più lunghe senza sacrificare le prestazioni.

Questo approccio ibrido ha dimostrato di offrire un throughput tre volte superiore su contesti lunghi rispetto ai modelli basati esclusivamente sui transformer di dimensioni comparabili. Ciò significa che Jamba è in grado di generare testi coerenti e di alta qualità su lunghe sequenze di dati, offrendo un notevole vantaggio rispetto ad altri modelli disponibili sul mercato.

Fonte dell’articolo qui.

AI21 Labs: Un nuovo modello di intelligenza artificiale in grado di gestire più contesto rispetto alla maggior parte

Vantaggi dei modelli di intelligenza artificiale con contesto ampio

Jamba: il potenziale dei modelli SSM

Mi piace:

Scopri di più da Syrus