Site icon Syrus

Jamba di AI21 Labs: il modello IA che supera i limiti del contesto

AI21 Labs Un nuovo modello di intelligenza artificiale che può gestire più contesto rispetto alla maggior parte degli altri modelli

AI21 Labs, una startup specializzata in intelligenza artificiale, ha recentemente lanciato un nuovo modello di generazione di testo chiamato Jamba. Questo modello è in grado di gestire un contesto più ampio rispetto alla maggior parte degli altri modelli disponibili sul mercato.

Nell’industria dell’IA, si sta assistendo a una crescente tendenza verso l’utilizzo di modelli generativi con contesti più ampi. Un contesto si riferisce ai dati di input che un modello considera prima di generare un’output. I modelli con contesti ridotti tendono a dimenticare il contenuto anche delle conversazioni molto recenti, mentre quelli con contesti più ampi evitano questo problema e riescono a comprendere meglio il flusso dei dati che ricevono.

Jamba: un modello versatile

Jamba, sviluppato da AI21 Labs, è un modello di generazione e analisi del testo che può eseguire molte delle stesse funzioni dei modelli simili sviluppati da aziende come OpenAI e Google. La sua caratteristica distintiva è la capacità di gestire fino a 140.000 token mentre viene eseguito su una singola GPU con almeno 80 GB di memoria. Questo corrisponde a circa 105.000 parole o 210 pagine, ovvero le dimensioni di un romanzo di buone dimensioni.

A confronto, altri modelli come Llama 2 di Meta hanno finestre di contesto di 32.000 token e richiedono solo una GPU con circa 12 GB di memoria per funzionare. I contesti vengono di solito misurati in token, che sono frammenti di testo grezzo e altri dati.

L’architettura di Jamba

Ciò che rende Jamba unico è la sua combinazione di due architetture di modelli: i transformer e i modelli di spazio di stato (SSM). I transformer sono l’architettura preferita per compiti di ragionamento complessi e alimentano modelli come GPT-4 di OpenAI e Gemini di Google. La caratteristica distintiva dei transformer è il loro “meccanismo di attenzione”. Per ogni pezzo di dati di input, i transformer valutano la rilevanza di ogni altro input e ne traggono informazioni per generare l’output.

Gli SSM, d’altra parte, combinano alcune caratteristiche di modelli di intelligenza artificiale più vecchi, come le reti neurali ricorrenti e le reti neurali convoluzionali, per creare un’architettura più efficiente dal punto di vista computazionale, in grado di gestire sequenze di dati più lunghe.

Vantaggi di Jamba

Nonostante le sue dimensioni apparentemente comuni, Jamba offre alcuni vantaggi distintivi rispetto ad altri modelli simili. Secondo Dagan, responsabile del prodotto presso AI21 Labs, Jamba offre un throughput tre volte superiore su contesti lunghi rispetto ai modelli basati su transformer di dimensioni comparabili. Questa innovazione apre interessanti possibilità di efficienza e velocità di elaborazione.

Limitazioni e versioni future

Sebbene Jamba sia stato rilasciato con una licenza open source relativamente libera, Dagan sottolinea che è un rilascio di ricerca e non è destinato a un uso commerciale. Il modello attuale non dispone di sistemi di sicurezza per prevenire la generazione di testo tossico o mitigare eventuali pregiudizi. Tuttavia, una versione più sicura e ottimizzata sarà resa disponibile nelle prossime settimane.

Dagan ritiene che Jamba dimostri già il potenziale dell’architettura SSM, e ritiene che le prestazioni miglioreranno ulteriormente con ulteriori aggiornamenti al modello.

Syrus

Exit mobile version