Unified-IO 2: innovazione nei modelli ai multimediali

auroraoddi

2 anni fa

L’Allen Institute for AI ha svelato un nuovo modello AI avanzato chiamato Unified-IO 2, che potrebbe annunciare la prossima generazione di modelli come GPT-5. Questo modello all’avanguardia è in grado di elaborare e produrre testo, immagini, audio, video e sequenze di azioni. Creato da zero, il modello da 7 miliardi di parametri è stato addestrato su una vasta gamma di dati multimodali e può essere guidato da prompt.

L’addestramento multimodale di Unified-IO 2

Unified-IO 2 è stato addestrato utilizzando miliardi di punti dati. In particolare, il modello è stato addestrato su 1 miliardo di coppie immagine-testo, 1 trilione di token di testo, 180 milioni di clip video, 130 milioni di immagini con testo, 3 milioni di asset 3D e 1 milione di sequenze di movimento di agenti robotici. Nel complesso, il team ha combinato più di 120 set di dati in un pacchetto di 600 terabyte che copre 220 compiti visivi, linguistici, uditivi e di azione.

Il modello codificatore-decodificatore apporta diverse modifiche architettoniche per stabilizzare l’addestramento e fare un uso efficace dei segnali multimodali, aprendo la strada a modelli multimodali più grandi e potenti.

Le funzionalità di Unified-IO 2

Grazie all’addestramento, Unified-IO 2 è in grado di elaborare, comprendere e produrre testo. Ad esempio, il modello può rispondere a domande, comporre un testo basato su istruzioni e analizzare il contenuto del testo. Il modello è anche in grado di riconoscere il contenuto delle immagini, fornire descrizioni di immagini, svolgere compiti di elaborazione delle immagini e creare nuove immagini basate su descrizioni di testo.

Unified-IO 2 elabora più modalità rispetto a qualsiasi modello disponibile in precedenza. Può generare musica o suoni basandosi su descrizioni o istruzioni, nonché analizzare video e rispondere a domande sul video. Grazie all’addestramento con dati di robotica, Unified-IO 2 può anche generare azioni per sistemi robotici, ad esempio convertendo istruzioni in sequenze di azioni per i robot. Grazie all’addestramento multimodale, può anche elaborare le diverse modalità e, ad esempio, individuare gli strumenti di una traccia audio su un’immagine.

Prestazioni e punti di forza di Unified-IO 2

Il modello ottiene ottime prestazioni su oltre 35 benchmark, inclusa la generazione e comprensione delle immagini, la comprensione del linguaggio naturale, la comprensione dei video e dell’audio e la manipolazione dei robot. In molti compiti, raggiunge prestazioni comparabili o migliori rispetto a modelli specializzati. Inoltre, stabilisce un nuovo primato nel benchmark GRIT per i compiti di immagini, che mette alla prova come i modelli affrontano il rumore dell’immagine e altri problemi.

L’evoluzione dei modelli AI multimediali

Il predecessore di Unified-IO 2, Unified-IO, è stato presentato nel giugno 2022 ed è stato uno dei primi modelli multimodali capaci di elaborare immagini e linguaggio. Nello stesso periodo, OpenAI stava testando internamente GPT-4 prima di introdurre il grande modello di linguaggio con visione GPT-4 nel marzo 2023.

Unified-IO è stato quindi uno sguardo anticipato al futuro dei modelli AI su larga scala, che ora sono diventati comuni con i modelli di OpenAI e il multimodally trained Gemini di Google. Unified-IO 2 mostra ora cosa possiamo aspettarci nel 2024: nuovi modelli AI in grado di elaborare ancora più modalità, svolgere molti compiti nativamente grazie all’apprendimento approfondito e avere una conoscenza rudimentale delle interazioni con oggetti e robot. Quest’ultimo potrebbe anche avere un impatto positivo sulle prestazioni in altri settori.

Il team ha ora pianificato di migliorare ulteriormente la qualità dei dati, scalare Unified-IO 2 e trasformare il modello codificatore-decodificatore in un’architettura di modello decoder standard nell’industria.