TECNOLOGIA, INTERNET TRENDS, GAMING, BIG DATA

VideoPoet: la rivoluzione Google nella generazione di video IA

VideoPoet: la rivoluzione Google nella generazione di video IA

By auroraoddi

La capacità di generare video di alta qualità e coerenti è sempre stata una sfida per i modelli di intelligenza artificiale. Tuttavia, il team di ricerca di Google sembra aver trovato una soluzione innovativa a questo problema con l’introduzione di VideoPoet, un nuovo modello di linguaggio sviluppato per la generazione di video. In questo articolo, esploreremo le caratteristiche di VideoPoet, il suo processo di sviluppo e le sue potenziali applicazioni.

L’evoluzione della generazione di video basata sull’IA

La generazione di video tramite l’IA è un campo in rapida evoluzione che ha visto progressi significativi negli ultimi anni. La maggior parte dei modelli attuali si basa su metodi di diffusione, che producono immagini ad alta fedeltà per i singoli frame. Tuttavia, la coerenza temporale tra i frame di un video rimane un problema, con la comparsa di artefatti e movimenti innaturali.

Per superare queste limitazioni, il team di ricerca di Google ha deciso di adottare un approccio diverso, utilizzando un modello di linguaggio di grandi dimensioni (LLM) basato sull’architettura dei transformer, comunemente utilizzata per la generazione di testo e codice. Questo modello, chiamato VideoPoet, è stato addestrato per la generazione di video invece di testo o codice.

Il processo di addestramento di VideoPoet

Per addestrare VideoPoet, il team di ricerca di Google ha utilizzato un metodo di pre-addestramento intensivo. Il modello è stato alimentato con 270 milioni di video e oltre 1 miliardo di coppie di testo e immagini provenienti da internet e altre fonti. I dati sono stati trasformati in embedding di testo, token visivi e token audio, sui quali il modello di IA è stato “condizionato”.

I risultati ottenuti da VideoPoet sono sorprendenti. Il modello è in grado di generare video di qualità superiore rispetto ad altri modelli di generazione di video basati sulla diffusione, eliminando molti dei problemi legati alla coerenza del movimento dei soggetti nel video.

Vantaggi di VideoPoet rispetto ai modelli esistenti

VideoPoet offre diversi vantaggi rispetto ai modelli di generazione di video esistenti. In primo luogo, il modello è in grado di generare movimenti più ampi e coerenti su video più lunghi, fino a 16 frame. Questo supera le limitazioni dei modelli basati sulla diffusione, che tendono a produrre movimenti discontinui o con artefatti dopo pochi frame.

Inoltre, VideoPoet offre una gamma più ampia di funzionalità, consentendo di simulare diversi tipi di movimento della telecamera, stili visivi ed estetici, e persino generare nuovi audio per abbinare ai video. Il modello può anche lavorare con input diversi, come testo, immagini e video, per generare video in risposta a vari stimoli.

Valutazione da parte degli utenti

Il team di ricerca di Google ha condotto un’indagine tra gli utenti per valutare le performance di VideoPoet rispetto ad altri modelli di generazione di video. Gli utenti hanno visionato video generati da VideoPoet e da altri modelli e hanno espresso le loro preferenze. I risultati sono stati sorprendenti, con la maggior parte degli utenti che ha preferito i video generati da VideoPoet.

Secondo i dati raccolti, gli utenti hanno selezionato il 24-35% degli esempi di VideoPoet come quelli che seguivano meglio gli stimoli rispetto ai modelli concorrenti, rispetto all’8-11% dei modelli concorrenti. Gli utenti hanno anche preferito il 41-54% degli esempi di VideoPoet per il movimento più interessante, rispetto all’11-21% degli altri modelli.

Applicazioni future di VideoPoet

Google Research ha sviluppato VideoPoet per generare video in formato verticale, ottimizzati per la visualizzazione su dispositivi mobili. Tuttavia, il team di ricerca ha in programma di espandere le capacità del modello per supportare altre applicazioni di generazione di contenuti multimediali. Ad esempio, si prevede di estendere VideoPoet per supportare la generazione di audio a partire da testo o di video a partire da audio.

Queste nuove funzionalità consentiranno di sfruttare al massimo il potenziale di VideoPoet nella creazione di contenuti multimediali innovativi e coinvolgenti.

Scopri di più da Syrus

Abbonati ora per continuare a leggere e avere accesso all'archivio completo.

Continua a leggere