TECNOLOGIA, INTERNET TRENDS, GAMING, BIG DATA

EMO di Alibaba: rivoluzione nei video che parlano e cantano

EMO di Alibaba: rivoluzione nei video che parlano e cantano

By auroraoddi

Recentemente, gli esperti dell’Istituto per l’Informatica Intelligente di Alibaba hanno sviluppato un nuovo sistema di intelligenza artificiale chiamato “EMO“. Questo sistema è in grado di animare una singola foto ritratto e generare video in cui la persona nella foto parla o canta in modo straordinariamente realistico.

Come funziona EMO

Il sistema EMO sfrutta un modello di diffusione di intelligenza artificiale, che ha dimostrato una notevole capacità nella generazione di immagini sintetiche realistiche. Gli esperti di Alibaba hanno addestrato il modello su un ampio dataset di oltre 250 ore di video di persone che parlano, provenienti da discorsi, film, programmi televisivi e performance canore.

A differenza dei metodi tradizionali che si basano su modelli facciali 3D o forme di mescolamento per approssimare i movimenti del viso, EMO converte direttamente l’onda audio in frame video. Questo permette di catturare movimenti sottili e peculiarità specifiche dell’identità associate al linguaggio naturale.

Vantaggi di EMO

EMO rappresenta un importante passo avanti nella generazione di video di persone che parlano guidati dall’audio. Secondo gli esperimenti descritti nel loro articolo di ricerca, EMO supera significativamente i metodi esistenti in termini di qualità video, conservazione dell’identità ed espressività.

I ricercatori di Alibaba hanno condotto anche uno studio utente che ha dimostrato come i video generati da EMO siano più naturali ed emotivi rispetto a quelli prodotti da altri sistemi.

Generazione di video di persone che cantano

Oltre ai video conversazionali, EMO può animare anche ritratti di persone che cantano, creando movimenti della bocca appropriati ed espressioni facciali evocative sincronizzate con il canto. Il sistema è in grado di generare video per una durata arbitraria in base alla lunghezza dell’audio di input.

I risultati sperimentali dimostrano che EMO è in grado di produrre non solo video convincenti di persone che parlano, ma anche video di persone che cantano in vari stili, superando significativamente le metodologie esistenti in termini di espressività e realismo.

Implicazioni etiche

Nonostante i notevoli progressi raggiunti da EMO e tecnologie simili, ci sono implicazioni etiche da considerare. La possibilità di sintetizzare contenuti video personalizzati da una semplice foto e un frammento audio solleva preoccupazioni riguardo all’uso improprio di questa tecnologia per impersonare persone senza il loro consenso o diffondere informazioni errate.

Gli esperti di Alibaba dichiarano che hanno intenzione di esplorare metodi per individuare video sintetici al fine di contrastare la potenziale diffusione di contenuti falsi.

Scopri di più da Syrus

Abbonati ora per continuare a leggere e avere accesso all'archivio completo.

Continua a leggere