I modelli di intelligenza artificiale utilizzati per cinema e videogiochi

01/10/2023

By fogliotiziana

L’intelligenza artificiale è un tema molto attuale, che interessa diversi ambiti, tra cui l’informatica (per la scrittura di codice, la correzione di bug, ecc.) e l’editoria (per la produzione di contenuti). Ma non solo: anche il cinema e i videogiochi si avvalgono di questa tecnologia, che offre nuove possibilità e sfide. Vediamo insieme quali sono le principali novità e sfide che ci aspettano!

Modelli di intelligenza artificiale per immagini

GAN (generative adversarial network)

I GAN esistono dal 2014. Sono costituiti da un generatore e da un discriminatore. Questi due elementi allenano contemporaneamente a distinguere le immagini reali da quelle generate, con l’obiettivo di creare nuove immagini sempre più realistiche e di risoluzione crescente. “Una volta addestrato il generatore, è possibile insegnargli a trovare un vettore di partenza corrispondente a un’immagine specifica, per poi poter modificare le sue caratteristiche modificando il vettore”. In altre parole, consentono di generare immagini con un elevato grado di realismo.

FRAN (face re-aging network)

Il modello FRAN è stato progettato dalla Disney. Permette di modificare l’età di qualsiasi volto in alta definizione. Il suo vantaggio è che preserva le dimensioni di un’immagine. Per l’addestramento, la tecnologia viene addestrata su 400.000 coppie di volti generati da un GAN. FRAN si utilizza in post-produzione, ad esempio nell’ultimo film di Indiana Jones, per ottenere il volto di un giovane Harrison Ford, mentre l’attore americano è ormai ottantenne!

Modelli di diffusione

Sono diventati lo standard per la generazione di immagini. Li conosciamo attraverso strumenti come DALL-E o Midjourney. Si tratta di modelli addestrati aggiungendo rumore alle immagini e imparando a ricostruirle. Eseguendo l’iterazione sul rumore casuale, un modello di diffusione è in grado di generare nuove immagini. La diffusione può essere guidata da un’immagine o da un testo grazie a un codificatore testo-immagine chiamato CLIP (contrastive Language Image Pretraining) oppure da un contorno o una pausa umana grazie a ControlNet, come per Stable Diffusion.

IA generativa per i video

ADFA (audio driven facial animation)

Questo modello è ampiamente utilizzato nelle industrie creative. Dal 2017 ha imparato ad associare fonemi e visemi, cioè suoni ed espressioni facciali. Consente di modificare le espressioni dell’audio e lo stile del testo. È particolarmente utilizzato nel contesto del “vubbing”, che modifica i movimenti della bocca di un attore per adattarla alle parole che pronuncia. Ne abbiamo recentemente sentito parlare con le aziende HeyGen o Flawless.

Segment Anything

Creato da Meta nel 2023, Segment Anything è specializzato nella generazione di maschere. Può aiutare a identificare gli oggetti in un’immagine o in un video in modo da poterli modificare. Questo modello viene addestrato su un set di immagini-maschere, poi le persone che prendono nota correggono queste maschere, creando set di addestramento più grandi per versioni migliorate.

Make-A-Video

Questo strumento permette di generare un video a partire da un testo ed è particolarmente conosciuto grazie a Runway. In un certo senso, si tratta di animare un’immagine statica generata da un modello di diffusione. Sebbene imperfetto, questo tipo di modello potrebbe essere utilizzato per generare trailer, cortometraggi, pubblicità.

L’intelligenza artificiale generativa applicata al settore dei videogiochi

NeRF (neuronal radiance field)

Questo modello viene addestrato da immagini 2D della stessa scena da diverse angolazioni. Impara per ogni punto e ogni angolo di visione a predire la sua radianza (colore e luminosità) e la sua densità (capacità di riflettere o assorbire la luce). I NeRF sono particolarmente utilizzati nel settore dei videogiochi per modellare edifici in 3D.

Make-A-Video3D

Uno strumento creato anche da Meta, Make-A-Video3D ti consente di generare un video 3D dal testo. In realtà è un NeRF 4D, che è guidato da un modello di generazione video, come Make-A-Video. NeRF 4D modella radianza e densità, come un classico NeRF, ma anche la dinamica temporale di ogni punto nello spazio. Anche in questo caso si tratta di animare un’immagine statica.

Esistono altri modelli, ma ecco una panoramica dei principali strumenti attualmente utilizzati nei media creativi. Quanto al futuro, resta affascinante e spaventoso, per citare l’attore Tom Hanks, il quale ha recentemente stimato che l’intelligenza artificiale potrebbe consentirgli di continuare la sua carriera di attore, anche dopo la sua morte!