Stable Diffusion XL Turbo: rivoluzione nella generazione di immagini IA

auroraoddi

2 anni fa

yellow light bulb turned on in a dark room

L’Intelligenza Artificiale sta rapidamente rivoluzionando molti settori, tra cui la generazione di immagini. Di recente, Stability AI ha lanciato Stable Diffusion XL Turbo, un nuovo strumento AI in grado di generare rapidamente immagini in base a una descrizione scritta. Questa innovazione viene presentata come generazione di immagini “in tempo reale”, poiché può trasformare rapidamente le immagini provenienti da una fonte, come una webcam.

L’innovazione di Stable Diffusion XL Turbo

La principale innovazione di Stable Diffusion XL Turbo risiede nella sua capacità di produrre immagini in un solo passaggio, riducendo significativamente i 20-50 passaggi richiesti dal suo predecessore. Questo notevole miglioramento di efficienza è possibile grazie a una tecnica chiamata Adversarial Diffusion Distillation (ADD). ADD utilizza la distillazione dei punteggi, in cui il modello impara dai modelli di sintesi delle immagini esistenti, e una perdita avversaria per migliorare la capacità del modello di differenziare tra immagini reali e generate, migliorando il realismo del risultato.

Secondo Stability AI, SDXL Turbo presenta somiglianze con le Generative Adversarial Networks (GAN), soprattutto nella generazione di immagini in un solo passaggio.

Velocità di generazione di Stable Diffusion XL Turbo

La velocità di generazione di SDXL Turbo è uno dei suoi punti di forza. Utilizzando una scheda grafica Nvidia RTX 3060, SDXL Turbo può generare un’immagine da 1024×1024 pixel in soli 4 secondi, rispetto ai 26,4 secondi necessari per generare un’immagine da 20 passaggi con la versione precedente di SDXL. Immagini di dimensioni minori si generano ancora più rapidamente, ad esempio meno di un secondo per un’immagine da 512×768 pixel. Naturalmente, schede grafiche più potenti come la RTX 3090 o la 4090 permettono tempi di generazione ancora più rapidi.

Applicazioni potenziali di SDXL Turbo

La velocità di generazione di Stable Diffusion XL Turbo apre nuove possibilità per l’utilizzo di IA generativa in tempo reale. Stability AI sostiene che su una potente GPU Nvidia A100, il modello può generare un’immagine da 512×512 pixel in soli 207 millisecondi, compresi l’encoding, un singolo passaggio di de-noising e il decoding. Questa velocità potrebbe permettere l’utilizzo di filtri video generativi in tempo reale o la generazione sperimentale di grafica per videogiochi. Tuttavia, bisogna risolvere alcune questioni legate alla coerenza, come mantenere lo stesso soggetto tra più fotogrammi o generazioni.

Limitazioni e prospettive future

Le immagini generate da Stable Diffusion XL Turbo non sono altrettanto dettagliate come quelle prodotte da SDXL con un numero maggiore di passaggi. Pertanto, SDXL Turbo non sostituisce completamente il modello precedente, ma rappresenta un compromesso tra velocità e dettaglio delle immagini generate. Tuttavia, questa limitazione non ne riduce l’interesse, considerando i notevoli risparmi di tempo che offre.

Attualmente, SDXL Turbo è disponibile solo per scopi di ricerca non commerciali, ma Stability AI ha espresso la volontà di valutare applicazioni commerciali e invita le parti interessate a contattarli per ulteriori informazioni.

Nonostante le questioni irrisolte, come l’origine dei dati di addestramento e il potenziale abuso dell’IA generativa, i progressi tecnologici nella sintesi delle immagini tramite IA non si fermano e Stable Diffusion XL Turbo rappresenta un importante passo avanti in questa direzione.