TECNOLOGIA, INTERNET TRENDS, GAMING, BIG DATA

Stable Diffusion, cos’è e come funziona

Stable Diffusion, cos’è e come funziona

By auroraoddi

Stable Diffusion è un modello di intelligenza artificiale generativa utilizzato per generare o modificare immagini a partire da testo. A differenza di modelli come DALL-E e Midjourney, Stable Diffusion può essere scaricato e utilizzato localmente su un computer con una GPU adeguata.

Che cos’è Stable Diffusion

Stable Diffusion utilizza una tecnica chiamata modello di diffusione latente (LDM, Latent Diffusion Model). Questa tecnica sfrutta una rete neurale convoluzionale completamente connessa chiamata U-net per eseguire la diffusione in avanti e la diffusione inversa.

Durante l’addestramento, vengono prese immagini di input e aggiunto rumore a passi successivi, insegnando al predittore del rumore (noise predictor) a stimare la quantità di rumore presente. In questo modo, il rumore può essere gradualmente rimosso per ottenere un’immagine “pulita”.

Come funziona Stable Diffusion

Stable Diffusion utilizza uno spazio latente, che rappresenta una compressione delle informazioni dell’immagine in una dimensione inferiore. Questo spazio latente è più piccolo dello spazio dei pixel e consente di ridurre la complessità computazionale del processo di diffusione.

Il modello viene addestrato utilizzando un codificatore automatico variazionale (VAE, Variational Autoencoder) che comprime le immagini in una rappresentazione dimensionale inferiore nello spazio latente e le decodifica nuovamente per ottenere l’immagine finale.

Quando viene dato un prompt di testo a Stable Diffusion, il modello crea un’immagine di partenza composta interamente da rumore nel suo spazio latente. Il predittore del rumore U-net prende l’immagine latente e il testo come input per prevedere il rumore, che viene poi sottratto dall’immagine latente.

Questo processo viene ripetuto per diversi passaggi, creando una serie di immagini con rumore sempre minore. Infine, il decodificatore VAE converte l’immagine latente finale nello spazio dei pixel, ottenendo l’immagine generata.

Altre funzioni di Stable Diffusion

Stable Diffusion può anche essere utilizzato per aggiungere elementi a un’immagine esistente o per eseguire tecniche come l’inpainting e la depth-to-image. L’inpainting permette di dipingere parti dell’immagine in base al testo di input, mentre la depth-to-image consente di generare immagini successive con ulteriori condizionamenti utilizzando una mappa di profondità.

Come usare Stable Diffusion

È importante notare che Stable Diffusion è open source e può essere utilizzato sia per scopi commerciali o meno, ma richiede una GPU con almeno 8 GB di VRAM per essere eseguito localmente sul proprio dispositivo.

Demo

Il modo più semplice per provare Stable Diffusion è attraverso la demo disponibile sul sito di Hugging Face, una comunità di appassionati di intelligenza artificiale. La demo consente di accedere gratuitamente all’ultima versione del modello Stable Diffusion (ver 2.1).

Sebbene questa opzione sia facile da utilizzare, presenta alcune limitazioni, come la possibilità di inserire solo un prompt e un prompt negativo per indirizzare il modello. La generazione di un’immagine può richiedere fino a un minuto e comporta una lista di attesa se ci sono altri utenti contemporaneamente.

Utilizzo online con DreamStudio

Un’altra opzione per utilizzare Stable Diffusion online è DreamStudio, uno strumento creato da Stability AI, il team responsabile di Stable Diffusion. DreamStudio offre l’accesso alla versione più recente del modello Stable Diffusion ed è notevolmente più veloce rispetto a Hugging Face, generando un’immagine in meno di 15 secondi con le impostazioni predefinite.

Una caratteristica vantaggiosa di DreamStudio è la possibilità di personalizzare l’output attraverso numerose opzioni, come il numero di step, il seed, la forza del prompt, il formato dell’output, i modelli e lo stile. Tuttavia, DreamStudio non è gratuito, ma offre una prova gratuita con 100 crediti iniziali, che consentono di generare da 100 a 500 immagini a seconda delle impostazioni. È possibile acquistare ulteriori crediti al costo di 10 dollari per 1000 crediti.

Utilizzo con WebUI

Per coloro che preferiscono utilizzare Stable Diffusion sul proprio computer, esiste un’opzione chiamata WebUI, una web app open source gratuita compatibile con Mac, Windows e Linux. WebUI permette l’accesso ai modelli Stable Diffusion e offre impostazioni avanzate come la scelta di un metodo di campionamento o il ripristino dei volti, particolarmente utile quando si generano immagini di volti umani con Stable Diffusion.

Tuttavia, l’utilizzo di WebUI richiede l’installazione di strumenti come Python e git, e richiede una certa familiarità con gli strumenti di riga di comando. Anche se potente, l’interfaccia potrebbe risultare meno intuitiva per i principianti, presupponendo una conoscenza delle impostazioni del modello Stable Diffusion.

Utilizzo con DiffusionBee

Un’altra opzione per installare Stable Diffusion sul computer è utilizzare DiffusionBee, un programma open source gratuito progettato appositamente per Mac. DiffusionBee ha un’interfaccia semplice e facile da usare, fornendo indicazioni chiare per utilizzare le funzionalità avanzate.

Tuttavia, è importante notare che DiffusionBee utilizza la versione precedente di Stable Diffusion (ver 1.5.1) anziché la versione più recente (2.1). Inoltre, richiede un quantitativo significativo di risorse hardware, come almeno 16 GB di RAM, per generare le immagini in modo rapido e senza dover attendere oltre un minuto.

Utilizzo su dispositivi mobili

Se desideri utilizzare Stable Diffusion sul tuo dispositivo mobile, esistono alcune app disponibili, anche se non ufficiali. Ad esempio, Draw Things è un’app gratuita disponibile per iOS che consente di generare immagini in pochi secondi. Tuttavia, è importante considerare che queste app potrebbero contenere pubblicità o richiedere un pagamento per accedere a Stable Diffusion tramite un sistema a crediti.

%d blogger hanno fatto clic su Mi Piace per questo: