Apple ha annunciato il lancio di un nuovo modello di intelligenza artificiale chiamato “MGIE“, acronimo di MLLM-Guided Image Editing. Questo modello è stato sviluppato in collaborazione con ricercatori dell’Università della California, Santa Barbara, ed è stato presentato in un articolo accettato alla Conferenza Internazionale sulla Rappresentazione dell’Apprendimento (ICLR) 2024, uno dei principali eventi nel campo della ricerca sull’AI. MGIE è un modello di intelligenza artificiale open-source che consente di modificare le immagini in base a istruzioni scritte in linguaggio naturale.
Come funziona MGIE?
MGIE si basa sul concetto di utilizzare modelli di linguaggio multimodale a grande scala (MLLM) per migliorare la modifica delle immagini basata su istruzioni. I MLLM sono potenti modelli di intelligenza artificiale in grado di elaborare sia testo che immagini e hanno dimostrato notevoli capacità di comprensione cross-modale e generazione di risposte visivamente consapevoli. Tuttavia, non erano stati ampiamente applicati alle attività di modifica delle immagini.
MGIE integra i MLLM nel processo di modifica delle immagini in due modi principali:
-
Deriva istruzioni espressive dall’input dell’utente utilizzando i MLLM. Queste istruzioni sono concise e chiare, offrendo una guida esplicita per il processo di modifica. Ad esempio, l’utente può fornire l’istruzione “rendi il cielo più blu” e MGIE potrà produrre l’istruzione “aumenta la saturazione della regione del cielo del 20%”.
-
Genera un’immaginazione visiva utilizzando i MLLM. Questa rappresentazione latente della modifica desiderata cattura l’essenza della modifica e può essere utilizzata per guidare la manipolazione a livello di pixel. MGIE utilizza un innovativo schema di addestramento end-to-end che ottimizza congiuntamente la derivazione delle istruzioni, l’immaginazione visiva e i moduli di modifica dell’immagine.
Funzionalità di MGIE
MGIE è in grado di gestire una vasta gamma di scenari di modifica, dalle semplici regolazioni del colore alle complesse manipolazioni degli oggetti. Il modello può eseguire sia modifiche globali che locali, a seconda delle preferenze dell’utente. Alcune delle funzionalità principali di MGIE includono:
-
Modifica basata su istruzioni espressive: MGIE è in grado di produrre istruzioni concise e chiare che guidano efficacemente il processo di modifica. Ciò non solo migliora la qualità delle modifiche, ma aumenta anche l’esperienza complessiva dell’utente.
-
Modifiche in stile Photoshop: MGIE può eseguire modifiche comuni in stile Photoshop, come ritaglio, ridimensionamento, rotazione, inversione e applicazione di filtri. Il modello può inoltre applicare modifiche più avanzate, come il cambio di sfondo, l’aggiunta o la rimozione di oggetti e la fusione di immagini.
-
Ottimizzazione globale delle foto: MGIE può ottimizzare la qualità complessiva di una foto, regolando la luminosità, il contrasto, la nitidezza e il bilanciamento del colore. Il modello può inoltre applicare effetti artistici come disegno a mano, pittura e creazione di cartoni animati.
-
Modifiche locali: MGIE può modificare regioni o oggetti specifici in un’immagine, come volti, occhi, capelli, abbigliamento e accessori. Il modello può anche modificare gli attributi di queste regioni o oggetti, come forma, dimensione, colore, texture e stile.
Come utilizzare MGIE
MGIE è disponibile come progetto open-source su GitHub, dove gli utenti possono trovare il codice, i dati e i modelli pre-addestrati. Il progetto fornisce anche un notebook demo che illustra come utilizzare MGIE per diverse attività di modifica. Gli utenti possono anche provare MGIE online tramite una demo web ospitata su Hugging Face Spaces, una piattaforma per la condivisione e la collaborazione su progetti di apprendimento automatico (ML).
MGIE è progettato per essere facile da usare e flessibile da personalizzare. Gli utenti possono fornire istruzioni in linguaggio naturale per modificare le immagini e MGIE genererà le immagini modificate insieme alle istruzioni derivate. Gli utenti possono anche fornire feedback a MGIE per perfezionare le modifiche o richiedere modifiche diverse. MGIE può anche essere integrato con altre applicazioni o piattaforme che richiedono funzionalità di modifica delle immagini.
Importanza di MGIE
MGIE rappresenta una svolta nel campo della modifica delle immagini basata su istruzioni, una sfida importante sia per l’IA che per la creatività umana. MGIE dimostra il potenziale dell’utilizzo dei MLLM per migliorare la modifica delle immagini e apre nuove possibilità per l’interazione e la comunicazione cross-modale.
MGIE non è solo un risultato di ricerca, ma anche uno strumento pratico e utile per vari scenari. MGIE può aiutare gli utenti a creare, modificare e ottimizzare immagini per scopi personali o professionali, come i social media, il commercio elettronico, l’istruzione, l’intrattenimento e l’arte. MGIE può anche fornire agli utenti gli strumenti per esprimere le proprie idee ed emozioni attraverso le immagini e ispirarli ad esplorare la propria creatività.
Il futuro di MGIE
Per Apple, MGIE evidenzia anche la crescente competenza dell’azienda nella ricerca e nello sviluppo dell’IA. Il gigante della tecnologia per i consumatori ha ampliato rapidamente le sue capacità di apprendimento automatico negli ultimi anni, e MGIE rappresenta forse la dimostrazione più impressionante di come l’IA possa migliorare le attività creative quotidiane.
Nonostante il successo di MGIE, gli esperti affermano che c’è ancora molto lavoro da fare per migliorare i sistemi di IA multimodali. Tuttavia, il ritmo di progresso in questo campo sta accelerando rapidamente. Se l’entusiasmo attorno al lancio di MGIE è un’indicazione, questo tipo di AI assistiva potrebbe presto diventare un alleato indispensabile per la creatività.

