TECNOLOGIA, INTERNET TRENDS, GAMING, BIG DATA

Come usare AudioCraft: l’intelligenza artificiale generativa per l’audio

Come usare AudioCraft: l’intelligenza artificiale generativa per l’audio

By fogliotiziana

Il campo dell’intelligenza artificiale generativa ha raggiunto una nuova pietra miliare con la pubblicazione del codice sorgente di AudioCraft. Questo framework semplificato permette agli utenti di generare audio e musica di alta qualità a partire dai loro input testuali, dopo averlo addestrato sui segnali audio grezzi.

Cos’è AudioCraft di Meta

AudioCraft si compone di tre modelli: MusicGen, AudioGen ed EnCodec. MusicGen, addestrato con musica di proprietà di Meta e specificamente concesso in licenza, genera musica dall’input di testo dell’utente. D’altra parte, AudioGen, che è stato addestrato sugli effetti sonori pubblici, genera audio dall’input dell’utente nel testo.

Recentemente Meta ha rilasciato una versione migliorata del decoder EnCodec. Consente una generazione di musica di qualità superiore con meno artefatti. Il modello AudioGen preformato consente la generazione di suoni ambientali ed effetti sonori come un cane che abbaia, clacson o passi su un pavimento in legno. Tutti i pesi e il codice dei modelli AudioCraft sono ora accessibili. Sono disponibili per scopi di ricerca e per migliorare la comprensione della tecnologia da parte del pubblico.

Dal testo all’audio con facilità

Mentre i modelli di intelligenza artificiale generativa, inclusi i modelli linguistici, hanno fatto molta strada negli ultimi anni, l’audio è sempre sembrato un po’ indietro. La generazione di audio ad alta fedeltà di qualsiasi tipo richiede la modellazione di segnali e schemi complessi su scale diverse. La musica è probabilmente il tipo di audio più difficile da generare perché è composta da modelli locali ea lungo termine.

Per affrontare questa sfida, Meta ha sviluppato approcci per apprendere token audio discreti dal segnale grezzo utilizzando il codec audio neurale EnCodec. Ciò fornisce un nuovo “vocabolario” fisso per i campioni musicali. È quindi possibile addestrare modelli linguistici autoregressivi su questi token audio discreti per generare nuovi token e nuovi suoni e musica durante la conversione dei token in spazio audio con il decodificatore di EnCodec.

Generazione di audio da descrizioni testuali

Con AudioGen, è stato dimostrato che è possibile addestrare modelli di intelligenza artificiale per eseguire il compito di generare testo in audio. Data una descrizione testuale di una scena acustica, il modello può generare il suono ambientale corrispondente alla descrizione con condizioni di registrazione realistiche e un contesto di scena complesso.

MusicGen è un modello di generazione audio specificamente progettato per la generazione di musica. Le tracce musicali sono più complesse dei suoni ambientali e la generazione di campioni coerenti sulla struttura a lungo termine è particolarmente importante quando si creano nuovi brani musicali. Meta ha addestrato MusicGen su circa 400.000 registrazioni con descrizione testuale e metadati, che corrispondono a 20.000 ore di musica di sua proprietà o con licenza specifica per questo scopo.

L’importanza del codice open source

L’apertura del codice sorgente della ricerca e dei modelli risultanti è fondamentale per garantire che tutti abbiano parità di accesso. I modelli sono disponibili per la comunità di ricerca in più dimensioni e le schede dei modelli AudioGen e MusicGen che descrivono in dettaglio come sono stati costruiti i modelli sono condivise, in linea con le pratiche di IA responsabili. Il codice di formazione e il codice di formazione dell’Audio Research Framework sono rilasciati sotto licenza MIT per consentire alla comunità più ampia di riprodurre e sviluppare il lavoro svolto.

Responsabilità e trasparenza come pilastri della ricerca

È importante essere aperti riguardo al lavoro svolto in modo che la comunità di ricerca possa basarsi su di esso e continuare discussioni importanti su come costruire l’IA in modo responsabile. I progettisti del progetto riconoscono che i set di dati utilizzati per addestrare i modelli mancano di diversità. In particolare, il set di dati musicali utilizzato contiene una percentuale maggiore di musica in stile occidentale e contiene solo coppie audio-testo con testo e metadati scritti in inglese. Condividendo il codice AudioCraft, la speranza è che altri ricercatori possano testare più facilmente nuovi approcci per limitare o eliminare potenziali pregiudizi nei modelli generativi e il loro uso improprio.

Prospettiva futura

In futuro, l’IA generativa potrebbe aiutare le persone a migliorare notevolmente i tempi di iterazione consentendo loro di ottenere feedback più rapidamente durante le prime fasi di prototipazione e grayboxing. Che si tratti di un importante sviluppatore AAA che costruisce mondi per il Metaverso, di un musicista (hobbista, professionista o altro) che lavora alla sua prossima composizione o di un imprenditore di piccole o medie dimensioni che cerca di migliorare le proprie risorse creative, AudioCraft è un passo importante nella generazione Ricerca sull’IA.

È una scommessa sicura che il semplice approccio sviluppato per generare con successo campioni audio robusti, coerenti e di alta qualità avrà un impatto significativo sullo sviluppo di modelli avanzati di interazione uomo-computer che tengano conto delle interfacce uditive e multimodali.

Fonte: Meta

%d blogger hanno fatto clic su Mi Piace per questo: