OpenVoice: Il nuovo modello di clonazione vocale open-source di MyShell

auroraoddi

2 anni fa

La clonazione vocale è diventata sempre più popolare negli ultimi anni, con numerose startup che hanno investito milioni di dollari nello sviluppo di algoritmi proprietari e software di intelligenza artificiale per creare copie vocali di alta qualità. Tuttavia, una nuova soluzione chiamata OpenVoice, sviluppata da ricercatori del Massachusetts Institute of Technology (MIT), dell’Università di Tsinghua di Pechino e della startup canadese di intelligenza artificiale MyShell, offre una clonazione vocale open-source quasi istantanea, con un controllo dettagliato non presente in altre piattaforme di clonazione vocale.

L’approccio innovativo di OpenVoice

OpenVoice si distingue per la sua precisione eccezionale e il controllo dettagliato del tono, dall’emozione all’accento, dal ritmo alle pause e all’intonazione, utilizzando solo un breve frammento audio. Questo modello di clonazione vocale aperto offre una flessibilità senza precedenti, consentendo agli utenti di personalizzare la voce generata in base alle loro preferenze. La tecnologia si basa su due modelli di intelligenza artificiale distinti: un modello di sintesi vocale (TTS) e un “convertitore di tono”. Questi modelli sono stati addestrati su migliaia di campioni audio provenienti da diversi parlanti di lingua inglese, cinese e giapponese, consentendo a OpenVoice di apprendere l’intonazione, il ritmo e le pause per generare voci realistiche.

Un’esperienza di clonazione vocale personalizzata

A differenza di altre applicazioni di clonazione vocale, OpenVoice non richiede agli utenti di leggere un testo specifico per creare la clonazione vocale. Basta registrare un breve frammento di parlato improvvisato e il modello genererà immediatamente una voce clonata che può essere riprodotta. Inoltre, gli utenti possono regolare lo “stile” della voce clonata tra diverse opzioni predefinite, come allegro, triste, amichevole, arrabbiato, e percepirne il cambiamento di tono corrispondente.

I vantaggi della clonazione vocale open-source

MyShell ha scelto di rendere OpenVoice open-source per beneficiare l’intera comunità di ricerca. Affermando il proprio impegno verso l’IA per tutti, MyShell ha reso disponibili gratuitamente l’algoritmo di clonazione vocale e i relativi dataset, offrendo anche sovvenzioni e risorse di calcolo per sostenere la comunità di ricerca open-source. Questa decisione si basa sulla consapevolezza che la lingua, la visione e la voce sono le tre principali modalità dell’Intelligenza Artificiale Generale (AGI) del futuro.

Come funziona OpenVoice

Il processo di clonazione vocale con OpenVoice è basato sull’utilizzo di due modelli di intelligenza artificiale: il modello di sintesi vocale (TTS) e il convertitore di tono. Il primo modello controlla i parametri di stile e le lingue ed è stato addestrato su migliaia di frasi audio di parlanti di lingua inglese, cinese e giapponese, etichettate in base all’emozione espressa. Il convertitore di tono, invece, è stato addestrato su oltre 300.000 campioni audio di più di 20.000 parlanti diversi.

Entrambi i modelli convertono l’audio del parlato umano in fonemi, suoni specifici che differenziano le parole l’una dall’altra, e li rappresentano mediante embedding vettoriali. Combinando un “parlante di base” con il tono derivato dall’audio registrato dall’utente, i due modelli insieme possono riprodurre la voce dell’utente e modificare il “colore tonale” o l’espressione emotiva del testo parlato.

L’efficacia di OpenVoice

OpenVoice ha dimostrato di essere altamente efficace nella clonazione vocale con una quantità nettamente inferiore di risorse di calcolo rispetto ad altri metodi disponibili sul mercato. Il team di sviluppatori ha dedicato molti mesi alla ricerca e allo sviluppo di questa soluzione innovativa per creare il modello di clonazione vocale istantanea più flessibile mai realizzato. Grazie al loro approccio decoupling, hanno raggiunto un risultato sorprendentemente semplice ed efficace, che ha permesso loro di offrire un’esperienza di clonazione vocale personalizzata e flessibile a tutti gli utenti.

Il futuro di OpenVoice e MyShell

MyShell, fondata nel 2023 a Calgary, in Canada, ha già ottenuto un grande successo con oltre 400.000 utenti registrati sulla loro piattaforma. Oltre a OpenVoice, la startup offre una vasta gamma di personaggi e bot basati su intelligenza artificiale, nonché strumenti per la creazione di GIF animate e giochi di ruolo testuali generati dagli utenti. Nonostante la disponibilità di OpenVoice come modello open-source, MyShell genera entrate attraverso abbonamenti mensili per l’utilizzo della loro piattaforma web e per la formazione dei modelli di intelligenza artificiale.