VALL-E: lo strumento di intelligenza artificiale che può imitare la voce di una persona

VALL-E: lo strumento di intelligenza artificiale che può imitare la voce di una persona

12/01/2023 0 By fogliotiziana

VALL-E è un nuovo modello di intelligenza artificiale sviluppato da Microsoft in grado di simulare la voce di una persona da un campione audio di soli 3 secondi. È, più precisamente, un modello linguistico per la sintesi vocale (Text-To-Speech). VALL-E è stato addestrato su “60.000 ore di conversazione in inglese, centinaia di volte in più rispetto ai sistemi esistenti.”

Il vantaggio di questo nuovo strumento: è in grado di conservare il tono e l’emozione di chi parla, il che consente un’imitazione ancora più umana, e quindi reale.

VALL-E mostra capacità di apprendimento del contesto e può essere utilizzato per sintetizzare discorsi personalizzati di alta qualità con una registrazione di soli 3 secondi di un oratore sconosciuto come guida acustica, afferma Microsoft.

Esempi audio di VALL-E

VALL-E non è ancora disponibile al pubblico in questo momento. Tuttavia, puoi ascoltare campioni audio su questa pagina dedicata su GitHub. Questa pagina è stata creata solo a scopo dimostrativo di ricerca. È interessante vedere cosa VALL-E può fare concretamente. Alcuni frammenti audio funzionano bene, ma altri hanno ancora una voce sintetica rilevabile. Non tutto è ancora perfetto da parte di VALL-E, ma il lavoro di Microsoft è solo all’inizio.

VALL-E e rischio deepfake

Ancora una volta, sorge la domanda: uno strumento come VALL-E non potrebbe essere pericoloso se fosse aperto al pubblico? Le foto e i video deepfake hanno già dimostrato come sia facile manipolare l’informazione a scopo ingannevole, cosa accadrà nel campo della voce? È vero anche però, che lo strumento di Microsoft potrebbe essere utilizzato per la rappresentazione vocale se si rivelasse davvero efficace. Ma se dovesse essere accessibile a tutti, non sono da sottovalutare i rischi.

Poiché VALL-E può sintetizzare il parlato preservando l’identità di chi parla, può comportare potenziali rischi di uso improprio del modello, come lo spoofing vocale (consiste nella registrazione vocale fasulla, che imita la voce dell’utente legittimo) o il furto di identità di uno specifico parlante. “Abbiamo condotto gli esperimenti supponendo che l’utente accetti di essere l’oratore target nella sintesi vocale“, specifica Microsoft.

VALL-E strizza l’occhio a DALL-E: perché?

Il nome VALL-E è stato chiaramente ispirato da DALL-E, il generatore di immagini di intelligenza artificiale progettato da OpenAI. E non è una coincidenza. A inizio anno Microsoft sembra puntare tutto sulla tecnologia OpenAI e potrebbe investire anche fino a 10 miliardi di dollari in questa azienda. Microsoft punterebbe a integrare il chatbot Open AI a ChatGPT a Word ma anche a Bing, il suo motore di ricerca.

Ti consiglio di leggere anche…

ChatGPT: Microsoft potrebbe integrare il chatbot di intelligenza artificiale su Bing

Come trasformare un testo in un video con l’intelligenza artificiale

Intelligenza artificiale per scrivere testi, come funziona