Meta reinventa la traduzione vocale con IA multimodale
06/12/2023
Meta ha recentemente presentato il suo nuovo modello di traduzione vocale AI multimodale, chiamato SeamlessM4T, che supporta quasi 100 lingue per il testo e 36 per il parlato. Con un’architettura aggiornata “v2”, il colosso tecnologico sta ora espandendo questo strumento per rendere le traduzioni conversazionali più spontanee ed espressive – quest’ultima è una chiave mancante per una conversazione autentica tra lingue.
SeamlessExpressive: un nuovo modo di esprimersi
La prima delle due nuove funzionalità è “SeamlessExpressive“, che, come si può intuire dal nome, trasferisce le espressioni nella traduzione del parlato. Queste includono l’intonazione, il volume, il tono emotivo (eccitazione, tristezza o sussurri), la velocità del parlato e le pause.
Considerando che fino ad ora le traduzioni vocali suonavano sempre robotiche, questa innovazione potrebbe cambiare le regole del gioco – sia nella nostra vita quotidiana che nella produzione di contenuti. Le lingue supportate includono l’inglese, lo spagnolo, il tedesco, il francese, l’italiano e il cinese, anche se al momento della stesura di questo articolo mancano l’italiano e il cinese nella pagina di dimostrazione.
SeamlessStreaming: traduzione veloce in tempo reale
La seconda funzionalità è “SeamlessStreaming“, che inizia a tradurre un discorso mentre il relatore sta ancora parlando, consentendo così agli altri di sentire una traduzione più veloce. C’è ancora una breve latenza di poco meno di due secondi, ma almeno non dovrai aspettare che qualcuno finisca una frase.
La sfida qui è che le diverse lingue hanno diverse strutture di frasi, quindi è stato necessario sviluppare un algoritmo dedicato allo studio di un input audio parziale, al fine di decidere se c’è abbastanza contesto per iniziare a generare un output tradotto o se continuare ad ascoltare.
La Suite di “Comunicazione senza soluzione di continuità” di Meta
L’ultima evoluzione di Meta su questa suite di “Comunicazione senza soluzione di continuità” sembra essere una soluzione impressionante, più di quanto offerto dagli strumenti di interpretazione mobile di Google e Samsung. Non c’è ancora notizia su quando il pubblico potrà utilizzare queste nuove funzionalità, ma posso già immaginare Meta che le integra nei suoi occhiali intelligenti, rendendoli ancora più pratici che mai.