Alexa diventa più intelligente grazie all’AI

22/09/2023
Durante l’evento annuale di lancio dei nuovi prodotti e servizi, Amazon ha presentato la nuova Alexa, che si distingue per la sua capacità di parlare e comprendere come una persona. L’interazione tra questa intelligenza artificiale (AI) e te, la comprensione del linguaggio e la gestione delle conversazioni sono stati notevolmente migliorati.
Dave Limp, il responsabile di Amazon per i dispositivi Alexa, è apparso visibilmente emozionato durante la presentazione. Questo evento è stato significativo non solo perché ha svelato la nuova versione di Alexa, ma anche perché Limp aveva annunciato la sua partenza dall’azienda nel mese di agosto.
Un salto in avanti nell’IA
Negli ultimi anni, l’intelligenza artificiale ha conosciuto una crescita esplosiva, grazie anche alla diffusione di strumenti come Chat-GPT, che sono diventati comuni. Questa crescita ha portato a chiedersi perché assistenti virtuali come Alexa, Siri e altri non siano altrettanto intelligenti dei nuovi “chatbot” basati su IA. La risposta non è semplice: Alexa non è un semplice chatbot testuale. Deve essere in grado di comprendere richieste vocali, il che è più complesso rispetto alla comprensione di testo scritto. Inoltre, Alexa deve evitare errori.
Un compagno di casa intelligente
Alexa è un assistente virtuale che “vive” nella tua casa. Ha instaurato un rapporto di fiducia tra te e la tua famiglia, conosce l’ambiente in cui ti trovi e deve svolgere compiti pratici come la gestione delle luci, la creazione di liste della spesa o semplicemente facilitare la comunicazione tra le stanze e le persone. Rendere Alexa così avanzata ha richiesto diversi sforzi.
Amazon, nel corso degli anni, ha continuamente migliorato Alexa, aggiungendo nuove funzionalità e abilità. Nel frattempo, ha sviluppato una versione di Alexa completamente nuova, che riflette ciò che Alexa avrebbe dovuto essere fin dall’inizio, se non fosse stato per le limitazioni tecnologiche del tempo.
L’AI al servizio di Alexa
Oggi, quasi dieci anni dopo il lancio del primo dispositivo Echo, Amazon ha raggiunto l’obiettivo di avere un assistente domestico che si avvicina all’ideale di un assistente perfetto. È intelligente, reattivo, affidabile e dotato di superpoteri, grazie all’IA. Attualmente, ci sono quasi un miliardo di dispositivi in grado di chiamare Alexa, e Amazon sta lavorando per rendere l’assistente vocale uno dei prodotti più potenti mai entrati nelle case.
Inoltre, i dispositivi Echo hanno sempre fatto affidamento sull’IA. Il riconoscimento degli intenti delle richieste vocali si basa su modelli AI, e anche la sintesi vocale delle risposte è stata notevolmente migliorata nel corso degli anni, fino a raggiungere un livello quasi paragonabile al linguaggio naturale.
L’avanzamento tecnologico: Alexa let’s chat
Tuttavia, Amazon ha ritenuto che fosse necessario fare di più. Negli ultimi anni, l’azienda ha iniziato a utilizzare diversi modelli di grandi dimensioni (Large Language Model), tra cui l’Alexa teacher model, per rendere Alexa più preciso nelle risposte. Inoltre, Amazon ha creato un nuovo modello basato su miliardi di parametri, ottimizzato per la voce, per far sì che Alexa diventasse il perfetto assistente domestico.
Questo nuovo modello è stato chiamato Alexa Let’s Chat. È un assistente basato su IA generativa che si basa su cinque pilastri fondamentali: è in grado di dialogare come un essere umano, comprende il contesto del mondo esterno, fa parte integrante della famiglia, ha una personalità e, soprattutto, è affidabile.
Una realtà, non fantascienza
Tutto ciò non è fantascienza, ma realtà: Alexa let’s chat consente di avere vere conversazioni senza dover ripeterne continuamente il nome. Il raggiungimento di questo obiettivo non è stato semplice. Amazon ha dovuto studiare come le persone conducono le conversazioni e ha cercato di sfruttare l’hardware dei dispositivi Echo per offrire a Alexa una comprensione ancora più avanzata. Nelle conversazioni umane, vi sono sguardi e gesti che fanno parte integrante del contesto.
Amazon ha utilizzato i sensori dei dispositivi Echo, compresa la videocamera, per abbattere questa barriera. Alexa può capire se una richiesta è rivolta a lei grazie all’analisi della direzione della voce e all’utilizzo della computer vision, che rileva se qualcuno sta guardando lo schermo di un dispositivo Echo. L’aspetto della latenza è stato affrontato in modo efficace.
Il dispositivo offre risposte istantanee, anche mentre sta elaborando una risposta e non richiede più richieste vocali perfette, parole specifiche o pause minime tra le frasi. Il nuovo modello è in grado di estrarre il contesto da frasi veloci, poco chiare o interrotte. Amazon sostiene che questo nuovo modello rappresenta l’apice del riconoscimento vocale.
Il cambiamento nella voce di Alexa
Non solo Alexa comprende meglio, ma è anche in grado di modulare la sua voce in base al contesto e alle emozioni. Ad esempio, se chiedi di raccontarti una barzelletta, la sua voce avrà enfasi e tonalità adatte a uno scherzo oppure se ad esempio chiedi il risultato della squadra del cuore, Alexa risponderà con un tono appropriato, sia che la squadra abbia vinto sia che abbia perso.
Alexa è ora in grado di comprendere i dialetti e di esprimere emozioni attraverso la voce. Questo straordinario progresso è stato reso possibile eliminando il processo tradizionale in cui le richieste audio venivano convertite in testo e le parole chiave venivano estratte per poi generare una risposta testuale utilizzando un modello LLM. Il nuovo modello LLM, basato su speech-to-speech, unifica tutti questi passaggi.
Il futuro di Alexa
Alexa si basa sulle skill, piccole applicazioni che consentono di svolgere una varietà di compiti. La gestione di queste skill è complessa, poiché Amazon non può controllare la velocità di risposta dei servizi esterni a cui fanno riferimento queste skill. Il nuovo modello è in grado di interpretare il contesto in modo preciso, traducendo richieste vaghe in azioni specifiche.
Oltre a rispondere a una vasta gamma di domande, come un modello LLM stile “chat-gpt”, la nuova Alexa può fornire informazioni in tempo reale su eventi sportivi, concerti, notizie e altro ancora. Tutto ciò avviene con una profonda comprensione delle dinamiche familiari, dei gusti personali e delle abitudini degli utenti, riuscendo anche a condividere la sua opinione.
Il lancio di “let’s chat”
La nuova funzione let’s chat di Alexa sarà inizialmente disponibile come anteprima tecnologica solo per gli utenti americani, ma sarà accessibile da qualsiasi dispositivo Echo, anche quelli della prima generazione. Amazon prevede di estendere questa funzionalità a altre lingue in futuro con l’obiettivo di compiere notevoli progressi nell’evoluzione del dispositivo, grazie all’IA. Pare proprio che Alexa sia cresciuta da bambina ad adolescente in questi dieci anni, ma grazie alla recente innovazione, sembra aver guadagnato improvvisamente una maturità avanzata.
Anche se ci vorranno ancora anni per perfezionare ulteriormente questo amato dispositivo, la differenza tra il passato e quanto annunciato da Amazon è evidente e promettente. Corri a parlare con Alexa, buon divertimento!