Apple supera OpenAI con ReALM: la nuova era degli assistenti vocali

auroraoddi

2 anni fa

Apple rivendica che il suo modello di linguaggio ReALM è migliore di GPT-4 di OpenAI in questo compito. Cosa è

Apple ha recentemente pubblicato un articolo di ricerca in cui afferma che il suo modello di linguaggio ReALM può superare significativamente il GPT-4 di OpenAI in determinati benchmark. ReALM è in grado di comprendere e gestire contesti diversi, permettendo agli utenti di indicare qualcosa sullo schermo o in esecuzione in background e interrogare il modello di linguaggio a riguardo.

Cos’è il riferimento di risoluzione?

La risoluzione di riferimento è un problema linguistico che riguarda la comprensione di a cosa si sta facendo riferimento con una specifica espressione. Ad esempio, quando parliamo, utilizziamo riferimenti come “essi” o “quello”. Ora, per gli esseri umani, potrebbe essere ovvio a cosa si sta facendo riferimento in base al contesto. Tuttavia, un assistente virtuale come ChatGPT potrebbe avere difficoltà a capire esattamente a cosa ti stai riferendo.

La capacità di comprendere esattamente a cosa si sta facendo riferimento sarebbe molto importante per gli assistenti virtuali. La capacità per gli utenti di fare riferimento a qualcosa sullo schermo utilizzando “quello” o “esso” o un’altra parola e far sì che l’assistente virtuale lo capisca perfettamente sarebbe fondamentale per creare un’esperienza sullo schermo davvero senza mani, secondo Apple.

ReALM e i diversi tipi di entità

Nel documento di ricerca, i ricercatori di Apple hanno scritto che vogliono utilizzare ReALM per comprendere e identificare tre tipi di entità: entità sullo schermo, entità conversazionali ed entità di background. Le entità sullo schermo sono oggetti visualizzati sullo schermo dell’utente. Le entità conversazionali sono quelle rilevanti per la conversazione. Ad esempio, se dici “quali allenamenti devo fare oggi?” a un assistente virtuale, dovrebbe essere in grado di ricavare dalle conversazioni precedenti che stai seguendo un programma di allenamento di 3 giorni e quale sia il programma per il giorno.

Le entità di background sono cose che non rientrano nelle due categorie precedenti ma sono comunque rilevanti. Ad esempio, potrebbe esserci un podcast in riproduzione in background o una notifica appena suonata. Apple vuole che ReALM sia in grado di comprendere quando un utente si riferisce anche a queste entità.

Confronto con GPT-3.5 e GPT-4

Nel documento di ricerca, i ricercatori di Apple affermano di aver dimostrato grandi miglioramenti rispetto a un sistema esistente con funzionalità simili in diversi tipi di riferimenti. Il loro modello più piccolo ha ottenuto un miglioramento assoluto di oltre il 5% per i riferimenti sullo schermo. Hanno anche fatto un confronto con GPT-3.5 e GPT-4, e il loro modello più piccolo ha raggiunto una performance paragonabile a quella di GPT-4, mentre i loro modelli più grandi lo hanno superato nettamente.

Tuttavia, va notato che con GPT-3.5, che accetta solo testo, i ricercatori di Apple hanno utilizzato solo il prompt come input. Ma con GPT-4, hanno anche fornito uno screenshot per il compito, il che ha contribuito a migliorare notevolmente le prestazioni.