TECNOLOGIA, INTERNET TRENDS, GAMING, BIG DATA

OpenAI e Figure rivoluzionano la robotica: nasce il robot che parla come noi

OpenAI e Figure rivoluzionano la robotica: nasce il robot che parla come noi

By auroraoddi

L’azienda di robotica Figure ha recentemente collaborato con OpenAI per creare un robot in grado di parlare come un umano. Questa partnership ha suscitato grande interesse online, grazie a un video dimostrativo che ha rapidamente fatto il giro del web.

Figure 01: il primo robot umanoide autonomo al mondo

Figure 01, definito “il primo robot umanoide autonomo commercialmente sostenibile al mondo” dall’azienda Figure Robotics, ha già attirato molta attenzione nel settore della robotica. Tuttavia, grazie alla collaborazione con OpenAI, questo robot è ora in grado di conversare come un essere umano.

In un video dimostrativo, Figure ha mostrato come il robot sia in grado di identificare gli oggetti posti davanti a lui, rispondere alle domande, svolgere compiti specifici (come ad esempio dare una mela a una persona) e spiegare come ha eseguito queste azioni contemporaneamente ad altre attività. Grazie all’integrazione con il modello visione-linguaggio di OpenAI, il robot è in grado di impegnarsi in conversazioni naturali simili a quelle umane e di svolgere compiti autonomamente, senza bisogno di intervento manuale.

Le potenzialità del robot Figure 01

L‘intelligenza visuale e linguistica del robot Figure 01, combinata con l’architettura di rete neurale sottostante, apre nuove possibilità nel campo della robotica. Il robot può rispondere a domande sulla sua ambientazione, utilizzare il ragionamento semplice quando necessario, eliminare l’ambiguità e tradurre richieste ad alto livello, spiegare il motivo di una determinata azione e utilizzare le sue conoscenze conversazionali per capire pronomi come “loro” e “loro”. Inoltre, può identificare la soluzione migliore per una domanda complessa.

Una delle caratteristiche più interessanti del robot Figure 01 è la sua capacità di comprendere l’ambiente circostante e di spiegare il ragionamento dietro una determinata azione. Questo rende il robot estremamente utile in situazioni in cui si richiede un’analisi approfondita del contesto e una comprensione delle motivazioni che guidano le azioni.

L’architettura del robot

L’architettura del robot si basa sul concetto di reti neurali, che consentono al robot di eseguire azioni rapidamente e con precisione. Il processo di elaborazione dell’input e generazione dell’output comprende diversi passaggi:

  1. L’utente interagisce con il modello fornendo un input in linguaggio naturale.
  2. Il robot apprende tutti i comportamenti basandosi sui modelli, senza bisogno di un controllo umano per eseguire le azioni.
  3. Le immagini catturate dalle telecamere del robot e il testo trascritto dall’input vocale vengono quindi inviati al modello visione-linguaggio multimodale (VLM) di OpenAI, che è stato addestrato per gestire sia le immagini che il testo.
  4. Le reti neurali del robot Figure 01 acquisiscono immagini a una frequenza di 10hz tramite le telecamere presenti sul robot e generano azioni con 24 gradi di libertà a una frequenza di 200hz.
  5. Il modello ha il compito di decidere quale comportamento eseguire affinché il robot possa completare un comando specifico. Ciò include il caricamento dei pesi necessari della rete neurale sull’unità di elaborazione grafica (GPU) e l’esecuzione di una politica basata sul contesto e sull’input ricevuto.
  6. Il modello utilizza l’intera cronologia conversazionale, comprese le immagini precedenti, per generare risposte linguistiche che vengono poi convertite in testo e pronunciate dal robot.

Figure e OpenAI sono riuscite a integrare con successo motori, firmware, termali, elettronica, middleware, sistemi di batterie e sensori attuatori.

Differenze tra il robot Figure 01 e Optimus di Tesla

A differenza del robot Optimus di Tesla, che richiede un intervento umano per eseguire determinate operazioni, il robot Figure 01 è in grado di svolgere le sue azioni in modo autonomo. L’assenza di teleoperazione rende le interazioni del robot Figure 01 autentiche e basate su reti neurali end-to-end. Questo significa che il robot è in grado di raggiungere una velocità simile a quella umana, come evidenziato da Brett Adcock, fondatore di Figure, in un tweet.

Recentemente, abbiamo anche avuto un aggiornamento sui robot RFM-1 di Covariant, che possono pensare come gli esseri umani.

Scopri di più da Syrus

Abbonati ora per continuare a leggere e avere accesso all'archivio completo.

Continua a leggere