TECNOLOGIA, INTERNET TRENDS, GAMING, BIG DATA

Google rivoluziona addestramento robot con video e AI

Google rivoluziona addestramento robot con video e AI

By auroraoddi

Negli ultimi anni, l’intelligenza artificiale generativa e i modelli AI di base hanno fatto grandi progressi, aprendo nuove possibilità nel campo della robotica. Il team di ricerca di DeepMind Robotics di Google è uno dei numerosi gruppi che stanno esplorando il potenziale di questa combinazione. In un post sul blog recente, il team ha sottolineato la loro ricerca continua per migliorare la comprensione dei robot dell’obiettivo che gli umani si aspettano da loro.

Tradizionalmente, i robot si sono concentrati su compiti specifici ripetuti nel corso della loro vita. I robot a scopo singolo sono molto bravi in quello specifico compito, ma possono incontrare difficoltà quando si verificano cambiamenti o errori non intenzionali. Per affrontare questa sfida, DeepMind ha sviluppato AutoRT, un sistema che sfrutta modelli di intelligenza artificiale di base per diverse finalità.

AutoRT: Migliorare la comprensione del contesto

AutoRT utilizza un modello linguistico visuale (VLM) per migliorare la consapevolezza della situazione. Il sistema gestisce una flotta di robot che lavorano in tandem, fornendo una mappa dell’ambiente e degli oggetti al loro interno grazie alle telecamere. Inoltre, un modello linguistico di grande dimensione suggerisce i compiti che possono essere eseguiti dall’hardware, incluso l’effettore terminale. L’utilizzo di questi LLM è essenziale per consentire ai robot di comprendere comandi in linguaggio naturale, riducendo la necessità di codificare manualmente le competenze.

AutoRT è stato già testato approfonditamente negli ultimi sette mesi. Il sistema è in grado di coordinare fino a 20 robot contemporaneamente, con un totale di 52 dispositivi diversi. Complessivamente, DeepMind ha raccolto oltre 77.000 prove, tra cui più di 6.000 compiti.

RT-Trajectory: Apprendimento robotico basato su video

Oltre a AutoRT, il team di DeepMind ha introdotto RT-Trajectory, un metodo per l’apprendimento robotico basato su input video. Molti gruppi di ricerca stanno esplorando l’uso di video di YouTube per addestrare i robot su larga scala, ma RT-Trajectory aggiunge un elemento interessante: sovrappone uno schizzo bidimensionale del braccio in azione sul video.

Secondo il team di ricerca, queste traiettorie rappresentate come immagini RGB forniscono suggerimenti visivi pratici al modello mentre impara le politiche di controllo del robot. Durante i test su 41 compiti, si è riscontrato che RT-Trajectory ha avuto un tasso di successo doppio rispetto all’addestramento precedente, con il 63% di successo rispetto al 29% del RT-2.

Sfruttare le informazioni dei dataset esistenti

Un altro vantaggio di RT-Trajectory è la possibilità di utilizzare le informazioni sul movimento robotico presenti nei dataset esistenti. Questo metodo consente di sbloccare conoscenze già presenti, ma attualmente poco sfruttate. RT-Trajectory rappresenta un ulteriore passo verso la costruzione di robot in grado di muoversi con precisione ed efficienza in situazioni nuove e sconosciute.

Come spiega il team di DeepMind, l’utilizzo combinato di modelli linguistici di grande dimensione, informazioni visive e dati sui movimenti dei robot apre nuove prospettive per il campo della robotica. La capacità dei robot di comprendere i comandi in linguaggio naturale e di apprendere da video e informazioni visive consentirà loro di affrontare compiti più complessi e di adattarsi a situazioni inaspettate.

Scopri di più da Syrus

Abbonati ora per continuare a leggere e avere accesso all'archivio completo.

Continua a leggere