TECNOLOGIA, INTERNET TRENDS, GAMING, BIG DATA

NVIDIA presenta gli ultimi progressi nell’intelligenza artificiale visiva

NVIDIA presenta gli ultimi progressi nell’intelligenza artificiale visiva

By auroraoddi

L’intelligenza artificiale (IA) e, in particolare, l’IA generativa rappresentano un progresso tecnologico fondamentale. Alla conferenza Computer Vision and Pattern Recognition (CVPR) di questa settimana a Seattle, i ricercatori di NVIDIA hanno presentato nuovi modelli di IA visiva generativa e tecniche all’avanguardia. I progressi coprono aree come la generazione di immagini personalizzate, l’editing di scene 3D, la comprensione del linguaggio visivo e la percezione dei veicoli autonomi.

L’intelligenza artificiale e l’IA generativa in particolare rappresentano un progresso tecnologico cruciale,” ha affermato Jan Kautz, vicepresidente della ricerca sull’apprendimento e la percezione di NVIDIA. “Alla CVPR, la ricerca di NVIDIA sta mostrando come stiamo spingendo i confini di ciò che è possibile – da potenti modelli di generazione di immagini che potrebbero dare una spinta decisiva ai creatori professionisti, a software per la guida autonoma che potrebbero contribuire a realizzare auto senza conducente di prossima generazione.

Progressi nell’IA visiva di NVIDIA

NVIDIA ha presentato oltre 50 progetti di ricerca alla conferenza CVPR, di cui due sono stati selezionati come finalisti per i CVPR Best Paper Awards. Uno esplora la dinamica di addestramento dei modelli di diffusione, mentre l’altro riguarda mappe ad alta definizione per auto a guida autonoma.

Inoltre, NVIDIA ha vinto la traccia End-to-End Driving at Scale della CVPR Autonomous Grand Challenge, superando oltre 450 partecipanti a livello globale. Questo traguardo dimostra il lavoro pionieristico di NVIDIA nell’utilizzo dell’IA generativa per modelli completi di veicoli a guida autonoma, guadagnando anche un CVPR Innovation Award.

Tecniche all’avanguardia per la generazione di immagini

Uno dei principali progetti di ricerca è JeDi, una nuova tecnica che consente ai creatori di personalizzare rapidamente i modelli di diffusione – l’approccio leader per la generazione di testo-immagine – per raffigurare oggetti o personaggi specifici utilizzando solo poche immagini di riferimento, anziché il processo intensivo di fine-tuning su dataset personalizzati.

Un altro progresso rivoluzionario è FoundationPose, un nuovo modello di base che può comprendere e tracciare istantaneamente la posa 3D degli oggetti nei video senza addestramento per oggetto specifico. Ha stabilito un nuovo record di prestazioni e potrebbe sbloccare nuove applicazioni per la realtà aumentata e la robotica.

Editing di scene 3D e comprensione del linguaggio visivo

I ricercatori di NVIDIA hanno anche introdotto NeRFDeformer, un metodo per modificare la scena 3D catturata da un campo di radianza neurale (NeRF) utilizzando un singolo istantanea 2D, anziché dover rianimare manualmente i cambiamenti o ricreare il NeRF interamente. Ciò potrebbe semplificare l’editing di scene 3D per applicazioni di grafica, robotica e gemelli digitali.

Sul fronte del linguaggio visivo, NVIDIA ha collaborato con il MIT per sviluppare VILA, una nuova famiglia di modelli di visione e linguaggio che raggiungono prestazioni all’avanguardia nella comprensione di immagini, video e testo. Con capacità di ragionamento migliorate, VILA può persino comprendere i meme di internet combinando la comprensione visiva e linguistica.

Applicazioni per veicoli autonomi

La ricerca sull’IA visiva di NVIDIA si estende a numerosi settori, inclusi oltre una dozzina di documenti che esplorano approcci innovativi per la percezione, la mappatura e la pianificazione dei veicoli autonomi. Sanja Fidler, vicepresidente del team di ricerca sull’IA di NVIDIA, sta presentando sul potenziale dei modelli di linguaggio visivo per le auto a guida autonoma.

Fonte dell’articolo qui.

Scopri di più da Syrus

Abbonati ora per continuare a leggere e avere accesso all'archivio completo.

Continua a leggere