Rivoluzionare la visione artificiale ad alta risoluzione: Il MIT fa un passo avanti

16/09/2023
Nel mondo della computer vision, velocità e precisione sono essenziali, soprattutto per compiti come il riconoscimento degli oggetti nei veicoli autonomi o il miglioramento della qualità delle immagini nello streaming video. Gli approcci tradizionali all’analisi delle immagini ad alta risoluzione devono spesso affrontare sfide computazionali. Tuttavia, i ricercatori del MIT, in collaborazione con il MIT-IBM Watson AI Lab e altre istituzioni, hanno sviluppato una soluzione innovativa che promette di trasformare il settore.
Necessità di velocità e precisione
I veicoli autonomi devono identificare rapidamente gli oggetti, dai camion delle consegne parcheggiati ai ciclisti in rapido avvicinamento. Questo compito, noto come segmentazione semantica, comporta la categorizzazione di ogni pixel in un’immagine ad alta risoluzione. Tuttavia, con l’aumentare della risoluzione dell’immagine, la complessità computazionale di questo processo cresce in modo esponenziale.
I recenti modelli di segmentazione semantica, pur essendo accurati, hanno difficoltà a elaborare immagini ad alta risoluzione in tempo reale su dispositivi edge come sensori o telefoni cellulari. Questi modelli imparano l’interazione tra ogni coppia di pixel in un’immagine, con conseguente crescita quadratica dei calcoli all’aumentare della risoluzione dell’immagine.
5 modi per esplorare l’uso dell’intelligenza artificiale generativa al lavoro
EfficientViT: il modello del MIT che cambia le carte in tavola
I ricercatori del MIT hanno presentato una soluzione innovativa sotto forma di EfficientViT, una nuova serie di modelli per la computer vision ad alta risoluzione. EfficientViT raggiunge la stessa precisione dei modelli più avanzati, ma con una complessità computazionale lineare e operazioni efficienti dal punto di vista hardware.
Il risultato è una serie di modelli in grado di funzionare fino a nove volte più velocemente dei modelli precedenti quando vengono utilizzati su dispositivi mobili, mantenendo o addirittura migliorando la precisione. Questa scoperta potrebbe avere implicazioni significative per il processo decisionale in tempo reale nei veicoli autonomi e per vari compiti di visione computerizzata ad alta risoluzione, tra cui la segmentazione di immagini mediche.
Il concetto di trasformatore di visione
EfficientViT si basa sul concetto di trasformatori di visione, inizialmente sviluppato per l’elaborazione del linguaggio naturale. Questi modelli dividono un’immagine in patch di pixel, codificando ogni patch in un token e generando una mappa di attenzione. La mappa dell’attenzione cattura le relazioni tra i token, aiutando il modello a comprendere il contesto.
Tuttavia, le mappe di attenzione dei trasformatori di visione tradizionali crescono esponenzialmente con la risoluzione dell’immagine, causando problemi computazionali. In EfficientViT, i ricercatori del MIT hanno semplificato il meccanismo della mappa di attenzione, sostituendo la funzione di similarità non lineare con una lineare. Questa modifica consente una crescita lineare dei calcoli all’aumentare della risoluzione dell’immagine.
Per compensare la potenziale perdita di precisione dovuta alla funzione lineare, a EfficientViT sono stati aggiunti due componenti aggiuntivi. Uno si concentra sulla cattura delle interazioni locali tra le caratteristiche, mentre l’altro facilita l’apprendimento multiscala per riconoscere oggetti grandi e piccoli. Questo approccio equilibrato garantisce prestazioni ed efficienza.
Quali sono i campi di applicazione dell’intelligenza artificiale
Una soluzione facile da usare
Il design di EfficientViT privilegia la facilità d’uso dell’hardware, rendendolo adatto a una serie di dispositivi, dai computer dei veicoli autonomi alle cuffie per la realtà virtuale. Questa versatilità ne estende l’applicabilità a vari compiti di computer vision, tra cui la classificazione delle immagini.
Applicazioni nel mondo reale e direzioni future
I miglioramenti delle prestazioni di EfficientViT aprono le porte a varie applicazioni, come l’accelerazione dei modelli di apprendimento automatico generativo e l’ulteriore scalabilità per altri compiti di visione. L’efficienza e le capacità del modello stanno attirando l’attenzione degli esperti del settore.
Lu Tian, direttore senior degli algoritmi di intelligenza artificiale di AMD, Inc. riconosce il potenziale dei trasformatori nelle applicazioni del mondo reale, tra cui il miglioramento della qualità delle immagini nei videogiochi. Jay Jackson, vicepresidente globale per l’intelligenza artificiale e l’apprendimento automatico di Oracle, riconosce l’importanza della compressione dei modelli e della progettazione leggera per un’elaborazione efficiente dell’intelligenza artificiale.
La serie di modelli EfficientViT del MIT rappresenta una svolta significativa nella computer vision ad alta risoluzione. La sua capacità di combinare velocità e precisione, pur rimanendo compatibile con l’hardware, potrebbe aprire la strada a progressi in vari campi, plasmando in ultima analisi il futuro della computer vision.
Fonte ufficiale delle informazioni: https://news.mit.edu/2023/ai-model-high-resolution-computer-vision-0912