Migliorare la visione periferica AI: un passo verso l’intelligenza visiva umana
13/03/2024
La visione periferica è una caratteristica fondamentale per gli esseri umani, poiché ci consente di vedere oggetti che non sono direttamente nel nostro campo visivo, sebbene con meno dettagli. Questa capacità si espande il nostro campo visivo e può essere utile in molte situazioni, come ad esempio rilevare un veicolo che si avvicina lateralmente alla nostra auto.
Tuttavia, a differenza degli esseri umani, l’intelligenza artificiale non dispone di una visione periferica. Dotare i modelli di visione artificiale di questa capacità potrebbe aiutarli a rilevare in modo più efficace i pericoli imminenti o a prevedere se un conducente umano noterebbe un oggetto in avvicinamento.
La ricerca del MIT
I ricercatori del MIT hanno sviluppato un dataset di immagini che consente loro di simulare la visione periferica nei modelli di apprendimento automatico. Hanno scoperto che addestrare i modelli con questo dataset ha migliorato la loro capacità di rilevare oggetti nella periferia visiva, sebbene i modelli abbiano comunque ottenuto risultati inferiori rispetto agli esseri umani.
I risultati della ricerca hanno anche rivelato che, a differenza degli esseri umani, né la dimensione degli oggetti né la quantità di confusione visiva in una scena hanno avuto un forte impatto sulle prestazioni dell’IA.
Secondo Vasha DuTell, uno dei coautori dello studio, ciò suggerisce che manchi qualcosa in questi modelli. “Abbiamo testato così tanti modelli diversi e anche quando li addestriamo, migliorano un po ‘ma non sono proprio come gli esseri umani. Quindi, la domanda è: cosa manca in questi modelli?”
La risposta a questa domanda potrebbe aiutare i ricercatori a costruire modelli di apprendimento automatico in grado di vedere il mondo in modo più simile agli esseri umani. Oltre a migliorare la sicurezza dei conducenti, tali modelli potrebbero essere utilizzati per sviluppare display più facili da visualizzare per le persone.
Inoltre, una comprensione più approfondita della visione periferica nei modelli di intelligenza artificiale potrebbe aiutare i ricercatori a prevedere meglio il comportamento umano, aggiunge Anne Harrington, autrice principale dello studio.
Il metodo utilizzato
Per simulare la visione periferica, i ricercatori del MIT hanno utilizzato una tecnica chiamata “texture tiling model“. Questo metodo trasforma le immagini per rappresentare la perdita di dettaglio delle informazioni visive umane nella periferia visiva.
Tuttavia, i ricercatori hanno apportato alcune modifiche a questo modello per renderlo più flessibile e adatto all’implementazione nei modelli di intelligenza artificiale. Questa modifica consente di trasformare le immagini in modo simile, senza la necessità di sapere in anticipo dove una persona o un’intelligenza artificiale puntano gli occhi.
“Questo ci ha permesso di modellare fedelmente la visione periferica in modo simile a quanto viene fatto nella ricerca sulla visione umana“, spiega Harrington.
I ricercatori hanno utilizzato questa tecnica modificata per generare un vasto dataset di immagini trasformate che appaiono più testuali in determinate aree, per rappresentare la perdita di dettaglio che si verifica quando un essere umano guarda più lontano nella periferia visiva. Successivamente, hanno utilizzato il dataset per addestrare diversi modelli di visione artificiale e hanno confrontato le loro prestazioni con quelle degli esseri umani in un compito di rilevamento degli oggetti.
Risultati e conclusioni
I ricercatori hanno scoperto che addestrare i modelli da zero con il loro dataset ha comportato i miglioramenti più significativi, migliorando la loro capacità di rilevare e riconoscere gli oggetti. L’affinamento di un modello con il dataset, un processo che prevede la regolazione di un modello preaddestrato per svolgere un nuovo compito, ha comportato miglioramenti più modesti.
Tuttavia, in ogni caso, le macchine non sono state in grado di raggiungere le prestazioni degli esseri umani, e in particolare hanno avuto difficoltà a rilevare oggetti nella periferia lontana. Inoltre, le prestazioni dei modelli non hanno seguito gli stessi schemi di quelle degli esseri umani.
Secondo Harrington, ciò potrebbe suggerire che i modelli non utilizzano il contesto nello stesso modo degli esseri umani per svolgere questi compiti di rilevamento. La strategia dei modelli potrebbe essere diversa.
I ricercatori del MIT hanno l’intenzione di approfondire queste differenze, con l’obiettivo di trovare un modello in grado di prevedere le prestazioni umane nella periferia visiva. Ciò potrebbe consentire ai sistemi di intelligenza artificiale di avvertire i conducenti dei pericoli che potrebbero non vedere. Inoltre, sperano di ispirare altri ricercatori a condurre ulteriori studi sulla visione artificiale utilizzando il loro dataset disponibile pubblicamente.