L’intelligenza artificiale (IA) sta diventando sempre più sofisticata e complessa, ma spesso rimane un mistero capire come funzionano i modelli addestrati delle reti neurali. La spiegazione del comportamento di queste reti è una sfida affascinante che richiede molta sperimentazione e esperimenti.
Per affrontare questa sfida, i ricercatori del MIT’s Computer Science and Artificial Intelligence Laboratory (CSAIL) hanno sviluppato un nuovo approccio che utilizza modelli di intelligenza artificiale per condurre esperimenti su altri sistemi e spiegarne il comportamento. Questo metodo si basa sull’uso di agenti di interpretazione automatica (AIA) costruiti da modelli di linguaggio preaddestrati per produrre spiegazioni intuitive delle computazioni all’interno delle reti neurali addestrate.
Approccio basato su agenti di interpretazione automatica
L’approccio sviluppato dai ricercatori del MIT CSAIL si basa sull’uso degli agenti di interpretazione automatica (AIA), che imitano i processi sperimentali di uno scienziato. Questi agenti pianificano e conducono test su altri sistemi computazionali, dalle singole unità neurali ai modelli interi, al fine di produrre spiegazioni di questi sistemi in diverse forme, come descrizioni in linguaggio naturale di ciò che un sistema fa e dove fallisce, e codice che riproduce il comportamento del sistema. A differenza dei metodi di interpretazione esistenti che classificano o riassumono passivamente gli esempi, l’AIA partecipa attivamente alla formazione di ipotesi, ai test sperimentali e all’apprendimento iterativo, raffinando così la sua comprensione degli altri sistemi in tempo reale.
Il benchmark FIND
Per valutare la qualità delle descrizioni dei componenti delle reti neurali addestrate, i ricercatori hanno introdotto il benchmark “Function Interpretation and Description” (FIND). FIND è un insieme di funzioni che rappresentano le computazioni all’interno delle reti neurali addestrate, accompagnate da descrizioni del loro comportamento.
Questo benchmark risolve una questione fondamentale nel campo dell’interpretabilità, ovvero la mancanza di etichette di riferimento per le unità o descrizioni delle computazioni apprese. Con FIND, le spiegazioni delle funzioni prodotte dall’AIA possono essere confrontate con le descrizioni delle funzioni nel benchmark per valutare le capacità degli AIA rispetto ad altri metodi presenti in letteratura.
Automazione dell’interpretabilità
Le grandi reti neurali linguistiche stanno diventando sempre più popolari nel mondo tecnologico grazie alle loro capacità di eseguire complesse attività di ragionamento in diversi domini. I ricercatori del MIT CSAIL hanno riconosciuto che questi modelli linguistici potrebbero essere usati come base per sviluppare agenti generalizzati per l’interpretabilità automatizzata. Questi agenti potrebbero fornire un’interfaccia generale per spiegare altri sistemi, sintetizzando i risultati degli esperimenti, integrando diverse modalità e persino scoprendo nuove tecniche sperimentali a un livello molto fondamentale.
La sfida dell’interpretabilità automatizzata
Nonostante gli avanzamenti significativi raggiunti dagli AIA, l’interpretabilità automatizzata è ancora lontana dall’essere completamente automatizzata. Gli AIA riescono a descrivere accuratamente solo circa la metà delle funzioni presenti nel benchmark FIND. Questo è spesso causato da una mancanza di dettagli più raffinati, in particolare nelle sottoaree di funzioni con comportamenti irregolari o rumorosi. Gli AIA potrebbero beneficiare di un maggiore campionamento in queste aree per migliorare l’accuratezza delle interpretazioni.
Prospettive future
I ricercatori del MIT CSAIL stanno sviluppando un toolkit per potenziare le capacità degli AIA nell’eseguire esperimenti più precisi sulle reti neurali, sia in impostazioni di “black-box” che di “white-box“. Questo toolkit mira a fornire agli AIA migliori strumenti per la selezione degli input e per il raffinamento delle capacità di test delle ipotesi per un’analisi più accurata e dettagliata delle reti neurali.
Il team sta anche affrontando le sfide pratiche dell’interpretabilità dell’intelligenza artificiale, concentrandosi sulla determinazione delle domande giuste da porre durante l’analisi dei modelli in scenari reali. L’obiettivo finale è sviluppare procedure di interpretabilità automatizzate che possano aiutare le persone a verificare i sistemi, ad esempio per la guida autonoma o il riconoscimento facciale, in modo da diagnosticare eventuali modalità di errore potenziali, bias nascosti o comportamenti sorprendenti prima del loro impiego.

