TECNOLOGIA, INTERNET TRENDS, GAMING, BIG DATA

DatologyAI rivoluziona la cura dei dataset per l’addestramento IA

DatologyAI rivoluziona la cura dei dataset per l’addestramento IA

By auroraoddi

L’addestramento dei modelli di intelligenza artificiale richiede l’utilizzo di grandi dataset. Tuttavia, questi dataset possono presentare sfide come la presenza di pregiudizi nascosti o l’incomprensibilità dei formati. Secondo uno studio di Deloitte, il 40% delle aziende che adottano l’IA considera le sfide legate ai dati come uno dei principali ostacoli per i propri progetti. Inoltre, il 45% del tempo dei data scientist è dedicato alle attività di preparazione e pulizia dei dati. Per affrontare queste sfide, Ari Morcos, fondatore di DatologyAI, ha sviluppato una piattaforma per la cura automatica dei dataset di addestramento dell’IA.

Il problema dei dataset di addestramento

I dataset di addestramento sono fondamentali per la creazione di modelli di IA potenti. Tuttavia, possono presentare diversi problemi. Uno di questi è la presenza di pregiudizi nascosti. Ad esempio, un dataset di classificazione delle immagini potrebbe contenere principalmente immagini di CEO di colore bianco, creando un pregiudizio razziale nel modello di intelligenza artificiale che viene addestrato su quel dataset. Inoltre, i grandi dataset possono essere disordinati e contenere informazioni superflue o rumorose.

Il ruolo di DatologyAI nella cura dei dataset

DatologyAI è una startup fondata da Ari Morcos che si occupa di sviluppare strumenti per la cura automatica dei dataset utilizzati per addestrare modelli di IA come ChatGPT di OpenAI e Gemini di Google. La piattaforma di DatologyAI è in grado di identificare i dati più importanti in base all’applicazione del modello e di suggerire come arricchire il dataset con dati aggiuntivi. Inoltre, la piattaforma offre la possibilità di suddividere il dataset in porzioni più gestibili durante l’addestramento del modello.

L’importanza dei dati di addestramento

Come afferma Morcos, “i modelli sono ciò che mangiano, sono il riflesso dei dati su cui vengono addestrati“. Pertanto, è fondamentale addestrare i modelli utilizzando i dati corretti nel modo corretto per ottenere risultati ottimali. La composizione del dataset di addestramento influisce su molte caratteristiche del modello, come le prestazioni nelle attività, la dimensione e la profondità della conoscenza di dominio. L’utilizzo di dataset più efficienti può ridurre il tempo di addestramento e ottenere modelli più compatti, riducendo così i costi di elaborazione. Inoltre, i dataset che includono una gamma diversificata di campioni possono gestire richieste esoteriche in modo più efficace.

La tecnologia di DatologyAI

La tecnologia di DatologyAI è in grado di gestire grandi quantità di dati in diversi formati, come testo, immagini, video, audio e dati tabulari. La piattaforma può essere implementata nell’infrastruttura del cliente, sia in ambienti locali che tramite cloud privati virtuali. Ciò la distingue da altre soluzioni di preparazione e cura dei dati, come CleanLab, Lilac, Labelbox, YData e Galileo, che sono più limitate nel tipo e nell’ambito dei dati che possono elaborare.

L’analisi dei concetti nel dataset

Un aspetto interessante della tecnologia di DatologyAI è la capacità di determinare i “concetti” all’interno di un dataset. Ad esempio, può identificare i concetti correlati alla storia degli Stati Uniti in un dataset utilizzato per addestrare un assistente virtuale educativo. Inoltre, DatologyAI è in grado di valutare la complessità dei concetti e determinare quali campioni sono di qualità superiore e richiedono più attenzione. Questa capacità di analizzare e valutare i concetti nel dataset può contribuire a un addestramento più efficace dei modelli di IA.

Morcos sottolinea che la tecnologia di DatologyAI non mira a sostituire completamente la cura manuale dei dataset, ma piuttosto a offrire suggerimenti che potrebbero sfuggire ai data scientist, in particolare suggerimenti relativi alla riduzione delle dimensioni dei dataset di addestramento. La riduzione delle dimensioni può essere un aspetto critico per ottenere modelli più efficienti e performanti. In un articolo accademico del 2022, Morcos e altri ricercatori hanno approfondito il tema della riduzione delle dimensioni dei dataset di addestramento, ottenendo un premio come miglior articolo alla conferenza di machine learning di NeurIPS.

L’efficacia della tecnologia di DatologyAI

La tecnologia di DatologyAI ha attirato l’attenzione di importanti figure del mondo dell’IA, come Jeff Dean di Google, Yann LeCun di Meta, Adam D’Angelo di Quora e Geoffrey Hinton, uno dei pionieri delle tecniche fondamentali dell’IA moderna. Questi esperti hanno investito nella fase di seed di DatologyAI, dimostrando la fiducia nella tecnologia sviluppata da Morcos e nel suo approccio alla cura dei dataset di addestramento. Tuttavia, è necessario essere cauti riguardo all’efficacia della cura automatica dei dataset, poiché in passato si sono verificati casi in cui la cura automatica ha portato a risultati indesiderati, come la presenza di immagini di abusi su minori nei dataset curati automaticamente da un’organizzazione tedesca.

Il futuro di DatologyAI

Attualmente, DatologyAI conta circa 10 dipendenti, ma l’azienda si prevede di espandersi fino a raggiungere circa 25 dipendenti entro la fine dell’anno, a condizione di raggiungere determinati obiettivi di crescita. Nonostante il successo iniziale, Morcos non ha rivelato il numero esatto di clienti di DatologyAI. Tuttavia, la presenza di importanti investitori e luminari del settore dell’IA suggerisce che DatologyAI potrebbe rappresentare un punto di svolta nella cura automatica dei dataset di addestramento dell’IA.

Scopri di più da Syrus

Abbonati ora per continuare a leggere e avere accesso all'archivio completo.

Continue reading

Scopri di più da Syrus

Abbonati ora per continuare a leggere e avere accesso all'archivio completo.

Continue reading