TECNOLOGIA, INTERNET TRENDS, GAMING, BIG DATA

Intelligenza artificiale: la sfida dei dati di addestramento si fa seria

Intelligenza artificiale: la sfida dei dati di addestramento si fa seria

By auroraoddi

L’intelligenza artificiale è diventata sempre più avanzata negli ultimi anni, ma ciò ha portato a un problema crescente per le aziende che lavorano su questa tecnologia: la carenza di dati di addestramento. L’IA si basa su enormi quantità di dati per apprendere e prendere decisioni, ma ora molte aziende stanno scoprendo che l’internet non è abbastanza grande per fornire tutti i dati di cui hanno bisogno.

La crescente carenza di dati

Come riportato dal Wall Street Journal, le aziende di IA stanno costruendo modelli sempre più grandi e complessi, che richiedono una quantità sempre maggiore di dati per essere addestrati correttamente. Tuttavia, l’internet sta raggiungendo i suoi limiti in termini di quantità di dati disponibili. Ciò sta creando una carenza di dati di addestramento e sta mettendo in difficoltà molte aziende.

Per affrontare questa situazione, alcune aziende stanno cercando alternative alla tradizionale fonte di dati di addestramento. Ad esempio, stanno considerando l’utilizzo di trascrizioni video pubblicamente disponibili o addirittura di “dati sintetici” generati dall’IA stessa. Queste soluzioni alternative possono aiutare a colmare la carenza di dati, ma sollevano anche alcune preoccupazioni.

Dati sintetici e “inbreeding” digitale

I dati sintetici sono stati oggetto di dibattito negli ultimi mesi. Alcuni ricercatori hanno scoperto che addestrare un modello di IA su dati generati dall’IA stessa potrebbe comportare una forma di “inbreeding” digitale che alla fine porterebbe al “crollo del modello” o a una forma di “IA di Habsburg”. Questo significa che l’IA potrebbe diventare inefficace o produrre risultati imprevedibili a causa dell’addestramento su dati non reali.

Nonostante queste preoccupazioni, alcune aziende stanno cercando di superare questi ostacoli creando dati sintetici di alta qualità. Ad esempio, OpenAI e Anthropic stanno lavorando per creare dati sintetici di migliore qualità rispetto a quelli generati dall’IA stessa. Tuttavia, le aziende non condividono i dettagli esatti su come generano questi dati, mantenendo il segreto sulla loro “ricetta speciale”.

La lotta per l’accesso a dati di qualità

Nonostante le sfide e le preoccupazioni, l’utilizzo di dati sintetici può avere dei vantaggi. In un’intervista con il Wall Street Journal, il capo scienziato di Anthropic, Jared Kaplan, ha affermato che ci sono buoni casi d’uso per i dati sintetici. Tuttavia, l’accesso a dati di qualità rimane una sfida.

Alcune aziende, come OpenAI, stanno cercando di ottenere accesso a trascrizioni di video pubblicamente disponibili per addestrare i loro modelli di IA. Tuttavia, ciò solleva domande sulla provenienza dei dati e sulla loro qualità. Ad esempio, il generatore di video Sora di OpenAI è stato addestrato utilizzando dati provenienti da YouTube, ma la società ha avuto difficoltà a rispondere alle domande sulla provenienza esatta dei dati.

L’incertezza sul futuro

Nonostante le preoccupazioni sulla carenza di dati, gli esperti affermano che non c’è motivo di panico. Pablo Villalobos, un ricercatore di Epoch, ha dichiarato che la principale incertezza riguarda le future scoperte e gli sviluppi che potrebbero risolvere questi problemi. Molti credono che ci saranno nuove soluzioni innovative che permetteranno alle aziende di continuare a sviluppare modelli di IA sempre più avanzati.

Tuttavia, c’è anche un’altra soluzione evidente a questo problema: le aziende di IA potrebbero semplicemente smettere di cercare di creare modelli sempre più grandi e complessi. Oltre alla carenza di dati di addestramento, l’IA richiede una grande quantità di energia e risorse computazionali costose, il che può avere un impatto negativo sull’ambiente. Ridurre le dimensioni dei modelli di IA potrebbe essere un modo per affrontare questi problemi.

Scopri di più da Syrus

Abbonati ora per continuare a leggere e avere accesso all'archivio completo.

Continua a leggere