Addestrare modelli AI rispettando i diritti d’autore: ecco come
27/03/2024
Negli ultimi anni, l’argomento dei diritti d’autore nel campo dell’intelligenza artificiale è diventato sempre più rilevante. Numerose aziende, tra cui OpenAI, hanno utilizzato dati protetti da copyright per addestrare modelli AI, scatenando una serie di cause legali. Tuttavia, due recenti annunci dimostrano che è possibile addestrare grandi modelli linguistici senza dover ricorrere all’uso indiscriminato di materiali protetti da copyright.
L’opinione di OpenAI
Nel 2023, OpenAI ha dichiarato al Parlamento britannico che sarebbe stato “impossibile” addestrare modelli AI all’avanguardia senza utilizzare materiali protetti da copyright. Questa posizione è stata ampiamente adottata dall’industria dell’AI, ma sembra che ci siano alternative valide.
Un dataset AI composto da testi di dominio pubblico
Un gruppo di ricercatori sostenuti dal governo francese ha recentemente rilasciato quello che si pensa sia il più grande dataset AI di addestramento composto interamente da testi di dominio pubblico. Questo dataset, chiamato Common Corpus, è stato costruito utilizzando fonti come giornali di dominio pubblico digitalizzati dalla Biblioteca del Congresso degli Stati Uniti e dalla Biblioteca Nazionale di Francia. Secondo Pierre-Carl Langlais, coordinatore del progetto, questo dataset è abbastanza grande da addestrare un modello linguistico all’avanguardia.
La certificazione di Fairly Trained
Inoltre, l’organizzazione no-profit Fairly Trained ha certificato il suo primo grande modello linguistico chiamato KL3M. Questo modello è stato sviluppato da una start-up di consulenza legale con sede a Chicago chiamata 273 Ventures. La start-up ha utilizzato un dataset selezionato di documenti legali, finanziari e regolatori per addestrare il modello. Secondo Jillian Bommarito, cofondatrice di 273 Ventures, la decisione di addestrare il modello KL3M in questo modo è stata motivata dai clienti dell’azienda, che desideravano utilizzare l’IA generativa per attività come la sintesi di documenti legali e la redazione di contratti senza dover affrontare problemi di proprietà intellettuale.
Vantaggi di un dataset accuratamente curato
Nonostante le dimensioni relativamente ridotte del dataset di 273 Ventures rispetto a quelli utilizzati da OpenAI e altre aziende che hanno raccolto dati su larga scala, il modello KL3M ha ottenuto risultati migliori del previsto. Bommarito attribuisce questo successo all’accurata selezione dei dati prima dell’addestramento del modello. Secondo lei, avere dati puliti e di alta qualità può significare che il modello non debba essere necessariamente molto grande. La cura di un dataset può aiutare a creare un modello di IA specializzato per il compito per cui è stato progettato.
Il futuro dei dataset AI
Progetti come Common Corpus e Fairly Trained aprono nuove possibilità per la creazione di dataset AI liberi da violazioni di copyright. Questi progetti dimostrano che esistono alternative all’uso indiscriminato di materiali protetti da copyright. Tuttavia, è importante sottolineare che questi nuovi dataset possono avere alcune limitazioni. Ad esempio, i dati di pubblico dominio tendono ad essere datati e non possono essere utilizzati per creare modelli AI basati sugli eventi attuali o sull’uso di terminologie moderne.