Google lancia Gemini Pro 1.5: il modello IA più avanzato
15/04/2024
Negli ultimi anni, l’intelligenza artificiale ha fatto passi da gigante, aprendo nuove possibilità e sfidando i limiti delle capacità umane. Google, uno dei leader nel settore dell’IA, ha recentemente annunciato il lancio di Google Gemini Pro 1.5, il suo modello generativo più avanzato. Questo modello è ora disponibile in anteprima pubblica su Vertex AI, la piattaforma di sviluppo di IA aziendale di Google.
Gemini Pro 1.5: un modello ad alta capacità
Una delle caratteristiche più sorprendenti di Gemini Pro 1.5 è la sua capacità di elaborare contesti estremamente complessi. Questo modello è in grado di processare da 128.000 a 1 milione di “token”, che corrispondono a frammenti di dati grezzi come le sillabe di una parola. Per comprendere appieno l’entità di questa capacità, un milione di token equivale a circa 700.000 parole o 30.000 righe di codice. Questa quantità di dati è quattro volte superiore a quella che il modello di punta di Anthropic, Claude 3, può elaborare e otto volte superiore al contesto massimo di GPT-4 Turbo di OpenAI.
Il contesto di un modello, o finestra di contesto, si riferisce all’insieme iniziale di dati che il modello considera prima di generare un output. Modelli con finestre di contesto ridotte tendono a “dimenticare” il contenuto di conversazioni recenti, portandoli a divagare dal tema. Questo non è necessariamente il caso dei modelli con contesti ampi. Inoltre, i modelli con contesti ampi possono comprendere meglio il flusso narrativo dei dati che elaborano, generando risposte più ricche dal punto di vista contestuale e riducendo la necessità di un’ulteriore ottimizzazione e ancoraggio fattuale.
Possibilità offerte da un contesto di 1 milione di token
Le potenzialità offerte da un contesto di 1 milione di token sono molteplici, come promesso da Google. Ad esempio, Gemini Pro 1.5 può analizzare una libreria di codice, “ragionare” attraverso documenti lunghi e sostenere conversazioni prolungate con un assistente virtuale. Grazie alla sua natura multilingue e multimodale, il modello è in grado di comprendere immagini, video e, da poco, anche flussi audio. Ciò significa che può analizzare e confrontare contenuti multimediali come programmi TV, film, registrazioni radiofoniche e chiamate conferenza in diverse lingue. Un milione di token corrisponde a circa un’ora di video o circa 11 ore di audio.
Applicazioni pratiche di Gemini 1.5 Pro
Gemini 1.5 Pro sta già trovando applicazioni pratiche all’interno di diverse aziende. Ad esempio, United Wholesale Mortgage, TBS e Replit stanno sfruttando la finestra di contesto estesa per attività come l’analisi dei mutui, l’automazione dell’etichettatura dei metadati negli archivi multimediali e la generazione, spiegazione e trasformazione del codice. Tuttavia, è importante notare che Gemini 1.5 Pro non elabora un milione di token in un attimo, ma richiede alcuni secondi o minuti per completare una ricerca. Google è consapevole di questa questione e sta lavorando per ottimizzare ulteriormente Gemini 1.5 Pro nel corso del tempo, al fine di ridurre la latenza.
Gemini 1.5 Pro e Google Code Assist
Gemini 1.5 Pro sta gradualmente integrandosi in altri prodotti aziendali di Google. Ad esempio, il modello (ancora in anteprima privata) alimenta nuove funzionalità di Code Assist, uno strumento di assistenza alla scrittura di codice basato sull’IA. I programmatori possono ora effettuare modifiche su larga scala all’interno di codebase, aggiornare dipendenze tra file e rivedere ampie porzioni di codice. Questa integrazione di Gemini 1.5 Pro con Code Assist offre ai programmatori un supporto avanzato nella scrittura e nella revisione del codice.