La Piattaforma di IA Generativa Google Gemini: Tutto Ciò che Devi Sapere
05/05/2024
L’intelligenza artificiale generativa sta rivoluzionando il modo in cui interagiamo con la tecnologia. In questo contesto, Google ha introdotto Gemini, la sua suite di modelli, app e servizi di IA generativa di punta. Gemini rappresenta un’evoluzione significativa rispetto ai precedenti modelli di linguaggio di Google, come LaMDA, grazie alla sua capacità di lavorare in modo multimodale con testi, immagini, audio e video.
Ma cosa esattamente è Gemini? Come puoi utilizzarlo? E come si confronta con la concorrenza? In questo articolo approfondiremo tutto ciò che c’è da sapere sulla nuova piattaforma di IA generativa di Google, dalle sue caratteristiche chiave alle sue applicazioni e ai suoi costi. Inoltre, esploreremo dove e come puoi provare Gemini. Quindi preparati a immergerti nel mondo affascinante di Gemini!
Cos’è Gemini?
Gemini è la suite di modelli di IA generativa di punta sviluppata dai laboratori di ricerca sull’IA di Google, DeepMind e Google Research. La famiglia Gemini comprende tre modelli principali:
Gemini Ultra
Il modello Gemini più performante, in grado di eseguire una vasta gamma di compiti multimodali, come la risoluzione passo-passo di problemi di fisica, l’identificazione di documenti scientifici rilevanti e la generazione di formule per aggiornare grafici e tabelle.
Gemini Pro
Un modello “leggero” di Gemini, con capacità di ragionamento, pianificazione e comprensione migliorate rispetto al precedente modello LaMDA di Google. Gemini Pro può elaborare grandi quantità di testo, codice, audio e video, sebbene con tempi di elaborazione più lenti.
Gemini Nano
Una versione più piccola e efficiente dei modelli Gemini Pro e Ultra, in grado di funzionare direttamente sui dispositivi mobili come gli smartphone Pixel 8 Pro e Galaxy S24. Gemini Nano alimenta funzionalità come la sintesi audio nei registratori e le risposte intelligenti nelle tastiere Gboard.
Ciò che distingue Gemini dagli altri modelli di linguaggio come LaMDA è la sua natura multimodale. Mentre LaMDA è stato addestrato esclusivamente su dati testuali, Gemini è stato pre-addestrato e affinato su una vasta gamma di contenuti audio, immagini, video e codice in diverse lingue. Questa caratteristica consente ai modelli Gemini di comprendere e generare contenuti multimodali, aprendo la strada a una vasta gamma di applicazioni.
Differenze tra le App Gemini e i Modelli Gemini
È importante notare che Gemini è distinto e indipendente dalle app Gemini (precedentemente note come Bard) disponibili sul web e sui dispositivi mobili. Le app Gemini sono semplicemente un’interfaccia attraverso la quale è possibile accedere a determinati modelli Gemini, una sorta di “client” per l’IA generativa di Google.
Inoltre, Gemini è anche indipendente da Imagen 2, il modello di generazione di immagini di Google disponibile in alcuni dei suoi strumenti e ambienti di sviluppo.
Cosa Possono Fare i Modelli Gemini?
Grazie alla loro natura multimodale, i modelli Gemini possono, in teoria, svolgere una vasta gamma di compiti che vanno dalla trascrizione vocale alla didascalia di immagini e video, fino alla generazione di opere d’arte. Alcune di queste capacità hanno già raggiunto la fase di prodotto, mentre altre sono ancora in fase di sviluppo.
Gemini Ultra
Secondo Google, Gemini Ultra può essere utilizzato per aiutare con i compiti di fisica, risolvendo i problemi passo-passo su un foglio di lavoro e individuando possibili errori in risposte già compilate. Può anche essere applicato a compiti come l’identificazione di articoli scientifici rilevanti per un determinato problema, l’estrazione di informazioni da tali articoli e la generazione di formule necessarie per ricreare un grafico con dati più recenti.
Sebbene Gemini Ultra supporti tecnicamente la generazione di immagini, questa funzionalità non è ancora stata integrata nella versione commercializzata del modello, forse perché il meccanismo è più complesso rispetto al semplice invio di prompt a un generatore di immagini come DALL-E 3 in ChatGPT.
Gemini Ultra è disponibile tramite l’API di Vertex AI, la piattaforma di sviluppo di IA gestita da Google, e AI Studio, lo strumento web di Google per gli sviluppatori di app e piattaforme. È anche alla base delle app Gemini, ma l’accesso a Gemini Ultra tramite il piano premium Google One AI richiede un abbonamento da $20 al mese.
Gemini Pro
Google afferma che Gemini Pro rappresenta un miglioramento rispetto a LaMDA in termini di capacità di ragionamento, pianificazione e comprensione. Uno studio indipendente ha riscontrato che la versione iniziale di Gemini Pro era effettivamente migliore di GPT-3.5 di OpenAI nell’affrontare catene di ragionamento più lunghe e complesse. Tuttavia, lo studio ha anche rilevato che, come tutti i grandi modelli di linguaggio, questa versione di Gemini Pro aveva particolare difficoltà con i problemi matematici che coinvolgono più cifre, e gli utenti hanno riscontrato esempi di ragionamento errato e errori evidenti.
Google ha promesso rimedi, e il primo è arrivato sotto forma di Gemini 1.5 Pro. Questo modello migliorato può elaborare circa 700.000 parole o 30.000 righe di codice, 35 volte in più rispetto alla versione precedente. Inoltre, essendo multimodale, può analizzare fino a 11 ore di audio o un’ora di video in diverse lingue, sebbene lentamente.
Gemini 1.5 Pro è entrato in anteprima pubblica su Vertex AI nell’aprile 2024. È inoltre disponibile un endpoint aggiuntivo, Gemini Pro Vision, che può elaborare testo e immagini/video e produrre output simili al modello GPT-4 with Vision di OpenAI.
Gemini Nano
Gemini Nano è una versione molto più piccola dei modelli Gemini Pro e Ultra, ed è sufficientemente efficiente da poter essere eseguita direttamente sui telefoni (come il Pixel 8 Pro, il Pixel 8 e il Samsung Galaxy S24) senza dover inviare il compito a un server remoto.
Attualmente, Gemini Nano alimenta alcune funzionalità su questi dispositivi, come la sintesi delle conversazioni registrate nell’app Registratore e le risposte intelligenti nella tastiera Gboard. Queste funzionalità possono essere utilizzate anche offline, senza che alcun dato lasci il telefono, garantendo la privacy degli utenti.
Come si Confronta Gemini con GPT-4 di OpenAI?
Google ha più volte vantato la superiorità di Gemini in diversi benchmark, affermando che Gemini Ultra supera i risultati all’avanguardia su 30 dei 32 benchmark accademici ampiamente utilizzati nella ricerca e nello sviluppo dei grandi modelli di linguaggio. Afferma inoltre che Gemini 1.5 Pro è più capace di Gemini Ultra in alcuni scenari, come la sintesi dei contenuti, il brainstorming e la scrittura.
Tuttavia, a prescindere dalla questione di quanto i benchmark indichino effettivamente un modello migliore, i punteggi a cui Google fa riferimento sembrano essere solo leggermente superiori ai modelli corrispondenti di OpenAI. Inoltre, alcune prime impressioni non sono state eccezionali, con utenti e accademici che hanno evidenziato la tendenza della vecchia versione di Gemini Pro a commettere errori di base, a fatica con le traduzioni e a fornire suggerimenti di codifica scadenti.
Quanto Costa Gemini?
Gemini 1.5 Pro è gratuito da utilizzare nelle app Gemini e, per ora, in AI Studio e Vertex AI.
Tuttavia, una volta che Gemini 1.5 Pro uscirà dalla fase di anteprima su Vertex, il modello costerà $0,0025 per carattere, mentre l’output costerà $0,00005 per carattere. I clienti Vertex pagano per ogni 1.000 caratteri (circa 140-250 parole) e, nel caso di modelli come Gemini Pro Vision, per immagine ($0,0025).
Quindi, per un articolo di 500 parole contenente 2.000 caratteri, il costo per riassumerlo con Gemini 1.5 Pro sarebbe di $5, mentre il costo per generare un articolo di lunghezza simile sarebbe di $0,1.
Il pricing di Gemini Ultra non è stato ancora annunciato.
Dove Puoi Provare Gemini?
Gemini Pro
Il modo più semplice per sperimentare Gemini Pro è attraverso le app Gemini, dove i modelli Pro e Ultra rispondono a query in una vasta gamma di lingue.
Gemini Pro e Ultra sono inoltre accessibili in anteprima tramite l’API di Vertex AI, con l’uso gratuito “entro certi limiti” per il momento e il supporto di alcune regioni, inclusa l’Europa, oltre a funzionalità come la chat e i filtri.
Altrove, Gemini Pro e Ultra possono essere trovati in AI Studio. Utilizzando questo servizio, gli sviluppatori possono iterare su prompt e chatbot basati su Gemini, per poi ottenere chiavi API per utilizzarli nelle loro app o esportare il codice in un IDE più avanzato.
Il Code Assist (ex Duet AI for Developers), la suite di strumenti di assistenza IA di Google per il completamento e la generazione di codice, utilizza i modelli Gemini. Gli sviluppatori possono eseguire modifiche su larga scala in tutto il codice sorgente, ad esempio aggiornare le dipendenze tra file e rivedere grandi porzioni di codice.
Google ha inoltre integrato i modelli Gemini nei suoi strumenti di sviluppo per Chrome e Firebase, nonché nei suoi strumenti di creazione e gestione di database. Ha inoltre lanciato nuovi prodotti di sicurezza basati su Gemini, come Gemini in Threat Intelligence, un componente della piattaforma di cybersicurezza Mandiant di Google che può analizzare grandi porzioni di codice potenzialmente dannoso e consentire agli utenti di eseguire ricerche in linguaggio naturale per minacce in corso o indicatori di compromissione.
Gemini Nano
Gemini Nano è presente sui dispositivi Pixel 8 Pro, Pixel 8 e Samsung Galaxy S24, e sarà integrato in altri dispositivi in futuro. Gli sviluppatori interessati a incorporare il modello nelle loro app Android possono iscriversi per una anteprima.
Gemini arriverà su iPhone?
Potrebbe! Apple e Google sarebbero in trattative per integrare Gemini in una serie di funzionalità da includere in un prossimo aggiornamento di iOS entro la fine dell’anno. Nulla è ancora definitivo, poiché Apple sta anche trattando con OpenAI e sta lavorando allo sviluppo delle sue stesse capacità di IA generativa.
Resta da vedere come si evolverà la collaborazione tra i due giganti tecnologici e quale sarà il ruolo di Gemini nell’ecosistema iOS in futuro.
Fonte dell’articolo qui.