ChatGPT sta diventando più stupido? OpenAI dice di no

fogliotiziana

3 anni fa

Nelle principali community online dedicate a ChatGPT, come i subreddit di Reddit e Twitter, c’è una domanda ricorrente tra gli utenti: ChatGPT sta diventando più stupido?

Le capacità del chatbot più popolare al mondo basato su intelligenza artificiale generativa sembrano peggiorare nel tempo o si tratta solo di una percezione errata da parte dei milioni di utenti, una sorta di allucinazione collettiva?

ChatGPT sta peggiorando?

Molti utenti di ChatGPT si sono interrogati sull’effettiva diminuzione delle prestazioni del chatbot. OpenAI rilascia frequenti aggiornamenti per modificare le risposte dell’IA, la sicurezza e altri aspetti, sulla base dei feedback degli utenti.

Tuttavia, se al lancio ChatGPT sembrava brillante nel fornire soluzioni a diversi problemi, col tempo sempre più utenti hanno segnalato un peggioramento nella qualità delle risposte e dei risultati, in particolare per quanto riguarda capacità di ragionamento, coding e matematica. Altri hanno notato difficoltà anche in compiti creativi.

Per valutare oggettivamente come le risposte di ChatGPT siano cambiate, il metodo più semplice è ripetere una stessa richiesta usata in precedenza e confrontare i due output. Le risposte con contenuti specifici, come codifica e matematica, sono le più facili da paragonare in modo diretto.

Analizzando nel dettaglio questi confronti, possiamo comprendere meglio la reale entità del presunto calo di qualità di ChatGPT e come l’IA sia evoluta nel tempo.

Uno studio di Stanford suggerisce un calo di ChatGPT

Un gruppo di ricerca congiunto dell’Università di Stanford e della UC Berkley ritiene che la sensazione che ChatGPT stia cambiando potrebbe essere corretta. Il documento di Lingjiao Chen, Matei Zaharia e James Zou, “How Is ChatGPT’s Behavior Changing over Time?” è uno dei primi studi approfonditi sul cambiamento delle capacità di ChatGPT.

Il riassunto del rapporto spiega:

“Abbiamo riscontrato che le prestazioni e il comportamento di GPT-3.5 e GPT-4 possono variare notevolmente nel tempo. Ad esempio, GPT-4 (marzo 2023) è stato molto bravo a identificare i numeri primi (accuratezza del 97,6%), ma GPT-4 (giugno 2023) è stato molto scarso su queste stesse domande (accuratezza del 2,4%). È interessante notare che GPT-3.5 (giugno 2023) è stato molto più bravo di GPT-3.5 (marzo 2023) in questo compito. GPT-4 è stato meno disposto a rispondere a domande delicate a giugno rispetto a marzo, e sia GPT-4 che GPT-3.5 hanno fatto più errori di formattazione nella generazione del codice a giugno rispetto a marzo. L’accuratezza di GPT-4 è scesa dal 97,6% di marzo al 2,4% di giugno, mentre l’accuratezza di GPT-3.5 è migliorata notevolmente, passando dal 7,4% all’86,8%. Inoltre, la risposta di GPT-4 è diventata molto più compatta: la sua verbosità media (numero di caratteri generati) è diminuita da 821,2 a marzo a 3,8 a giugno. D’altra parte, la lunghezza delle risposte di GPT-3.5 è cresciuta di circa il 40%. Anche la sovrapposizione delle risposte tra le versioni di marzo e giugno è stata minima per entrambi i servizi“.

Quando agli utenti sono stati sottoposti problemi matematici che ChatGPT era in grado di risolvere correttamente all’inizio del 2023, le risposte fornite più avanti nel corso dell’anno sono risultate estremamente imprecise. Inoltre, il chatbot spiegava in dettaglio perché la soluzione era corretta, nonostante fosse palesemente sbagliata. Le allucinazioni delle AI non sono una novità, ma i dati riportati nei grafici seguenti suggeriscono un peggioramento significativo delle capacità di ragionamento complesso di ChatGPT.

Confrontando le risposte matematiche del chatbot nei primi mesi del 2023 e più recentemente, emerge un netto calo nella precisione e coerenza del output. ChatGPT non solo sbaglia soluzioni un tempo azzeccate, ma non riconosce nemmeno più i propri errori, fornendo spiegazioni contraddittorie. Questi risultati indicano probabilmente un deterioramento delle skill logico-deduttive dell’IA, un campanello d’allarme da non sottovalutare per il futuro sviluppo della tecnologia.

La tendenza delle conversazioni ad allontanarsi dal focus iniziale è sempre stata una criticità rilevante per i modelli linguistici di grandi dimensioni (LLM) come ChatGPT. Tuttavia, l’estrema variabilità e inconsistenza delle risposte più recenti del chatbot, anche a domande identiche, suggerisce che ci siano problemi più profondi relativi alle sue prestazioni e modifiche apportate dai sviluppatori.

Se in passato la deriva delle conversazioni poteva essere ricondotta alle caratteristiche tipiche degli LLM, il grado attuale di imprevedibilità e contraddittorietà degli output indica probabilmente un peggioramento delle capacità del modello ChatGPT di mantenere coerenza e focus. Questa maggiore aleatorietà conferma l’impressione diffusa di un calo qualitativo del chatbot, al di là del normale comportamento erratico proprio delle AI conversazionali.

ChatGPT sta peggiorando? OpenAI dice di no

Può essere una coincidenza che sia utenti occasionali che assidui abbiano notato un peggioramento nella qualità delle risposte di ChatGPT? Il report sembrerebbe suggerire che non si tratti di una casualità. Tuttavia, il vicepresidente di OpenAI Peter Welinder ha negato questo calo, sottolineando i continui aggiornamenti rilasciati nel 2023.

Ciò non ha fermato le numerose risposte al suo tweet da parte di utenti che hanno evidenziato output non soddisfacenti. Molti hanno documentato queste mancanze riportando le domande poste e le risposte imprecise o incongruenti ricevute.

Le segnalazioni degli utenti sembrano contraddire la posizione di OpenAI, indicando che il peggioramento percepito non sia dovuto al caso ma a reali problematiche che affliggono le prestazioni di ChatGPT. La questione merita un’attenta analisi, confrontando in modo oggettivo gli output passati e presenti del chatbot. Solo così si potrà capire se effettivamente la qualità delle sue risposte sia diminuita nel tempo.

Può OpenAI riportare ChatGPT al suo stato originale?

I primi giorni di ChatGPT sembrano ormai lontani; novembre 2022 è un ricordo nebuloso e il mondo dell’IA si muove velocemente.

Per molti, lo studio di Stanford/Berkeley illustra perfettamente i problemi e le frustrazioni dell’utilizzo di ChatGPT. Altri sostengono che le modifiche e i cambiamenti apportati a ChatGPT per renderlo uno strumento più sicuro e inclusivo hanno anche alterato direttamente la sua capacità di ragionare in modo appropriato, riducendo la sua conoscenza e le sue capacità complessive al punto da renderlo inutilizzabile.

Sembra che ci siano pochi dubbi sul fatto che ChatGPT sia cambiato. Se ChatGPT riacquisterà la sua abilità originale è un’altra questione.

Ti consigliamo anche

Capire i LLM: tutto sui Large Language Models alla base di ChatGPT e gli altri strumenti di intelligenza artificiale

ChatGPT è davvero più creativo del 99% degli esseri umani?

8 esempi di come Bard è superiore a ChatGPT