Come impedire al nuovo web crawler di OpenAI GPTBot di accedere ai tuoi dati

09/08/2023
By mariapinacoico96
Il creatore di ChatGPT sta sviluppando la prossima generazione di intelligenza artificiale, che, secondo le voci, comprende GPT-5. Per impedire al suo web crawler di raccogliere i tuoi dati, basta una parola.
Il creatore di ChatGPT, OpenAI, ha rilasciato un nuovo web crawler, chiamato GPTBot, insieme alle indicazioni su come bloccarlo.
ChatGPT è uno dei sistemi di intelligenza artificiale più capaci mai costruiti, nonostante i recenti rapporti sulla sua intelligenza vacillante. OpenAI, l’azienda che sta dietro al chatbot AI, continua ad addestrare i suoi modelli linguistici di grandi dimensioni (LLM), come GPT-3.5 e GPT-4.
I web crawler, utilizzati dai motori di ricerca come Google e Bing per scansionare i siti web e indicizzare i contenuti, sono utilizzati anche dalle aziende di intelligenza artificiale per addestrare gli LLM. Questi modelli imparano dal contenuto dei siti web e da qualsiasi altro dato su cui gli sviluppatori decidono di addestrarli. L’uso di un web crawler accelera questo processo, consentendo agli LLM di addestrarsi su enormi quantità di dati.
“Consentire a GPTBot di accedere al tuoi sito può aiutare i modelli di intelligenza artificiale a diventare più precisi e a migliorare le loro capacità generali e la loro sicurezza”, si legge nella rapporto di OpenAI su GPTBot. L’azienda sostiene di filtrare le pagine web che richiedono l’accesso al paywall, che raccolgono informazioni di identificazione personale e che presentano testi che violano le politiche di OpenAI.
Gli sviluppatori hanno la possibilità di bloccare l’accesso del GPTBot ai loro siti e di utilizzare le loro informazioni per addestrare i sistemi di intelligenza artificiale.
Come bloccare il crawler di OpenAI
OpenAI spiega come disabilitare o personalizzare l’accesso del GPTBot al proprio sito.
Per bloccare completamente l’accesso di GPTBot a un sito, il proprietario del sito può aggiungere il token GPTBot al robots.txt del sito e “Disallow: /”.
OpenAI permette inoltre agli utenti di personalizzare l’accesso di GPTBot consentendogli di effettuare il crawling solo di alcune parti del sito. Per bloccare l’accesso di GPTBot a parti di un sito web, aggiungere GPTBot al robots.txt del sito e “Allow: /directory-1/” e “Disallow: /directory-2/” e personalizzare come necessario.
OpenAI non aveva annunciato in precedenza l’uso di web crawler per addestrare GPT-3.5, l’LLM alla base della versione gratuita di ChatGPT, o GPT-4, l’LLM più recente disponibile per gli abbonati a ChatGPT Plus e che alimenta Bing AI.
Sebbene non sia chiaro se GPTBot sia stato usato per addestrare gli LLM attualmente disponibili di OpenAI, potrebbe essere il web crawler che addestra GPT-5, soprattutto perché l’azienda ha depositato il marchio di fabbrica del nome a luglio. Anche se OpenAI non ha annunciato una data di rilascio per GPT-5, il nuovo LLM dovrebbe essere più potente e più grande di GPT-4, che è attualmente il più grande LLM disponibile.
Dal lancio di ChatGPT, OpenAI è stata colpita da diverse cause legali che sostengono che lo strumento di intelligenza artificiale stia rubando dati agli utenti, tra cui un caso di violazione del copyright che ha reso l’azienda bersaglio di un’indagine della FTC. Siti web come Stack Overflow, Reddit e Twitter hanno dichiarato di voler iniziare a far pagare alle aziende di IA l’accesso ai loro dati, e in tutta onestà… non sarebbe una cattiva idea!