OpenAI ha lanciato il web crawler GPTBot per migliorare i suoi modelli di intelligenza artificiale.
“Le pagine Web sottoposte a scansione con l’agent GPTBot possono potenzialmente essere utilizzate per migliorare i modelli rimuovendo le fonti che richiedono l’accesso tramite paywall“, ha affermato la società con un post sul suo sito web.
“Consentire a GPTBot di accedere al tuo sito può aiutare i modelli AI a diventare più accurati e migliorare le loro capacità generali e la loro sicurezza“, ha scritto OpenAI.
Di solito questa modalità di accesso alle pagine web viene gestita dai motori di ricerca che indicizzano i contenuti affinché i siti appaiano nei risultati di ricerca.
Sono chiamati “web crawler” perché eseguono una scansione delle pagine di un sito Web con lo scopo di ottenere dei dati.
OpenAI ha anche fornito istruzioni su come impedire a GPTBot di accedere a un sito Web, parzialmente o completamente.
I siti web possono bloccare l’indirizzo IP del crawler o aggiungere il GPTBot al file robots.txt del sito. Il file essenzialmente istruisce i web crawler su ciò che è accessibile su un determinato sito.
“Per consentire a GPTBot di accedere ad alcune parti del tuo sito, puoi aggiungere il token GPTBot al robots.txt del tuo sito”, ha spiegato.
“Per il crawler di OpenAI, le chiamate ai siti Web verranno effettuate dal blocco dell’indirizzo IP documentato sul sito Web di OpenAI”, ha concluso OpenAI.