OpenAI skanuje sieć, by karmić ChatGPT nowymi danymi. Jak się przed tym chronić?

Obecne modele generatywnej sztucznej inteligencji opierają się na gigantycznych ilościach danych pozyskiwanych ze wszystkich zakątków internetu. Problem w tym, że cały proces odbywa się z reguły bez zgody i wiedzy użytkowników, a informacji raz wykorzystanych do trenowania AI danych nie da się z niej usunąć. Nic więc dziwnego, że takie praktyki spotykają się z ostrą krytyką ze strony opinii publicznej, a wiodącej w tym względzie firmie OpenAI grożą z tego tytułu pozwy zbiorowe za naruszenia prywatności i praw własności intelektualnej.

Spółka wydaje się jednak niezrażona protestami i wciąż kontynuuje rozwój swojego flagowego produktu ChatGPT. Właśnie uruchomiła w tym celu tzw. web crawlera o nazwie GPTBot, którego zadaniem jest zgromadzenie najbardziej aktualnych danych z całego internetu na potrzeby dalszego rozwijania i ulepszania algorytmów sztucznej inteligencji. Przypomnijmy, że obecnie dostępne wersje aplikacji ChatGPT-3,5 oraz ChatGPT-4 wykorzystują dane zgromadzone do końca 2021 r.

OpenAI uruchomiło nowego web crawlera. Jak się przed nim bronić?

Tym razem jednak administratorzy stron internetowych mają możliwość ochrony swoich danych przed botem OpenAI. W tym celu muszą jednak aktywnie zablokować mu dostęp do witryny za pośrednictwem pliku „Robot.txt” lub zbanować jego adres IP. Bardziej szczegółowe instrukcje dostępne są na blogu OpenAI.

Jak zidentyfikować GPTBot

Nazwa: GPTBot
Pełna nazwa użytkownika GPTBota: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Odebranie dostępu do strony

Nazwa: GPTBot
Nie dopuszczaj: /

Przyznanie dostępu do części danych

Nazwa: GPTBot
Dopuść: /directory-1/
Nie dopuszczaj: /directory-2/

Firma naturalnie zniechęca do takich blokad, przekonując, że dane „zostaną wykorzystane do ulepszania przyszłych modeli AI” i „poprawy ich umiejętności i bezpieczeństwa”. Zapewnia jednocześnie, że bot posiada wbudowaną blokadę, która automatycznie usuwa dane pozyskane zza paywalla, wszelkie prywatne informacje pozwalające na identyfikację użytkowników oraz dane naruszające politykę OpenAI.

Wciąż jednak wiele osób może nie życzyć sobie, by unikatowo tworzone przez nich treści stały się materiałem szkoleniowym dla algorytmów AI. Wprowadzenie możliwości blokady crawlera OpenAI to zatem pierwszy znak, że firmy i twórcy systemów sztucznej inteligencji coraz poważniej traktują krytykę ze strony opinii publicznej i prywatność użytkowników internetu.