IT之家 8 月 8 日消息,OpenAI 昨日发布了旗下网络爬虫工具 GPTBot,官方宣称,该 GPTBot 工具能够在注重版权的基础上,使用透明的方式收集网页信息,来训练 OpenAI 旗下的各 AI 模型。
OpenAI 表示,GPTBot 使用专有网页 UA 表示其爬虫身份,完整 UA 字符串为(Mozilla / 5.0 AppleWebKit / 537.36 / KHTML, like Gecko; compatible; GPTBot / 1.0; + https://openai.com/ gptbot),任何网站管理者都可以自由允许或阻止该爬虫工具进行数据采集。
▲ 图源 OpenAI▲ 图源 OpenAI
OpenAI 声称,若网站管理员不希望被爬虫搜集资料,管理员可以在网站服务器的 robots.txt 文件中完全禁止 GPTBot 抓取信息,或自行决定 GPTBot 抓取网站上的指定信息。
OpenAI 此前饱受业界对于“侵犯隐私问题”的指责,当下 OpenAI 推出这样一套 GPTBot 爬虫工具,可谓是其对于外界批判作出的相应回应,同时也能够推动行业建立 AI 训练用爬虫工具相关基准。而IT之家此前则报道,OpenAI 日前宣布注册 GPT-5 商标,该 GPTBot 爬虫工具也有望助力 GPT-5 的相关模型训练。
领取专属 10元无门槛券
私享最新 技术干货