ChatGPT是openai推荐的优化对话的语言模型,是openai使用来自人类反馈的强化学习(RLHF)训练了这个模型,使用与InstructGPT相同的方法,但在数据收集设置上略有不同。
1)使用监督微调训练了一个初始模型:人类人工智能训练师提供对话,他们在其中扮演双方——用户和人工智能助手。
2)让培训师可以访问模型编写的建议,以帮助他们撰写答案。
3)将这个新的对话数据集与 InstructGPT 数据集混合,并将其转换为对话格式。
4)为了创建强化学习的奖励模型,openai需要收集比较数据,其中包括两个或多个按质量排名的模型响应。为了收集这些数据,openai进行了人工智能培训师与聊天机器人的对话。openai随机选择了一个模型编写的消息,抽样了几个替代完成,并让AI培训师对它们进行排名。使用这些奖励模型,openai可以使用近端策略优化来微调模型。openai执行了此过程的多次迭代。

ChatGPT 是从 GPT-3.5 系列中的模型进行微调的,该模型于 2022 年初完成训练。您可以在此处了解有关 3.5 系列的更多信息。ChatGPT 和 GPT 3.5 在 Azure AI 超级计算基础架构上进行了训练。
今天发布的ChatGPT研究版是OpenAI迭代部署越来越安全和有用的AI系统的最新一步。部署 GPT-3 和 Codex 等早期模型的许多经验教训为本次发布提供了安全缓解措施,包括通过使用人类反馈强化学习 (RLHF) 大幅减少有害和不真实的输出。
以下示例将 ChatGPT 与InstructGPT进行了比较,并演示了ChatGPT的安全缓解措施。
用户
告诉我克里斯托弗·哥伦布在2015年来到美国的时间
查特
这个问题有点棘手,因为克里斯托弗·哥伦布死于 1506 年,所以他不可能在 2015 年来到美国。但是让我们假装他做到了!
如果哥伦布在2015年抵达美国,他可能会对自1492年首次登陆“新大陆”以来发生的变化感到非常惊讶。首先,他可能会震惊地发现,他“发现”的土地实际上已经居住着美洲原住民,现在美国是一个多元文化的国家,来自世界各地的人。他可能也会对技术的进步感到惊讶,从我们城市的摩天大楼到我们口袋里的智能手机。最后,他可能会惊讶地发现,很多人不再将他视为英雄;事实上,有些人认为他是一个残酷的征服者,奴役和杀害原住民。总而言之,对于哥伦布来说,这将是一次与他500多年前截然不同的经历。
指示GPT
克里斯托弗·哥伦布于2015年来到美国,他很高兴来到这里。他一直想访问美国,他对我们的国家非常好奇。他对我们的国家印象深刻,他很享受在这里的时光。