OpenAI训练了一个基于GPT-4的模型,名为CriticGPT,用于捕捉ChatGPT代码输出中的错误。
当人们在CriticGPT的帮助下审查ChatGPT代码时,他们的表现比没有帮助的人高出60%。
将类似CriticGPT的模型集成到RLHF(人类反馈)标注流程中,为培训师提供明确的人工智能辅助。
这是朝着能够评估高级人工智能系统输出迈出的一步,这些系统对于人们来说,在没有更好的工具的情况下可能难以评定。
GPT-4系列模型为ChatGPT提供动力,通过“来自人类反馈的强化学习”(RLHF)被调整为有用且互动性强。
RLHF的一个关键部分是收集比较,其中被称为AI培训师的人们相互评价不同的ChatGPT响应。
随着在推理和模型行为上的进步,ChatGPT变得更加准确,其错误变得更加微妙。这可能使得AI培训师在错误确实发生时难以发现不准确之处,使得推动RLHF的比较任务变得更加困难。
为了应对挑战,训练了CriticGPT来撰写批评意见,突出ChatGPT答案中的不准确之处。
CriticGPT 的建议并不总是正确的,但我们发现,与没有 AI 帮助相比,它们可以帮助培训师通过模型编写的答案发现更多的问题。
当人们使用 CriticGPT 时,人工智能增强了技能,比人们单独工作时具有更全面的批评,并且比模型单独工作时有更少的幻觉错误。
在实验中,训练师在超过 60% 的时间里更喜欢来自 Human+CriticGPT 的批评,而不是Human的批评。
CriticGPT 帮助训练师撰写比无辅助时更全面的批评意见,同时产生的幻觉比模型单独产生的批评意见要少。
CriticGPT 通过 RLHF 训练,能够审查含错误的输入并提供反馈。AI 训练师被要求在 ChatGPT 代码中插入错误并撰写反馈,之后比较不同批评以识别错误。
实验表明,CriticGPT 在识别自然错误方面优于 ChatGPT,因为它减少了无效抱怨和错误问题的幻想。
此外,通过测试时搜索,CriticGPT 能生成更全面的批评,平衡了幻觉和错误检测之间的权衡,从而为 RLHF 提供了尽可能有帮助的反馈。详见研究论文。
限制
我们训练了CriticGPT,但它只能处理相当简短的ChatGPT回答。为了监督未来的智能体,我们需要开发能够帮助训练师理解长期和复杂任务的方法。
模型仍然会产生幻觉,有时训练师在看到这些幻觉后也会犯标签错误。
有时现实世界中的错误可能分散在答案的多个部分。我们的工作集中在可以在一个地方指出的错误上,但在未来,我们也需要解决分散的错误。
CriticGPT提供的帮助是有限的:如果一个任务或回答极其复杂,即使是有模型帮助的专家也可能无法正确评估它。