前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >OpenAI发布基于人类反馈的模型CriticGPT

OpenAI发布基于人类反馈的模型CriticGPT

作者头像
AIGC新知
发布2024-10-08 19:32:24
发布2024-10-08 19:32:24
990
举报
文章被收录于专栏:AIGC新知AIGC新知

OpenAI训练了一个基于GPT-4的模型,名为CriticGPT,用于捕捉ChatGPT代码输出中的错误。

当人们在CriticGPT的帮助下审查ChatGPT代码时,他们的表现比没有帮助的人高出60%。

将类似CriticGPT的模型集成到RLHF(人类反馈)标注流程中,为培训师提供明确的人工智能辅助。

这是朝着能够评估高级人工智能系统输出迈出的一步,这些系统对于人们来说,在没有更好的工具的情况下可能难以评定。

GPT-4系列模型为ChatGPT提供动力,通过“来自人类反馈的强化学习”(RLHF)被调整为有用且互动性强。

RLHF的一个关键部分是收集比较,其中被称为AI培训师的人们相互评价不同的ChatGPT响应。

随着在推理和模型行为上的进步,ChatGPT变得更加准确,其错误变得更加微妙。这可能使得AI培训师在错误确实发生时难以发现不准确之处,使得推动RLHF的比较任务变得更加困难。

为了应对挑战,训练了CriticGPT来撰写批评意见,突出ChatGPT答案中的不准确之处。

CriticGPT 的建议并不总是正确的,但我们发现,与没有 AI 帮助相比,它们可以帮助培训师通过模型编写的答案发现更多的问题。

当人们使用 CriticGPT 时,人工智能增强了技能,比人们单独工作时具有更全面的批评,并且比模型单独工作时有更少的幻觉错误。

在实验中,训练师在超过 60% 的时间里更喜欢来自 Human+CriticGPT 的批评,而不是Human的批评。

CriticGPT 帮助训练师撰写比无辅助时更全面的批评意见,同时产生的幻觉比模型单独产生的批评意见要少。

CriticGPT 通过 RLHF 训练,能够审查含错误的输入并提供反馈。AI 训练师被要求在 ChatGPT 代码中插入错误并撰写反馈,之后比较不同批评以识别错误。

实验表明,CriticGPT 在识别自然错误方面优于 ChatGPT,因为它减少了无效抱怨和错误问题的幻想。

此外,通过测试时搜索,CriticGPT 能生成更全面的批评,平衡了幻觉和错误检测之间的权衡,从而为 RLHF 提供了尽可能有帮助的反馈。详见研究论文。

限制

我们训练了CriticGPT,但它只能处理相当简短的ChatGPT回答。为了监督未来的智能体,我们需要开发能够帮助训练师理解长期和复杂任务的方法。

模型仍然会产生幻觉,有时训练师在看到这些幻觉后也会犯标签错误。

有时现实世界中的错误可能分散在答案的多个部分。我们的工作集中在可以在一个地方指出的错误上,但在未来,我们也需要解决分散的错误。

CriticGPT提供的帮助是有限的:如果一个任务或回答极其复杂,即使是有模型帮助的专家也可能无法正确评估它。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC新知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档