前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >OpenAI新发模型:找bug能力是人类3倍,让AI继续进化。。。

OpenAI新发模型:找bug能力是人类3倍,让AI继续进化。。。

作者头像
double
发布2024-07-02 16:26:14
730
发布2024-07-02 16:26:14
举报
文章被收录于专栏:算法channel算法channel

郭震原创,全文1470字

你好,我是郭震

OpenAI公司今日发布了一个新模型CriticGPT,实现找代码bug能力超过人类3倍:

看到这个数据,各位程序员作何感想?

1 现实情况

程序员曾几何时,对以能写代码这种特意功能而引以为傲,但现在AI正一点一点的侵蚀程序员领地。

2年前GPT未发布时,程序员写代码一般面相csdn, stackoverflow。

近两年,各位程序员铁铁,写代码是面向GPT了吧,80-90%代码交给GPT,你只负责动动手指,调一调,修一修,最后就run起来了吧。

变化太快了!

变化更快的还有GPT的进化能力,从0到1,突飞猛进。

但现在,GPT4应该遇到瓶颈,GPT4写出的代码看起来都对,但还是有很多隐秘的bug

对不对?铁铁们,遇到过吧?

我经常遇到,GPT4会陷入一种极其迎合我的幻觉。

你说啥,它跟上,特别听话。

于是,CriticGPT来了!专治这种问题。

使用的方法:自己给自己找茬!

有人调侃,这不就是前妻吗!😄😄😄:

更重要的是,既然人类都无法发现GPT生成代码的bug,所以就得发明一个比人类找bug能力更强的工具,这就是CriticGPT.

2 CriticGPT训练步骤

CriticGPT基于GPT-4,训练数据中包含大量的错误输入。

具体来说,分为三步:

  1. 让人类标注员在ChatGPT生成的代码里故意植入一些微妙的bug。
  2. 标注员扮演代码审查员的角色,写下他们对这些bug的评论。
  3. 用这些数据来训练CriticGPT,让它学会如何发现和指出代码中的问题

在具体的训练过程中,他们采用了一些创新的方法。

例如,他们不断让标注员插入一些隐蔽的错误,并验证这些错误是否能够骗过当前版本的 CriticGPT。

通过这种方式,CriticGPT 被迫不断进化,学会发现越来越隐蔽的问题。

这个思路有点类似于生成对抗网络(GAN)的训练方法,只不过在这里,人类标注员扮演了生成器的角色。

3 AI将继续进化

RLHF 是创造 ChatGPT 的核心技术之一。

RLHF,即“Reinforcement Learning from Human Feedback”(从人类反馈中学习的强化学习),是一种将强化学习与人类反馈相结合的技术,用于训练人工智能模型。这个方法的核心在于通过人类反馈来指导和优化模型的行为,使其能够更好地完成任务,并生成更符合人类期望的结果。

但其局限在于人类能力决定了 RLHF 的上限。

当 AI 需要解决人类无法胜任的任务时,由于人类无法提供有效的反馈,AI 也就无法进一步改进。

然而,CriticGPT 的成功标志着超级对齐团队设想中的可扩展监督终于有了希望。

这种方法即用较弱的模型来监督和训练更强的模型。

通过这种方式,AI 的进化和提升不再仅仅依赖于人类反馈,从而突破了 RLHF 的局限。

因此,AI将会继续进化。。。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员郭震zhenguo 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 现实情况
  • 2 CriticGPT训练步骤
  • 3 AI将继续进化
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档