Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >解密Prompt7. 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析

解密Prompt7. 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析

原创
作者头像
风雨中的小七
发布于 2023-05-21 03:34:42
发布于 2023-05-21 03:34:42
2.6K0
举报

前三章都围绕指令微调,这一章来唠唠RLHF。何为优秀的人工智能?抽象说是可以帮助人类解决问题的AI, 也可以简化成3H原则:Helpful + Honesty + Harmless。面向以上1个或多个原则,RLHF只是其中一种对齐方案,把模型输出和人类偏好进行对齐。大体分成3个步骤

  1. 人类偏好数据的标注
  2. 基于标注数据训练奖励模型
  3. 基于奖励模型使用RL微调语言模型

以OpenAI为基础,本章会对比DeepMind, Anthropic在以上3个步骤上的异同,并尝试回答以下几个问题

  1. RLHF究竟做了什么
  2. 偏好对齐用RL和SFT有什么差异
  3. 什么模型适合作为RL的起点

考虑篇幅已经超出了我自己的阅读耐心,RL算法和其他偏好对齐方案会再用两章来说,只关注以上问题的同学,也可以直接划到文末去看~

OpenAI

paper: InstructGPT, Training language models to follow instructions with human feedback paper: Learning to summarize from human feedback https://openai.com/blog/chatgpt

解密Prompt系列4介绍了InstructGPT指令微调的部分,这里只看偏好对齐的部分

样本构建

RL的数据来源有两块,一部分是用户在playground里面真实请求的数据,另一部分来自标注同学自己写的指令样本。标注指令样本包括3种形式:单一指令,few-shot指令,根据用户之前提交的使用场景编写的指令,量级分布如下

在标注偏好样本上,OpenAI基于3H原则,设计了详细的标注标准详见论文。需要注意的一点是在训练样本标注时Helpful比Harmless和honest更重要,但是在评估样本的标注上Harmless和honest更重要。这样区别标注是OpenAI发现Helpful和Harmless存在冲突,如果模型过度拟合无害性,会导致模型拒绝回答很多问题。OpenAI认为不同场景下风险的定义是不同的,应该把拒绝回答的能力放到下游场景中, 后面Anthropic也碰到了相似的问题,我个人更偏好Anthropic的方案。

在标注过程中,模型会生成4-7个回复,标注同学需要综合考虑有用性,无害性和真实性,对模型的每一个回复进行绝对打分后续用于评估,同时给出多个模型回复间的相对排序用于RM模型训练,标注界面如下:

ChatGPT对话训练部分未公开细节,从官网能获得细节是,ChatGPT的样本是人工写的对话样本+InstructGPT样本转换成对话格式的混合样本,更多基于对话形式的标注可以参考后面的DeepMind和Anthropic。

奖励模型

OpenAI使用了指令微调16个epoch的6B模型作为奖励模型的初始模型。训练方式是两两对比计算crossentropy,其中r_\theta 是奖励函数对指令x和回复y的打分,如下

不过OpenAI发现如果对数据进行Shuffle,则训练一轮就会过拟合,但如果把针对1个指令模型的K个回复,K在4~9之间,得到C_k^2 个pairwise对,放在一个batch里进行训练,会得到显著更高的准确率。这里一个batch包括64个指令生成的所有回复对,其中排名相同的样本对被剔除。

这里感觉和对比学习要用大batch_size进行拟合的思路有些相似,是为了保证对比的全面性和充分性,使用全面对比后计算的梯度对模型进行更新。另一个原因可能是不同标注人员之间的偏好差异,shuffle之后这种偏好差异带来的样本之间的冲突性更高。

之所以选择6B的模型,论文指出尽管175B的RM模型有更高的准确率和更小的验证集loss,但是训练过程并不稳定,以及太大的RM模型会导致RL部分的训练成本太高。

RLHF

  1. RL初始模型 OpenAI使用了SFT指令微调之后的模型作为RL的起点。RL初始模型的训练细节在附录C.3和E.8,基于GPT3的预训练模型,SFT微调2个epoch并混入10%的预训练数据进行训练得到。这里混入预训练是因为在RL微调的过程中发现加入预训练数据可以防止RL微调降低模型语言能力,因此在SFT微调过程中也做了相同的处理。这里我好奇的是,指令微调和预训练的核心差异其实只在指令输入的部分是否计算梯度,因此是否可以直接把指令微调和预训练混合变成一个步骤"文本+指令预训练",我们准备沿这个方向去尝试下~
  2. RL样本 OpenAI是完全基于在playground里用户真实提交的指令请求来进行训练,没有使用人工标注,为了完全面向用户使用进行偏好优化。
  3. RL训练 RL微调的部分,OpenAI使用了PPO算法,基于Reward模型的打分进行微调,微调了2个epoch。在此基础上加入了两个目标: - 微调模型和原始模型在token预测上的KL散度:避免模型过度拟合奖励函数偏离原始模型。后面也论证了KL的加入,可以加速RL收敛,核心是在相同的KL下最大化模型偏好的提升 - 10%的预训练目标(PPO-PTX): 降低RL对模型语言能力的影响 且论文提到样本的收集和RL训练是多次迭代的,也就是使用RL微调后的模型上线收集更多的用户请求,重新训练RM,再更新模型。不停在优化后的模型上收集用户反馈,会让RM模型学习到更充分的高偏好样本,强者愈强。
  4. 效果 对比175B指令微调的模型,1.3B的模型经过RLHF微调,在喜爱度上就能打过175B的SFT模型!2点Insights如下 - RLHF对齐带来的模型有用性的提升,效率远超训练更大的模型 - 使用PPO-PTX的RLHF微调没有产生很大的Alignment-Tax

DeepMind

paper: Teaching language models to support answers with verified quotes paper: Sparrow, Improving alignment of dialogue agents via

DeepMind的Sparrow使用了基于Google搜索的事实性信息的引入,这部分我们放到Agent调用的章节一起说,这里只关注偏好对齐的部分。

样本构建

不考虑搜索调用的部分,DeepMind的偏好对齐部分只关注2H,有用性和无害性。样本标注的基础模型是Chinchilla-70B,和OpenAI的差异在于,DeepMind把人类偏好和违反2H原则拆成了两个标注任务

  • 人类偏好标注:基于进行中的对话,从模型多个回复中选择最喜欢的一条,这里对话中的人机问答都是由模型生成的
  • 对抗标注/钓鱼执法:基于随机分配的标注规则,标注同学需要刻意引导模型给出违反该规则的回答,和风控红蓝对抗的思路相似

奖励模型

基于以上两份样本,论文通过微调Chinchilla-70B,分别训练了两个模型PM和RM, 微调的方式都是固定前64层,只微调后16层。

  1. PM:Preference Reward Model PM的数据是在以上每轮对话多选一的基础上,从其他对话中随机采样更多的负样本构成的多分类任务,这里补充负样本是为了惩罚off-topic的模型回复。因此损失函数是多分类的CrossEntropy,以及在此基础上加入了Bradley-Taley(Elo)和正则项,如下
    r_i 是所有回复的模型打分,因此正则项是为了保证最终模型输出的打分是以0为中心的。而Elo部分是为了优化两两对比排序,更多细节>>Fitting the Bradley-Terry model to large and potentially sparse datasets
  2. RM:Rule Violation Model RM模型是一个多标签任务,判断对话当前是否违反其中一条标注规则,输出违反该规则的条件概率。以上5档标签被分成两类,definitely break和probably break]是违反,probably follow和definitely follow是未违反,unsure样本被丢弃。这里DeepMind使用如下Hard Prompt Tunning来构建模型,其实就是引入一些前置语义信息,让模型在小样本上表现更好。更多细节>>解密Prompt系列2. 冻结Prompt微调LM
  3. 整体打分 整体打分=偏好打分+所有规则的未违反概率之和+长度惩罚(保证回答简洁)+is_valid(模板检查)。其中模板检查包括要求Agent回复以\n\nSparrow:开始,以\n\nUser:结束,保证所有模型回复有相同的格式。 个人感觉分开标注,以及引导式的标注没啥问题,但分开建模再直接打分融合可能不一定是最优的方案,因为两个模型的scale不同,很难对比违反部分规则,和偏好程度要如何balance才是最优的整体打分。

RLHF

  1. RL起点 和OpenAI相同,DeepMmind也使用监督微调模型作为初始模型。不过DeepMind直接使用了以上RM的标注数据中,多选一标注有用的回复,和未违反规则的回复来进行监督微调。
  2. RL样本 对比OpenAI使用纯人机对话的样本,DeepMind的RL的样本来源包括以下四个部分 - 问题集:GopherCite的Eli5子集 - 人机对话:以上RM和PM的人机对话的样本集 - 对抗样本扩充:使用Prompt模板引导Sparrow生成有害问题,扩充有害对话样本 - self-play:类似self-instruct,会采样已有对话作为上下文,让sparrow继续生成回复
  3. RL训练 DeepMind使用了Actor-Critic算法进行RL微调, RL算法我们会单独一章来讲,整体上A2C可能略弱于PPO。除了算法不同,DeepMind的RL微调也只微调Chinchilla模型的后16层。 都选择微调16层,其实是为了节省训练显存,这样PM,RM,初始SFT模型,和最终的RL微调模型都共享前64层,后16层通过不同head来实现,从而达到降低显存占用的目的。
  4. Insight:偏好和遵守规则的矛盾统一 人类偏好和遵守规则的要求存在一定冲突,只使用更偏好的数据训练会得到更高的规则违反率,只使用遵守规则的数据训练会降低模型回复的偏好率,混合样本的微调效果最好。

Anthropic

paper: Red Teaming Language Models to Reduce Harms Methods,Scaling Behaviors and Lessons Learned paper: A General Language Assistant as a Laboratory for Alignment paper:Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 数据:https://huggingface.co/datasets/Anthropic/hh-rlhf

样本构建

从论文标题不难看出,Anthropic也只考虑了2H,有害性和有用性。并且着重研究了对抗有害样本的生成,受限于篇幅这里不展开。我个人也更偏好2H,因为我始终没太想明白Honesty如何能通过对齐实现。因为部分非事实性是来自预训练样本中的噪声,例如预训练样本中是"鲲之大一锅炖不下",如何通过对齐让模型学到"鲲之大,不知其几千里也"?部分非事实性来自训练样本的有限性,需要像Bing一样通过引入实时信息来解决,要是大家有不一样的观点也欢迎留言评论。

同样是拆分了2个标注任务,和DeepMind的差异是,Anthropic是把有害性和有用性分成了两个标注任务,针对开放的对话主题进行4轮左右的对话。

  • 有害性标注:和DeepMind相同使用了红蓝对抗的方案,目标是引导模型生成有害回复。每一轮模型会生成2个回答,选择更有害的一个
  • 有用性标注:同样是每轮2选一,选择更有帮助的一条回复,并不强制进行事实性检查

对抗/引导式的数据标注方式,对比OpenAI直接标注,可以更充分挖掘偏好中更有用和更有害的数据,对于解决模型安全性有更大的帮助,但感觉可能缺少中间部分偏好的样本,如果能和OpenAI直接标注的方案结合是否会更好?

除了2H的任务分开标注之外,每个标注同学进行对话的模型虽然都是52B的模型,但会随机来自3个不同版本的模型

  • HHH Context-Ditill:类似3Hprompt(helpful,harmless, honest)加持的基础模型,最初只有这个模型
  • Rejection Sampling(RS):使用3H模型生成16个回复,使用训练后的PM模型对结果排序,选择有害性最小的2个回复
  • RLHF微调后的模型:后续的数据收集会基于微调后多个版本的模型持续进行

奖励模型

Anthropic的奖励模型同样是基于样本排序进行训练的,有用得分高于无用,无害得分高于有害,并且更详细论证了相对排序模型的效果要好于二分类模型,要好于语言模型。

L_{PM} = log(1+e^{r_{bad}}-e^{r_{good}})

为了降低对微调数据的需求,Anthropic加入了Preference Model Pretraining(PMP)的继续预训练过程,使用Reddit, StackExchange等开源问答的数据让模型先部分学习什么是好的什么是坏的回答。

除此之外Anthropic还讨论了PM模型大小对模型稳健性的影响。通过把数据集一分为二,一半训练,一半验证,越稳健的PM模型应该在不同数据上有相似的打分分布。论文使用PM模型在两份数据上打分的KL散度来衡量稳定性,得到两个结论

  • PM模型越大,KL散度越低
  • PM模型打分在低分区一致性较高,在高分区一致性较低

第二个结论很符合直觉,因为有害内容的标注一致性更高更易识别,而优质回复的评价更模糊,另一个原因是模型当前的能力可能导致高分区的样本比较稀疏。

但第一个结论,感觉有可能是因为越大的模型预测的置信度越高,打分更容易聚集在一起,才导致的KL散度更低,这个置信度的差异似乎没有被考虑进去。

RLHF

  1. RL起点 Anthropic选择了3H Context Distillation的模型,通过在样本前加入3H指令词,引导模型生成更安全有用的回复,并记录模型生成的每个位置Top50的词和概率,把这个概率作为Teacher;然后去掉3H指令词,对预训练模型进行微调,微调目标就是去拟合之前有3H时Top50 Token的预测概率,其实就是Teacher-Student蒸馏的思路。
  2. RL样本 为了让模型在更大范围的指令样本上进行偏好学习,使用了Self-Instruct,随机采样10个已有的真实请求让模型来生成新的请求,最终是137K真实请求和369K模型生成请求混合作为训练样本
  3. RL训练:整体和openAI类似 和OpenAI相同,Anthropic也提到了online iter训练,但论文的出发点是前面提到的PM模型在高分部分不稳定的问题。因为微调后的模型生成的回复会更好,在更优的模型中持续收集样本,可以持续补充高分样本。注意这里的online和常规意义的online不同,这里每次训练会混合多个snapshot模型收集的偏好数据和最初的偏好样本,重头训练PM,并重新微调RLHF。
  4. Insight:有用性和无害性的矛盾统一 和OpenAI相似,Anthropic也举报了有用性和无害性的标注矛盾。在RLHF微调过程中,只要用户的请求有轻微不满,模型就让用户去看医生哈哈哈哈~其实我们在不充分微调的ChatGLM中也发现了类似的现象。经过分析模型是过度拟合了有害性,而对有用性欠拟合,导致模型虽然无害但也没啥用 论文给出了的解决思路是遇到有害性请求,模型只学到拒绝回答是很简单的,这就是无用但无害,但是如果模型能学到在拒绝回答的同时,给到拒绝的原因,并劝说用户不要有类似的有害的请求的话,就是有用且无害了。这部分标注数据当前是缺失的。 个人感觉这个思路比OpenAI适配场景去拒绝请求,似乎可行性更高一些。不过论文没有重新标样本,而是选择了折中的方案,加入更大比例Helpful样本来提升模型有用性

对比总结

paper: Scaling Laws for Reward Model Over optimization paper: WebGPT: Browser-assisted question-answering with human feedback https://openai.com/research/measuring-goodharts-law

粗略看完以上3家超长无比的系列RLHF论文,结合OpenAI对RM模型的一些观点。我们来讨论下文首问题,感悟很玄学~不一定靠谱~~仅提供一种思路~~

RLHF究竟学了啥?

可类比拒绝采样(Best-of-N):让模型随机采样生成N个回复,选择RM打分最高的回复

在WebGPT中OpenAI就把Best-of-N和RL进行了对比,best-of-64的效果甚至超过RLHF,而DeepMind在RL微调后加入best-of-n效果会有进一步提升。感觉RLHF和Best-of-N的差异就是前者把排序择优放在了微调阶段训练耗时,后者放在了推理阶段推理耗时。本质上二者是相似的,都是让模型在相似文本打分的文本序列中,挑选偏好打分更高的序列

那再想一步,Best-of-N的本质是啥?是Rejection-Sampling。啥是拒绝采样?简单说,就是针对无法直接采样的分布F,可以从G采样,例如G服从正态分布, 再通过特定的拒绝策略,拒绝不符合F分布的样本,则得到的样本可以近似F分布。对应到RLHF中,G其实就是RL初始模型生成的回复,拒绝策略是拒绝RM打分低的回复,则得到的就是符合人类偏好F的回复。

偏好对齐使用RL和SFT的差异?

优化整个文本序列 vs 优化token级别的偏好:类似序列标注任务中CrossEntropy对比CRF

同样使用偏好标注数据来进行微调,RL微调是针对整个文本序列的RM打分进行优化,而SFT是对每个token的预测概率进行优化。SFT在偏好优化场景上有几个问题

  • 每个token在损失函数中的权重是相同的
  • 没有考虑文本整体对偏好的影响
  • 针对很多开放问题,最优答案是不固定的,只对1条回答做token级别的拟合,可能会影响泛化

综合以上3点RL似乎更合适,但是针对有标准答案的场景,例如所有非开放生成的NLP任务,摘要,分类,抽取等等,用SFT来拟合偏好似乎也没啥毛病,就像序列标注任务用CrossEntropy效果也不会比CRF差太多。

除此之外RL的另一个优点是可以部分降低人工标注,因为训练的RM模型后续可用于偏好打分,而SFT的每一个偏好样本都需要人工标注。

什么模型适合作为RLHF的初始模型?

从拒绝采样的本质出发,RL的初始模型需要有能够生成人类偏好回答的能力

拒绝采样的前提假设是F分布的集合是G分布集合的子集,因为拒绝采样只是拒绝G采样的部分样本来得到F分布。对应到RLHF其实就是RL的初始模型要有能够生成人类偏好回复的能力,因此通过指令微调来解锁指令理解能力,似乎是RL初始模型的必须条件,毕竟纯续写模型是无法生成人类偏好的回复的。

当前的RL其实还存在很多问题。首先人类偏好本身就是存在噪声的,标注的一致率不到80%;其次奖励模型是对标注偏好的进一步抽象,又受到一步准确率的限制;而使用不完美的奖励模型进一步微调模型,则可能带来更进一步的拟合问题。这些问题还有待进一步解决,这一章我们就先说这么多啦

想看更全的大模型相关论文梳理·微调及预训练数据和框架·AIGC应用,移步Github >> DecryptPropmt

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【强化学习】Reward Model(奖励模型)详细介绍
Reward Model(奖励模型)是近年来在深度学习和强化学习领域广泛应用的一种技术,特别是在生成式模型(如大型语言模型)和强化学习(RL)结合的场景中,起到了至关重要的作用。它在多个领域的应用中,尤其是在自然语言处理(NLP)和数学推理领域,展现了显著的潜力。
不去幼儿园
2025/03/22
6790
【强化学习】Reward Model(奖励模型)详细介绍
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
本文尝试梳理一个完整的多模态LLM的训练流程。包括模型结构选择、数据预处理、模型预训练、指令微调、对齐、融合多模态以及链接外部系统等环节。
zenRRan
2023/08/22
7K0
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
​解密prompt系列49. 回顾R1之前的思维链发展
在所有人都在谈论R1的今天,作为算法也是有些千头万绪无从抓起。所以这一章先复盘,我先按照自己的思路来梳理下R1之前整个模型思维链的发展过程。下一章再展望主要去看RL在Agent上的一些尝试,毕竟Agent规划和长思考的本质是非常像的,在优化中面临的问题也是类似的。
风雨中的小七
2025/02/19
4612
​解密prompt系列49. 回顾R1之前的思维链发展
深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐
继第一份大模型对齐技术报告(Secrets of RLHF in Large Language Models Part I)获 NeurIPS 2023 workshop best paper 后,第二份报告强势归来,复旦语言和视觉团队联合推出的第二份报告将进入这一领域更深层的探索和优化之旅。在首份报告中,复旦团队揭示了 RLHF 在大语言模型中的基本框架,并深入分析了 PPO 算法的内部机制,特别是 PPO-max 的高级版本在策略模型训练稳定性中的关键作用。
机器之心
2024/01/17
2300
深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐
推理大模型的后训练增强技术-强化学习篇
人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“唉,当初我要是去那家公司实习就好了,在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思,我们或许能领悟一些道理,变得更加睿智和成熟,以更积极的精神来迎接未来的选择和成长。
致Great
2025/03/10
3100
推理大模型的后训练增强技术-强化学习篇
LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的?
今天分享Meta的Llama 2: Open Foundation and Fine-Tuned Chat Models:LLAMA2:开源的基础和微调后的聊天大语言模型。Meta开源模型在除了代码能力外都追平或者超过了ChatGPT的水平,它做了很多工作提升大模型的能力和安全性。其利用更高质量的数据来训练模型,同时利用强化学习迭代多次来优化模型效果是使其追上ChatGPT的最强大的法宝。同时目前如何对大模型进行强化学习放出来的文章也不多,本文给出非常多的RLHF实验和结果给大家进行参考,方便社区后续进行相关实验。总之LLaMA2是大模型开源之光,它以一己之力促进了整个LLM开源社区的发展,后续可能在其基础上也会有真正的更大更好的中文开源大模型出来,它的经验也值得大家去学习。
技术人生黄勇
2024/07/19
2210
LLama2详细解读 | Meta开源之光LLama2是如何追上ChatGPT的?
DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效
这几个月以来,我们已经见证了大型语言模型(LLM)在生成高质量文本和解决众多语言任务方面出色的能力。然而,LLM 又面临这样一个困境,即产生的输出很大程度上与人类偏好并不一致。如果没有适当的对齐,语言模型可能输出不安全的内容。此外,对齐 LLM 还有助于改善下游任务。
机器之心
2023/09/08
3830
DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效
反思RLHF,如何更加高效训练有偏好的LLM
当前 LLM 蓬勃发展,各种模型和方法层出不穷,但总体看来,但是朝着以下3点目标前进:
ShuYini
2023/11/20
1.5K0
反思RLHF,如何更加高效训练有偏好的LLM
这些技术,ChatGPT和它的潜在竞争者们都在用
机器之心报道 编辑:王强、杜伟 如今的人工智能圈,ChatGPT 等 AI 聊天机器人火的一塌糊涂,甚至让 Stack Overflow 访问量暴跌。那么这些 AI 聊天机器人背后的技术以及异同点有哪些呢?本文作者探索并试图回答这些问题。 随着 ChatGPT 的出现以及随之而来的广泛讨论,RLHF、SFT、IFT、CoT 等晦涩的缩略词出现在公众面前,这都归功于 ChatGPT 的成功。这些晦涩的缩略词是什么?为什么它们如此重要?本文作者查阅了所有关于这些主题的重要论文,进行了分类总结。 ChatGPT
机器之心
2023/03/29
6340
这些技术,ChatGPT和它的潜在竞争者们都在用
为啥ChatGPT让LeCun酸成柠檬精?谷歌、Meta、OpenAI聊天机器人大PK!
---- 新智元报道   编辑:好困 Aeneas 桃子 【新智元导读】做聊天机器人,OpenAI不是第一家,但绝对是最出风头的那个。谷歌、Meta、DeepMind、OpenAI的聊天机器人大PK,谁最牛? 前几天,Meta首席人工智能科学家Yann LeCun的一段对于ChatGPT的点评迅速传遍圈内外,引发了大波讨论。 在Zoom的媒体和高管小型聚会上,LeCun给出了一段令人惊讶的评价:「就底层技术而言,ChatGPT并不是多么了不得的创新。」 「虽然在公众眼中,它是革命性的,但是我们知道,它
新智元
2023/02/24
5740
为啥ChatGPT让LeCun酸成柠檬精?谷歌、Meta、OpenAI聊天机器人大PK!
对标ChatGPT,新AI助手Claude来了
导语| ChatGPT 自11月30日发布后,其令人惊艳的对话能力,引发业界对通用人工智能的讨论热潮。截至发文, OpenAI 一直保持遥遥领先,且并未透露更多的技术细节。近日新的 AI 助手 Claude 发布, ChatGPT 迎来强有力的竞争对手。来自腾讯的肖求根和杨帆将介绍 Claude 背后的技术,欢迎各位开发者一起讨论~
腾讯云开发者
2023/02/13
3.3K1
对标ChatGPT,新AI助手Claude来了
解密prompt25. RLHF改良方案之样本标注:RLAIF & SALMON
上一章我们主要唠了RLHF训练相关的方案,这一章我们主要针对RLHF的样本构建阶段,引入机器标注来降低人工标注的成本。主要介绍两个方案:RLAIF,和IBM的SALMON。
风雨中的小七
2024/03/20
5430
解密prompt25. RLHF改良方案之样本标注:RLAIF & SALMON
LLM成功不可或缺的基石:RLHF及其替代技术
在讨论 LLM 时,我们总是会涉及一个名为「使用人类反馈的强化学习(RLHF)」的过程。RLHF 是现代 LLM 训练流程中不可或缺的一部分,因为它可以将人类偏好整合到优化图景中,从而提升模型的有用性和安全性。
机器之心
2023/10/08
7990
LLM成功不可或缺的基石:RLHF及其替代技术
国内首个可复现的RLHF基准,北大团队开源 PKU-Beaver
机器之心专栏 机器之心编辑部 如今,大语言模型如 ChatGPT 已在人们的生产生活中产生广泛影响。作为训练大语言模型的关键步骤,RLHF(Reinforcement Learning from Human Feedback)是一种利用强化学习方法从人类反馈中学习的技术。借助 RLHF 技术,大语言模型可与人类偏好保持对齐并遵循人类意图,满足 “有帮助的”、“诚实的” 和 “无害的” 的 3H(Helpful, Honest, Harmless)标准。然而,当前开源社区中复现 RLHF 技术仍具有较大挑战性
机器之心
2023/05/22
8530
国内首个可复现的RLHF基准,北大团队开源 PKU-Beaver
人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF
在大语言模型完成 SFT 监督微调后,下一阶段是构建一个奖励模型来对问答对作出得分评价。奖励模型源于强化学习中的奖励函数,能对当前的状态刻画一个分数,来说明这个状态产生的价值有多少。在大语言模型微调中的奖励模型是对输入的问题和答案计算出一个分数。输入的答案与问题匹配度越高,则奖励模型输出的分数也越高。
汀丶人工智能
2023/07/17
1.5K1
人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF
解密prompt24. RLHF新方案之训练策略:SLiC-HF & DPO & RRHF & RSO
解密prompt24. RLHF新方案之训练策略:SLIC-HF & DPO & RRHF & RSO
风雨中的小七
2024/02/21
1.2K0
解密prompt24. RLHF新方案之训练策略:SLiC-HF & DPO & RRHF & RSO
大语言模型对齐的四种方法!
语言模型的对齐在20年就有相关工作,22年谷歌提出基于指令微调的Flan,Openai则提出InstructGPT,ChatGPT,大模型的对齐工作受到广泛的关注。
zenRRan
2024/05/11
9320
大语言模型对齐的四种方法!
无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊
本文约1200字,建议阅读5分钟本文提出了基于排序的人类偏好对齐方法。 OpenAI 的 ChatGPT 理解多种多样的的人类指令,并且可以很好的应对不同的语言任务需求。自发布以来就掀起了对于通用人工智能的讨论。ChatGPT 令人惊叹的能力来源于一种新颖的大规模语言模型微调方法:RLHF(通过强化学习对齐人类反馈)。 RLHF 方法不同于以往传统的监督学习的微调方式,该方法首先让模型根据指令提示生成不同的回复,之后通过人工的评价反馈,使用强化学习的方式对 LLM 进行微调。RLHF 解锁了语言模型跟从人
数据派THU
2023/04/25
3500
无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊
RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。
新智元
2023/09/09
4270
RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
ChatGPT发展历程、原理、技术架构详解和产业未来
去年12月1日,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。
边缘计算
2023/02/23
1.3K0
ChatGPT发展历程、原理、技术架构详解和产业未来
推荐阅读
相关推荐
【强化学习】Reward Model(奖励模型)详细介绍
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档