近日,谷歌 DeepMind 团队在 arxiv 上发表了一篇重要论文,介绍了其最新研发的 GenRM(生成式验证器)技术。这一技术通过创新的奖励模型来增强生成式 AI 的推理能力,为提升大语言模型(LLMs)的性能带来了新的可能性。
在目前的 AI 行业内,提高大语言模型性能的主流方法是使用 Best-of-N 模式。该方法让 LLM 生成 N 个候选解决方案,然后由验证器对这些方案进行排序,选择出最佳答案。然而,传统的基于 LLM 的验证器通常被训练成判别分类器,这种方式主要是给每个解决方案打分,但却不能充分利用预训练 LLMs 的文本生成能力,从而限制了验证器在复杂推理任务中的表现。
为了突破这一局限,DeepMind 团队开发了 GenRM 技术。这种生成式验证器采用了一种新的训练方式,通过使用下一个 token 预测目标来训练验证器,使其不仅能验证候选方案,还能参与生成新的解决方案。这样的设计让 GenRM 在处理推理任务时具有了以下显著优势:
1. 无缝集成指令调整:GenRM 可以根据给定的指令生成更符合预期的答案,从而提高了生成结果的准确性和相关性。
2. 支持思维链推理:该技术可以更有效地处理链式推理问题,使得在复杂任务中的推理过程更加自然和连贯。
3. 利用额外的推理时间计算:通过多数投票机制,GenRM 能够利用额外的推理时间来进一步优化结果,确保最终答案的质量。
在算法和小学数学推理任务中,使用基于 Gemma(GenRM 的一个实现)的验证器测试时,GenRM 的表现明显优于传统的判别式验证器和 LLM-as-a-Judge 验证器。通过使用 Best-of-N 方法解决问题,GenRM 的解决成功率提高了 16% 到 64%。这一结果表明,GenRM 在复杂推理任务中的优势显著。
谷歌 DeepMind 的团队指出,GenRM 的出现标志着 AI 奖励系统的一次重要演化。传统的分类奖励模型存在被操纵的风险,而 GenRM 的生成式奖励机制能够更好地防止模型出现欺诈行为。这一进步突显了在 AI 系统中建立负责任奖励模型的重要性,确保 AI 的输出符合社会责任标准。
领取专属 10元无门槛券
私享最新 技术干货