来自人类反馈的强化学习(RLHF)已成为一种重要的技术,使机器学习模型适应难以指定的目标。特别是,RLHF 是训练最先进的大型语言模型(LLM)的关键组成部分,例如 OpenAI 的 GPT-4、Anthropic 的 Claude 、Google 的 Bard,以及 Meta 的 Llama 2-Chat。RLHF 和类似的方法使法学硕士不仅可以对其训练数据的分布进行建模,还可以调整文本的分布,以便人类评估者对模型输出给予更高的评价。我们使用 RLHF 来指代结合了三个相互关联的过程的方法:反馈收集、奖励建模和策略优化。图 1(上)说明了此设置。反馈过程引起人类对模型输出的评估。奖励建模过程使用监督学习来训练模仿这些评估的奖励模型。策略优化过程优化人工智能系统,以产生从奖励模型中获得有利评估的输出。当效果良好时,与演示、手动设计的奖励函数或其他指定或学习奖励的方法相比,RLHF 可以相对轻松地识别“良好”行为。RLHF 的根源在于经济学的显示偏好理论。显示偏好理论形式化了这样一种想法,即人们可以从演员的行为中了解他们的目标。它很早就被机器学习领域采用,用于人机交互和强化学习的应用。今天使用的 RLHF 标准方法由 Christiano 等人于 2017 年推广。[2017],它在引导深度强化学习社区对基于反馈的方法的关注方面发挥了关键作用。RLHF 已成为部署前微调 LLM 的主要策略,目标是生成符合人类目标的安全模型。尽管如此,使用 RLHF 进行微调的部署模型还是暴露了敏感的私人信息,幻觉的不真实内容 。传播有利于特定政治意识形态的偏见,表现出阿谀奉承的反应,并表达了不良偏好(例如,不想成为 关闭)。RLHF 也没有使模型能够抵御越狱(即颠覆系统通常运行的约束)或即时注入/提取的对抗性攻击。研究和产品团队都知道其中许多缺点,但很少有公共工作将 RLHF 的问题正式系统化。在本文中,我们调查了 RLHF 面临的挑战,以促进行业从业者的常识并确定进一步研究的开放问题。我们主要关注法学硕士的申请。我们做出三项贡献:
论文地址:
https://arxiv.org/pdf/2307.15217.pdf