首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    每日论文速递 | DeepMind提出在线偏好对齐新方法:IPO-MD

    摘要:确保语言模型的输出与人类偏好相一致,对于保证有用、安全和愉快的用户体验至关重要。因此,近来人们对人类对齐问题进行了广泛研究,并出现了一些方法,如人类反馈强化学习(RLHF)、直接策略优化(DPO)和序列似然校准(SLiC)。在本文中,我们有两方面的贡献。首先,我们展示了最近出现的两种配准方法,即身份策略优化(IPO)和纳什镜像下降(Nash-MD)之间的等价性。其次,我们引入了 IPO 的概括,命名为 IPO-MD,它利用了 Nash-MD 提出的正则化采样方法。这种等价性乍看起来可能令人惊讶,因为 IPO 是一种离线方法,而 Nash-MD 是一种使用偏好模型的在线方法。然而,如果我们考虑 IPO 的在线版本,即两代人都由在线策略采样并由训练有素的偏好模型注释,就可以证明这种等价性。利用这样的数据流优化 IPO 损失,就等同于通过自我博弈找到偏好模型的纳什均衡。基于这种等效性,我们引入了 IPO-MD 算法,该算法与一般的纳什-MD 算法类似,使用混合策略(介于在线策略和参考策略之间)生成数据。我们将在线 IPO 和 IPO-MD 与现有偏好数据损失的不同在线版本(如 DPO 和 SLiC)在总结任务上进行了比较。

    01

    业界 | 一文看懂谷歌 NYC 算法与优化业务全景(附重点论文下载)

    AI 科技评论消息,众所周知,谷歌的研究团队遍布世界各地,而纽约自然也是非常重要的一个地点,尤其是多个谷歌算法研究小组的孕育地。目前,谷歌算法优化团队为谷歌产品的顺利诞生提供了非常多的算法支持,解决了诸多挑战,包括基础优化、隐私保护、提升好友推荐度等多重挑战。 为了让大家更能第一时间了解到谷歌算法及优化的最新进展,谷歌研究院博客于今天更新了消息,谷歌 NYC 算法优化团队公布了主页。而从这个主页中,AI 科技评论也将和大家一窥谷歌算法优化团队的全貌。 目前,团队与谷歌内部的多个团队有着紧密联系,包括广告

    06

    MIT算法圣经书《算法导论》第四版

    来源:专知本文为书籍介绍,建议阅读5分钟本书将严谨性和全面性融为一体,深入讨论各类算法,并着力使这些算法的设计和分析能为各个层次的读者接受。 在有关算法的书中,有一些叙述非常严谨,但不够全面;另一些涉及了大量的题材,但又缺乏严谨性。《算法导论(原书第4版)/计算机科学丛书》将严谨性和全面性融为一体,深入讨论各类算法,并着力使这些算法的设计和分析能为各个层次的读者接受。全书各章自成体系,可以作为独立的学习单元;算法以英语和伪代码的形式描述,具备初步程序设计经验的人就能看懂;说明和解释力求浅显易懂,不失深度和

    02

    机器学习三人行(系列一)----机器学习花样入门

    写在前面 深度学习如火如荼,作为一个IT技术人员,不搞一下深度学习,总有一种活在上个世纪的感觉,因此笔者准备认认真真的搞一下深度学习,努力跟上时代的步伐。话说基础不牢,地动山摇,如果没有机器学习的基础知识,要想学好深度学习,还是有一定的挑战的。所以接下来的一段时间,笔者会每周在微信公众号“智能算法”更新一篇深度学习相关文章。该系列大致分两部分:机器学习的基础和神经网络深度学习。总体来讲,笔者的初衷是通过这个系列文章,使自己和大家能基本了解以及能够应用相关知识在自己的领域中能解决一定的实际问题。如果感兴趣,欢

    09
    领券