作者:无言 | 编辑:陈晓晓
导读:据外媒消息,Facebook已经正式将旗下人工智能平台Horizon AI完全开源并免费提供下载。
▍图片来源于网络
Horizon AI成首个用于生产的开源RL平台
Horizon AI是一个端到端的强化学习(reinforcement learning,即RL)平台,目的是训练计算机系统分析数据,并利用反馈将决策过程的回报最大化,以持续优化Facebook旗下各类产品和服务的使用体验。
在近期的一份声明中,Facebook如此介绍Horizon AI:
“我们开发这个平台,是为了弥合强化学习在学术研究方面日益增长的影响力与实际应用狭窄范围之间的差距。过去一年,我们在Facebook上部署了Horizon AI,提高了该平台把 RL 基于决策的方法运用到大规模应用程序的能力。”
当其他人致力于研究RL应用程序时,Horizon AI是第一个用于生产的开源RL平台。
▍图片来源于网络
Horizon AI 助力更多领域应用RL
谷歌的研究科学家凯文・墨菲(Kevin Murphy)在1998年撰写了一篇文章,举了一个例子来解释强化学习:“在训练狗时可以玩一个小把戏:不要告诉它应该做什么,但如果它做了正确或错误的事情,你可以奖励或惩罚它,它必须自己找出得到奖励或遭受惩罚的原因。我们可以用类似的方法来训练AI完成许多任务。”
强化学习是机器学习( machine learning,即ML)的一个分支。机器学习系统通常会生成预测,随后需要工程师将这些预测转换为策略(即行动策略)。强化学习系统则更进一步,它创建的系统能够做出决策、采取行动,然后根据反馈进行调整。例如,RL 系统可以根据其他 ML 系统的估计和视频缓冲区的状态,直接为特定播放中的视频选择高比特率或低比特率。
虽然 RL 的策略优化能力在研究中显示出了良好的效果,但人工智能社区很难使用这些模型处理生产环境中有很大差别的实际需求。借助 Horizon AI,研究者可以将两种完全不同类型的应用连接起来:复杂但终究有限的研究用模拟器环境;基于 ML 的策略优化系统,依赖于存在固有噪声的、稀疏的、任意分布的数据。
▍图片来源于网络
就像深度学习彻底改变了神经网络的应用,Horizon AI这样的项目有可能将定义科学家和工程师未来如何将 RL 应用到生产环境中,怎样使用策略优化来产生影响。Horizon AI 考虑了特定生产环境的问题,包括特征规范化、分布式训练、大规模部署和服务、具有数千种不同特征类型和分布的数据集,以及高维离散的连续动作空间。
尽管行业内也存在其他强化学习平台,但Horizon AI是独一无二的,因为它的设计意图是输出产品和结果,而非用于测试和实验。
在Facebook平台上,它基于用户数据为推送通知系统提供决策,页面管理员据此向用户发送他们感兴趣的信息更新,并提高网站关键功能(如在线视频)的质量。
Facebook工程师、Horizon AI项目负责人杰森・高奇(JasonGauci)表示:“我认为强化学习将是整个行业的未来趋势,会在机器学习方面得到广泛采用。所以我们将Horizon AI开源,为全世界的爱好者提供一个出色的强化学习应用平台。任何有基本经验的人都可以生成一个数据集,训练一个模型,看看它是如何工作的。我们希望让更多人对这个领域感到兴奋。”
- END -
领取专属 10元无门槛券
私享最新 技术干货