在这最后一章中,作者讨论了一些超出本书范围的主题,但对于强化学习的未来特别重要。 其中许多主题使我们超越了可靠的知识,有些使我们超越了MDP框架。小涛觉得,如果科研选择其中的某些方面,那一定算得上有价值了。
这里贴上17.5节的翻译,整个章节的翻译已发布在CSDN:
17.5 剩下的问题
在本书中,我们提出了人工智能强化学习方法的基础。粗略地说,这种方法基于无模型和基于模型的方法协同工作,如第8章的Dyna架构,结合第II部分中开发的函数逼近。重点放在在线和增量算法上,我们认为这些算法甚至是基于模型的方法的基础,以及如何在异策略训练情境中应用这些算法。后者的全部理由仅在最后一章中提出。也就是说,我们一直将异策略学习作为一种有吸引力的方式来处理探索/利用困境,也就是说,我们一直将离策略学习作为一种有趣的方式来应对探索/利用困境。 但只有在本章中,我们才讨论了与GVF同时学习许多不同的辅助任务,并在时间抽象的选项模型方面分层次地了解世界,这两种模式都涉及异策略学习。正如我们在整本书中指出的那样,还有很多工作要做,并且本章讨论的其他研究方向也证明了这一点。但是假设我们很慷慨,并且给出了我们在本书中所做的一切以及本章到目前为止所概述的所有内容的大致轮廓。之后会留下什么?当然,我们无法确定需要什么,但我们可以做出一些猜测。在本节中,我们将重点介绍在未来的研究中我们仍需要解决的六个问题。
首先,我们仍然需要强大的参数函数逼近方法,这些方法在完全增量和在线设置中都能很好地工作。基于深度学习和人工神经网络的方法是朝这个方向迈出的重要一步,但仍然只适用于大型数据集的批量训练,通过扩展的离线自播放训练,或者学习多个agent在同样的任务中的交叉经验。这些和其他设置是解决当今深度学习方法的基本限制的方法,这些方法很难在增量的在线情境中快速学习,这对于本书中强调的强化学习算法来说是最自然的。这个问题有时被描述为“灾难性干扰”或“相关数据”之一。当学到新东西时,它倾向于取代以前学过的东西而不是添加它,结果导致之前学习的益处丢失了 。诸如“回放缓冲区”之类的技术通常用于保留和重放旧数据,以使其益处不会永久丢失。诚实的评价是当前的深度学习方法不适合在线学习。我们认为没有理由认为这种限制是不可克服的,但是还没有设计出解决它的算法,同时又保留了深度学习的优点。目前大多数深度学习研究都是针对这种限制而不是去除它。
其次(也许是密切相关的),我们仍然需要学习特征的方法,以便随后的学习很好地概括。这个问题是一个普遍问题的实例,被称为“表征学习”,“建构性归纳”和“元学习” - 我们如何使用经验不仅可以学习给定的所需函数,还可以学习归纳偏差,以便将来学习学习更好地概括,因此更快?这是一个老问题,可以追溯到20世纪50年代和60年代的人工智能和模式识别的起源。这样的时代应该暂停。也许没有解决方案。但同样可能的是,找到解决方案并展示其有效性的时间尚未到来。今天,机器学习的规模远远超过过去,并且良好的表征学习方法的潜在好处变得更加明显。我们注意到一个新的年度会议 - 国际学习表示会议(the International Conference on Learning Representations) - 自2013年以来每年都在探讨这一主题和相关主题。在强化学习环境中探索代表性学习也不太常见。强化学习为这个老问题带来了一些新的可能性,例如第17.1节中讨论的辅助任务。在强化学习中,表示学习的问题可以通过学习第17.3节中讨论的状态更新函数来解决。
第三,我们仍然需要可扩展的方法来规划学习环境模型。在AlphaGo Zero和计算机国际象棋等应用中,规划方法已经证明非常有效,其中环境模型可以从游戏规则中获知,或者可以由人类设计师提供。但是,完全基于模型的强化学习的情况很少见,其中环境模型是从数据中学习然后用于规划的。第8章中描述的Dyna系统是一个例子,但正如那里所描述的那样,在大多数后续工作中,它使用没有函数逼近的表格模型,这极大地限制了它的适用性。只有少数研究包括学习的线性模型,甚至更少的研究也包括使用第17.2节中讨论的选项的时间抽象模型。
在规划之前需要做更多的工作,学习模型才能有效。例如,模型的学习需要具有选择性,因为模型的范围强烈影响计划效率。如果模型关注最重要选项的关键结果,那么规划可以是有效和快速的,但如果模型包含不太可能选择的选项的不重要后果的细节,那么规划可能几乎无法使用。环境模型应该在其状态和动态方面明智地构建,以优化规划过程。应该不断监测模型的各个部分,以了解它们对计划效率的贡献程度或减损程度。该领域尚未解决这一复杂问题或设计了考虑其影响的模型学习方法。
在未来的研究中需要解决的第四个问题是自动选择 agent 工作的任务,并用于构建其发展能力。人类设计师通常在机器学习中设置期望学习 agent 掌握的任务。由于这些任务事先是已知的并且保持固定,因此可以将它们构建到学习算法代码中。但是,展望未来,我们希望 agent 自己选择应该尝试掌握哪些任务。这些可能是已知的特定整体任务的子任务,或者它们可能旨在创建构建块,以允许更有效地学习 agent 可能在将来面临的许多不同任务但目前未知的任务。
这些任务可能类似于第17.1节中讨论的辅助任务或GVF,或者如第17.2节中讨论的通过选项解决的任务。例如,在形成GVF时,累积量,策略和终止函数应该是什么?当前的技术状态是手动选择这些,但是通过自动地进行这些任务选择会产生更大的功率和普遍性,特别是当它们源自 agent 先前由于表示学习或先前子问题的经验而构造的内容时。如果GVF设计是自动化的,则必须明确表示设计选择本身。它们不是在设计者的头脑中并且内置到代码中的任务选择,而是必须以这样的方式在机器本身中,以便可以自动地设置和更改,监视,过滤和搜索它们。然后可以在其他任务上按层次构建任务,就像ANN中的特征一样。任务是问题,而ANN的内容是这些问题的答案。我们期望需要一个完整的问题层次结构来匹配现代深度学习方法提供的答案层次。
我们希望在未来的研究中强调的第五个问题是行为和学习之间的相互作用,通过一些好奇心的计算模拟。在本章中,我们一直在想象一个环境,在这个环境中,使用异策略方法,从同一经验流中同时学习许多任务。所采取的行动当然会影响这种经验流,这反过来将决定学习的次数和学习的任务。当奖励不可用或者没有受到行为的强烈影响时,agent 可以自由选择在某种意义上最大化任务学习的行动,即将一定程度的学习进度用作内部或“内在”奖励,实现计算形式的好奇心。除了衡量学习进度之外,内在奖励除其他可能性外,还可以表示收到意外,新颖或其他有趣的输入,或者可以评估 agent 引起环境变化的能力。如上所述,通过定义辅助任务,GVF或选项,agent 可以使用以这些方式生成的内在奖励信号来为自己构建任务,从而以这种方式学习的技能可以有助于 agent 掌握未来任务的能力。结果是类似游戏的计算模拟。已经对这种内在奖励信号的使用进行了许多初步研究,未来研究的令人兴奋的主题仍然存在于这个一般领域。
在未来的研究中需要注意的最后一个问题是开发方法,使强化学习 agent 嵌入物理环境中是可以接受的。这是未来研究最紧迫的领域之一,我们将在下一节进一步讨论。
领取专属 10元无门槛券
私享最新 技术干货