AMCU
*欢迎关注华农单协*
关注
人工智能在近些年可谓是日火朝天,而且也取得很大的飞跃,机器变得越来越贴心。然而人们在生活生产中遇到的问题和情况总是复杂多变的,人脑可以快速权衡分析和根据经验做出判断和决定,机器总是按照预设的程序去执行,让它具有学习想象的能力才可谓真正智能!
小伙伴的大脑
人类基于有限的感官感知开发关于世界的心智模型,我们所有的决策和行为都是基于这一内部模型。我们的大脑会对接受的各种信息进行时空抽象化表征。
所以我们打算模拟世界模型,让人工智能能在“梦境”中对外部信息的未来状态进行预测,以提高完成任务的效率。
理想情况下,我们希望能够高效训练基于大型循环神经系统网络的智能体。反向传播算法可用于高效训练大型神经网络。本研究中,我们试图通过将智能体分为大型世界模型和小型控制器模型,来训练能够解决强化学习任务的大型神经网络。我们首先用无监督的方式训练一个大型神经网络,来学习智能体世界的模型,然后训练小型控制器模型来使用该世界模型执行任务。小型控制器使得算法聚焦于小搜索空间的信用分配问题,同时无需牺牲大型世界模型的容量和表达能力。通过世界模型来训练智能体,我们发现智能体学会一个高度紧凑的策略来执行任务。
下面就来看一下这个智能体模型:
视觉感知模块,可以把所见压缩进一个小的表征性代码。
记忆模块,可以根据历史信息对未来代码做预测。
决策模块,只基于由其视觉和记忆组件创建的表征来制定行动。
「迭代训练」我们需要智能体探索自己的世界,不断收集新的观测结果,这样其世界模型可以不断地改善和细化。
小结:我们探索构建流行的强化学习环境之下的生成神经网络。我们的「世界模型」可以无监督方式进行快速训练,以学习环境的有限时空表征。通过使用提取自世界模型的特征作为智能体的输入,我们可以训练一个非常紧密且简单的策略,解决目标任务。我们甚至可以完全通过由世界模型本身生成的虚幻梦境训练我们的智能体,并把从中学会的策略迁移进真实环境之中。
信息摘自:机器之心
领取专属 10元无门槛券
私享最新 技术干货