首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类

因为现实世界是复杂多样的,并且随着时间的推移不断变化,这为机器人系统带来巨大挑战。然而,强化学习应该是应对这些挑战的优秀工具:通过不断练习、不断进步和在工作中学习,机器人应该能够适应不断变化的世界。...机器人的任务是到达每个垃圾站进行垃圾分类,在不同垃圾箱之间运输物品,以便将所有可回收物品(罐头、瓶子)放入可回收垃圾箱,将所有可堆肥物品(纸板容器、纸杯)放入堆肥垃圾箱,其他所有东西都放在其它垃圾箱里。...在现实世界中,机器人会遇到各种独特的情况,比如以下真实办公楼的例子: 从不同的经验中学习 在工作中不断学习是有帮助的,但在达到这一点之前,需要用一套基本的技能来引导机器人。...在仿真环境中从简单的脚本策略开始引导,应用强化学习,并使用基于 CycleGAN 的迁移方法,利用 RetinaGAN 使仿真图像看起来更加逼真。...谷歌研究人员在论文提供了有关技术设计、各种设计决策的削弱研究以及实验的更详细统计数据的更深入见解。 结论和未来工作展望 实验结果表明,基于强化学习的系统可以使机器人在真实办公环境中处理实际任务。

24320

1小时学会走路,10分钟学会翻身,世界模型让机器人迅速掌握多项技能

选自arXiv 机器之心编译 编辑:小舟、蛋酱 世界模型在实体机器人上能发挥多大的作用? 教机器人解决现实世界中的复杂任务,一直是机器人研究的基础问题。...深度强化学习提供了一种流行的机器人学习方法,让机器人能够通过反复试验改善其行为。然而,当前的算法需要与环境进行过多的交互才能学习成功,这使得它们不适用于某些现实世界的任务。...在最近的一项研究中,UC 伯克利的研究者利用 Dreamer 世界模型的最新进展,在最直接和最基本的问题设置中训练了各种机器人:无需模拟器或示范学习,就能实现现实世界中的在线强化学习。...研究者在现实世界中从零开始教四足机器人翻身、站起来并在 1 小时内学会步行。 此外,他们发现机器人会在 10 分钟内能学会承受推力或快速翻身并重新站起来。 3、视觉拾取和放置。...该研究将学习更新与数据收集解耦,以满足延迟要求并实现快速训练而无需等待环境变化。在该研究的实现中,一个学习线程持续训练世界模型和参与者 - 评价者行为,同时一个参与者线程并行计算环境交互动作。

84930
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    AAAI 2019论文解读:机器人和认知学习

    机器之心原创 作者: Joni 编辑:Hao 本文介绍了三篇AAAI 2019 论文,前两篇分别研究了机器人如何学习环境中的物品拥有权以及对物品的操作能力,后一篇研究了是否能用当今的深度学习方法来模拟简单的人类认知活动...分析师评论:这篇文章利用规则算法和其他(主要的)符号算法,试图让机器人在人机交互中理解物品的所有权和社会规则问题。...但这个研究跟朱教授擅长的计算机视觉有联系但不是完全相关,而是利用示教(LfD(learning from demonstration)),令机器人模拟人的镜像神经元(Mirror Neuron)运作进而来控制机器人的对物品的操作能力...本文的创新性在于 1) 采用了触觉手套来感应不同程度的力度,2) 通过 Q 强化学习和语义模型,以目标为主(goal-directed)学习对应的状态和力度;3)利用物理模拟器模拟不同的机器人动作和力度可以建立功能等同的动作...2 学习过程 2.1 强化学习施力和状态的关系 为了便于实现,文章使用对象上的力分布作为力的状态空间,并将 K 均值聚类应用于由不同机器人动作生成的力分布。

    54530

    DeepMind 提出全新强化学习算法,教智能体从零开始学会控制

    日前,DeepMind 提出全新强化学习算法「调度辅助控制」(Scheduled Auxiliary Control (SAC-X)),教智能体从零开始学会控制,他们试图通过这种学习范式来克服智能体的控制问题...利用元学习算法,调度器会在训练过程中得到改进,该算法试图最大限度地提高主任务的进程,进而显著提高数据效率。 ?...令人兴奋的是,利用 SAC-X,我们实验室的机器人手臂能够成功地从零开始学习拾取和摆放。...在过去这极具挑战性,因为在现实世界中让机器人学习需要高效的数据,所以流行的方法是预训练模拟智能体,然后再将这种能力转移到真正的机器人手臂中。 ?...从这方面来说,SAC-X 是一种通用的强化学习方法,可以广泛应用于控制和机器人领域之外的一般稀疏强化学习环境。

    57380

    Q-learning状态-动作值函数的直观理解》

    强化学习基础:智能体与环境的交互 在深入探讨状态 - 动作值函数之前,我们先来了解一下强化学习的基本框架。强化学习中,有一个智能体,它就像一个有自主意识的小机器人,在一个特定的环境中生存和行动。...直观理解Q值的意义 为了更直观地感受状态 - 动作值函数的作用,我们来举一个具体的例子。假设有一个智能机器人在一个网格世界里,它的目标是找到散落在各处的金币。...机器人在网格中的位置就是它的状态,而它可以采取的动作是向上、向下、向左、向右移动。当机器人处于某个位置(状态)时,对于每一个移动方向(动作),都有一个对应的Q值。...比如在前面提到的机器人找金币的例子中,当Q值稳定后,机器人在每个位置都选择Q值最大的方向移动,就能以最快的速度收集到尽可能多的金币。...理解Q-learning中的状态 - 动作值函数,是深入掌握强化学习的基石。它不仅帮助我们理解智能体如何在复杂环境中学习和决策,也为我们设计和优化强化学习算法提供了核心思路。

    4600

    VR-Robo:视觉机器人导航和运动的Real-Sim-Real框架

    该方法利用多视图图像进行基于3DGS的场景重建,并将这些环境整合到支持自我中心视觉感知和网格基物理交互的模拟器中。...3)在仿真环境中使用强化学习算法训练机器人的策略,使其能够完成目标跟踪任务,并在复杂环境下保持稳定的行为。...同时,引入了多种技术手段,如物体随机化、碰撞检测等,使得机器人能够在复杂的环境中更好地适应和学习。1.3 解决的问题VR-Robo的主要目标是帮助机器人在复杂的现实环境中进行自主导航和目标跟踪任务。...通过将真实世界的场景转换为高保真度的仿真环境,可以降低实际操作中的风险和成本,同时也提供了更多实验条件和数据来源,有利于机器人在更广泛的场景下进行学习和优化。...此外,该系统还采用了以下创新点:1)使用了深度强化学习算法:VR-Robo使用深度强化学习算法来训练智能体,在仿真环境中实时调整策略以适应不同的任务需求。

    10800

    大猩猩也会玩《我的世界》了,看一遍视频就能get新技能

    或许是因为之前玩过一些游戏,Kanzi 刚坐到屏幕前就进入了状态,几秒钟就学会了如何操作角色前进。只要它能到达指定区域,屏幕上就会出现零食的图案,同时工作人员也会给它对应零食。...终于,在走到积木前时,Kanzi 找到了上方的按钮,成功把积木击碎,这引得工作人员一阵欢呼。 经过这两个任务,Kanzi 已经掌握了两项基本技能:在环境中收集零食以及把积木打碎。...工作人员接下来的目标是让 Kanzi 在一个全新的环境中利用这些技能并让网线另一端的一位人类玩家相信它是真人。...在此之前,Kanzi 被安排在一个特制的洞穴环境中强化技能,只有打破一道一道的积木墙,Kanzi 才能到达洞穴尽头。 在一路打怪升级的路上,Kanzi 熟悉了刚刚才学到的新技能。...英伟达 AI 高级科学家 Jim Fan 表示,他观察到,教 AI 玩《我的世界》和教大猩猩有很多类似的技巧,包括: In-context 强化学习:当 Kanzi 在游戏中达到标记的里程碑时,他会得到水果或花生作为奖励

    16930

    被啤酒节遗留垃圾吓到,德国小哥发明现实版“瓦力”清洁机器人

    一位名叫Damian Bogunowicz的慕尼黑工业大学硕士生,和他的小伙伴一起利用计算机视觉、深度强化学习和Unity 3D游戏引擎开发了一款自主收集垃圾的机器人。 ?...在这个实验中,他们将机器人的目标设置为探索环境并学习正确的策略。然后设定一系列的奖励和惩罚。 主要来说,机器人有两个目标: 接近并收集垃圾,例如面包渣、塑料袋以及香肠等食物残渣。...在模拟环境中,机器人的形状是正方体,主要有三个动作: 平移运动(向前、向后以及保持静止) 转向运动(左转、右转) 抓取状态。 前两个动作非常简单,抓取状态需要设计。...3.用RealSense摄像机将信息从仿真平台传递给真实的机器人,这一部分工作是将在物理环境中部署机器人,这意味着通过在现实世界中运行机器人来微调算法,目前,强化学习在机器人技术中的应用还处于实验阶段。...其利用深度学习技术开发的画面识别引擎,哪怕数百种物品散乱在房间各处,引擎也能够识别出物品的位置和种类。基于该识别引擎,人们可以规划什么物体应该怎么去抓取以及如何整理等等。

    74440

    Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑

    近期出现了一些颇具潜力的进步,它们表明大规模机器人强化学习能在多种应用设置中取得成功,比如机器人抓取和堆叠、学习具有人类指定奖励的异构任务、学习多任务策略、学习以目标为条件的策略、机器人导航。...因此,DeepMind 表示,这项研究关注的重点是通过离线强化学习使用 Transformer 并整合之前收集的大型数据集。...结果表明这种做法能提升基于 Transformer 的离线强化学习方法在大规模机器人学习问题上的表现。...在真实世界实验中,他们使用的数据集包含 3.8 万个成功演示和 2 万个失败的自动收集的场景,这些数据是通过 13 台机器人在 700 多个任务上收集的。...相比于 RT-1、IQL 和 Decision Transformer (DT) 等基准方法,Q-Transformer 可以有效地利用自动事件片段来显著提升其使用技能的能力,这些技能包括从抽屉里取放物品

    80840

    一文梳理隐私计算联邦学习推荐系统研究进展

    随着近年来大数据技术的发展以及用户终端的普及,对于用户数据的收集越来越简单,以及收集的用户数据数量与日俱增,因此用户对于隐私问题的担忧越来越大。...因此后续对于数据的隐私保护方法在推荐中进行了大量尝试,比如匿名化、差分隐私、本地化的差分隐私、同态加密算法、安全多方计算等与推荐方法的结合;以及机器学习思想在推荐中的尝试,比如对抗机器学习、对抗样本生成等...联邦学习,即通过将用户数据保存在本地,然后利用本地数据训练本地模型,然后在服务端协同多个本地模型进行优化,进而聚合多个本地模型的中间参数来得到服务端全局较优的模型,最终下发到每个终端设备上。...利用强化学习实现自适应减少通信量FCF-BTS A Payload Optimization Method for Federated Recommender Systems-Recsys....因此本文利用强化学习来挑选能够使得反馈具有正向收益的物品向量来进行更新。

    1.4K40

    Q-learning状态-动作值函数的直观理解》

    强化学习基础:智能体与环境的交互在深入探讨状态 - 动作值函数之前,我们先来了解一下强化学习的基本框架。强化学习中,有一个智能体,它就像一个有自主意识的小机器人,在一个特定的环境中生存和行动。...直观理解Q值的意义为了更直观地感受状态 - 动作值函数的作用,我们来举一个具体的例子。假设有一个智能机器人在一个网格世界里,它的目标是找到散落在各处的金币。...机器人在网格中的位置就是它的状态,而它可以采取的动作是向上、向下、向左、向右移动。当机器人处于某个位置(状态)时,对于每一个移动方向(动作),都有一个对应的Q值。...比如在前面提到的机器人找金币的例子中,当Q值稳定后,机器人在每个位置都选择Q值最大的方向移动,就能以最快的速度收集到尽可能多的金币。...理解Q-learning中的状态 - 动作值函数,是深入掌握强化学习的基石。它不仅帮助我们理解智能体如何在复杂环境中学习和决策,也为我们设计和优化强化学习算法提供了核心思路。

    9610

    MIT 6.S094· 深度增强学习 | 学霸的课程笔记,我们都替你整理好了

    2.传感器:采集物理世界的信息并将其转换成机器可以处理的原始数据。是机器人在物理世界工作的输入端。 ? 3.感知数据:传感器采集的原始数据。 ? 4.特征提取:从感知数据中提取特征。...目标:从稀疏奖励/监督数据中学习,利用状态转移的时间动态特性,一个状态到一个状态的转移会通过时间的变化获得,从而根据先验数据推理出当前真实的知识。我们能够生成真实世界的稀疏学习信息。...状态:游戏的原始像素。 ? 工业机器人:用机器人来包装。 目标:选中一个盒子,把盒子放入容器中。 状态:世界的原始像素。 ? 马尔科夫决策过程:持续行动奖励状态直到终结。...所以,这就到了深度强化学习该出场的时刻了! 深度强化学习 ? 众所周知,神经网络非常擅长于估计。 相较于机器学习,深度学习可以在更大的状态空间中对值进行估计。...神经网络的损失函数: 接受当前状态的奖励,通过神经网络的前向过程计算未来状态的值,并从当前状态行动的前向过程中减去这个值。

    55830

    VR-Robo:视觉机器人导航和运动的Real-Sim-Real框架

    该方法利用多视图图像进行基于3DGS的场景重建,并将这些环境整合到支持自我中心视觉感知和网格基物理交互的模拟器中。...3)在仿真环境中使用强化学习算法训练机器人的策略,使其能够完成目标跟踪任务,并在复杂环境下保持稳定的行为。...通过将真实世界的场景转换为高保真度的仿真环境,可以降低实际操作中的风险和成本,同时也提供了更多实验条件和数据来源,有利于机器人在更广泛的场景下进行学习和优化。...这些实验展示了VR-Robo的适应性,可以在广泛的环境和条件下工作。 方法创新点 该论文的主要创新点在于提出了VR-Robo系统,实现了机器人在仿真环境与真实世界之间的快速转换。...此外,该系统还采用了以下创新点: 1)使用了深度强化学习算法:VR-Robo使用深度强化学习算法来训练智能体,在仿真环境中实时调整策略以适应不同的任务需求。

    5800

    一文带你了解基于视觉的机器人抓取自学习(Robot Learning)

    基于前与X Robotics合作的基础上(该项目的任务是让一系列机器人同时学习使用单目相机输入来抓取家用物品),研究人员使用机械臂“无意间”抓取物体,这种经验使机器人能够学习丰富的图像对象。...该研究在数据收集的过程中,利用机器人可以操纵物体移动的优势,提供数据所需的变化因素。通过对物体进行抓取,可以获得1)抓取前的场景图像;2)抓取后的场景图像;3)抓握物体本身的孤立视图。...这个属性可以用于实现强化学习的奖励函数,并允许机器人在没有人工提供的标签的情况下学习实例抓取。 2)目标物体本地化 第二个属性是,可以组合场景空间映射和物体嵌入来本地化图像空间中的“查询对象”。...例如,移动机器人在特定环境中接收操纵者的命令拾取放置物品,人类可以指定语言为某类命令,并将概念词与物体对象的属性进行关联,例如红色这样的概念词。...实验中指定的任务包含:根据用户指示完成到达指定地点,将物品递送给某人,将物品从指定地点移动到目的地。下图为受过训练的智能体采用动态学习的方式实现指定的目标。

    1.9K10

    谷歌最新验证系统又双叒被「破解」了,这次是强化学习

    前两个版本的 reCAPTCHA 有可利用的文本、图像或音频,可以将其用作训练神经网络的输入。...实际上,这项强化学习技术并非针对 reCAPTCHA v3 中不可见的分数,而是 reCAPTCHA v2 中首次引入的鼠标移动分析。...他们的系统在页面中放置一个正方形网格,鼠标沿对角线穿过网格到达「我不是机器人」按钮。如果成功,则给予正面强化;如果失败,则给予负面强化。该系统学会了控制正确的移动方法以欺骗 reCAPTCHA 系统。...该方法以 97.4% 的胜率成功攻破了 reCAPTCHA 测试。 接下来考虑在更大的网格上测试该方法。如果增加网格的大小,状态空间的维数就会指数级增加,在这种情况下训练强化算法并不可行。...图 2:分治方法图示:智能体在紫色的对角网格世界上运行。红色网格世界还没有被探索。 ? 图 3:强化学习智能体在不同网格分辨率上的胜率。

    2.4K10

    【2021GTC】帮助四足机器人学习具有挑战性的任务:从模拟到现实

    由于深度学习的最新进展,我们能够将机器人带到以前无法到达的地方。事实上,你在这些视频中看到的机器人完全是由神经网络控制的。...reward表明机器人在执行诸如步行和跟随给定速度等任务时的表现。收集一些经验后,代理更新其神经网络以最大化获得的reward。然后继续收集更多数据。 一开始,网络是完全随机初始化的。...机器人将无法完成任务。但是在不同代的网络中,它将开始表现得越来越好。用强化学习训练机器人会带来一些挑战。可以想象,在实验室里做这样的实验是非常繁琐的。...给定高级导航命令,机器人能够根据来自深度相机的帧安全地移动到目标位置,而无需任何明确的环境映射。首先,使用状态表示学习将图像序列和相机的当前轨迹融合以形成世界模型。...这个轻量级模块的输出然后被直接输入到一个通过强化学习训练的目标到达和避障策略中。 我们展示了将管道解耦到这些组件中的结果是一个样本有效的策略学习阶段,可以在短短十几分钟内在模拟中完全训练。

    91020

    Meta重磅更新,小扎在元宇宙里养了会做家务的狗!人形化身超逼真,AI智能体在真实物理世界和人互动

    人与机器人在模拟环境中的共存,使人类能够首次在类似家庭的环境中,在有人形化身存在的情况下,学习机器人AI策略,完成日常任务,并对其进行评估。 这无疑具有重大意义—— 1....强化学习算法通常需要数百万次的迭代,才能学习到有意义的知识,因此在物理世界中进行这些实验可能,需要数年时间。 而在模拟实验中,几天就能完成。 2....在物理世界的不同房屋中收集数据是不切实际的,因为这需要将机器人移动到不同的地方,还要设置环境。 而在模拟中,可以在几分之一秒内改变环境,然后立马在新环境中开始实验。 3....当今最先进的AI模型,需要大量数据进行训练,而模拟使研究者能够轻松地扩大数据收集规模。 而在物理世界中,数据收集的成本可能相当高,速度也会很慢。...在HomeRobot OVMM基准中,智能体可在家居环境中抓取新奇物品,并将其放入或放在目标容器中。 其中,Meta采用强化学习和启发式(基于模型)基线,展示了导航和放置技能可以从模拟到物理世界转移。

    24230

    UC伯克利等新算法让四足机器人“稳得一批”:跨石滩、过草地…泼了油也不打滑!

    手动编码的改进可以提高机器人在受控环境中的性能,但是想要机器人真正的适合现实世界中的变化,唯一的方法是教机器人真正的适应环境,类似于人类的学习方式。...想要赋予机器人适应不断变化世界的能力,研究者需要通过数百万次重复实验来教他们,而做到这一点的最佳方法不是在现实世界中,在现实世界中机器人可能会在学习过程中损坏或磨损,研究者是在模拟环境中进行的。...环境参数范围 当然,不能仅仅用这个基本策略来部署机器人,因为我们不知道它在现实世界中会遇到什么外部特性。因此,研究者依赖于机器人在周围环境中自己学到的信息,即机器人最近的运动信息。...由于我们知道机器人在模拟中遇到的实际外部特性,我们可以使用监督学习训练自适应模块,从机器人最近的历史状态预测当前行为。...相比较而言,先前基于 RL 的方法训练的机器人需要几分钟时间,有时还需要人工干预才能适应新条件,使得这些机器人在现实世界中不现实。

    62730

    强化学习入门——说到底研究的是如何学习

    自机器学习重新火起来,深度强化学习就一直是科研的一大热点,也是最有可能实现通用人工智能的一个分支。然而对于没有强化学习基础的同学们,如果直接去学习深度强化学习,想必会碰到很多问题。...本文尝试普及一些最基础的强化学习算法,并以一个小例子来辅助大家理解。 ---- 问题定义 强化学习究竟研究的是一个什么样的问题,让其具有实现通用人工智能的潜力? 这个问题与我们认识世界的方式相关。...留在原位)和A3 假设机器人在位置A2,如果其向左或向右移动,有70%的的概率会留在原位A2,分别有15%的概率会移动到A1和A3 我们的算法要解决的问题是,在任意绿色格子里面放置一个机器人,算法可以指导机器人一步一步到达位置...由于到达出口格子即成功,如果机器人能到达此处,我们就给智能体反馈奖励1。同理,如果到达陷进格子,反馈奖励-1,到达绿色格子则奖励0。 这个时候我们来看格子D1。如果机器人在此处,它可以往四个方向移动。...一个简单的思路是我们可以通过不断在这个世界中进行探索,去了解这个世界的运作方式,也就是不断的弄清了这个T函数。在强化学习的研究中,抽象一下这个过程,即通过不断采样来近似估计T函数。

    29120

    被啤酒节遗留垃圾吓到,德国小哥发明现实版“瓦力”清洁机器人

    一位名叫Damian Bogunowicz的慕尼黑工业大学硕士生,和他的小伙伴一起利用计算机视觉、深度强化学习和Unity 3D游戏引擎开发了一款自主收集垃圾的机器人。...不要与桌子和椅子发生碰撞,不要回收木托盘等物品因为这不属于房间内的垃圾。 在模拟环境中,机器人的形状是正方体,主要有三个动作: 平移运动(向前、向后以及保持静止) 转向运动(左转、右转) 抓取状态。...前两个动作非常简单,抓取状态需要设计。总的来说,每次机器人决定收集一个物体时候需要满足下面两个条件: 1.物体必须靠近机器人的前部(限制在具有绿色边缘的体积内) 2.机器人必须决定激活“抓取器”。...3.用RealSense摄像机将信息从仿真平台传递给真实的机器人,这一部分工作是将在物理环境中部署机器人,这意味着通过在现实世界中运行机器人来微调算法,目前,强化学习在机器人技术中的应用还处于实验阶段。...其利用深度学习技术开发的画面识别引擎,哪怕数百种物品散乱在房间各处,引擎也能够识别出物品的位置和种类。基于该识别引擎,人们可以规划什么物体应该怎么去抓取以及如何整理等等。

    52230
    领券