大模型风起云涌,正在从虚拟世界进入现实世界。谷歌DeepMind日前推出 Robotic Transformer 2(简称RT-2)大语言模型,让人类可以通过纯语言命令优化机器人控制,迈出了重要一步。
不同于此前的大模型,这是一个“视觉-语言-动作”(vision-language-action,简称VLA)模型。业界认为,谷歌此举是想打造可以适应人类环境的通用机器人,类似于机器人瓦力或者C-3PO。
谷歌RT-2无需针对特定任务专门训练
当人类需要学习某项任务时,往往会通过阅读和观察来实现。RT-2有点类似,它用到了大语言模型(也就是驱动ChatGPT的技术)。RT-2从网上寻找文本和图片,然后训练模型,即使没有针对特定任务专门训练过,RT-2也可以识别模式和动作。
举个例子,按谷歌的说法,在没有经过特别训练的前提下,RT-2可以识别并扔掉垃圾。RT-2会理解垃圾是什么,了解如何处理,然后完成一系列动作。RT-2甚至知道食品包装纸或香蕉皮也是垃圾。
谷歌工程师甚至说,向RT-2下达一条命令,让它捡起已经灭绝的动物,RT-2机器人可以从三个雕像中找出恐龙。
放在以前,如果想让AI处理垃圾——无论是识别垃圾、捡起垃圾还是扔掉,都要专门训练。RT-2不太一样,它从网络数据中获得大量知识,已经知道垃圾是什么,能够识别垃圾,不需要专门训练。
又比如要让AI机器人捡起苹果,先要训练机器人,让它知道苹果的一切,比如苹果是如何生长的,它的物理特点有什么;不只如此,还要在环境中识别苹果,不能将苹果和红球混淆;还有最重要的,AI要知道如何将苹果捡起来。
谷歌RT-2是打造通用机器人的一大步
一般来说科学家会用大量人工获取的数据点来训练机器人AI,为了覆盖每一种可能场景,训练时会消耗大量时间和成本。现实世界纷繁多变,机器人助手如果想变得实用,必须正确应对那些不太可能编程的场景。
在开发RT-2时,DeepMind深入挖掘变形AI模型的优点,这种模型拥有很强的概括能力。RT-2借鉴了谷歌早期开发的AI,比如PaLI-X和PaLM-E。有了RT-2模型,机器人可以处理摄像头图像,对应该执行的动作进行预测。
谷歌发现,如果是训练过的任务,RT-2试验6000多次后效果便与RT-1一样好。如果是没有训练过的任务,RT-2的表现比RT-1好一倍。简单来说,谷歌认为RT-2在学习新场景新任务时表现更好,虽然它仍不完美。
DeepMind的目标是打造通用机器人,但谷歌也承认还有很多研究工作要做,不过RT-2应该是正确的研究方向。如果RT-2真的能变得完美,人类可以向机器人下达“文字命令”,让机器人按指令行动。
谷歌RT-2可以像人类一样将学到的知识用于新场景
RT-2最大的突破在于,它从网络数据中学习基本概念和构想,然后将学到的知识用来指挥机器人完成动作,让机器理解甚至“说出”它们的操作语言。
要让机器人在多变的环境中执行通用任务,它必须管理好复杂抽象任务。如果是之前没有遇到的过的环境,更是需要机器人正确应对。
聊天机器人纯粹在虚拟世界运行,机器人不一样,它存在于真实世界。机器人要理解抽象概念,在实际、物理环境中应用。
在RT-2出现之前,机器人依赖复杂系统堆栈来运行,也就是高级推理系统与低级操作系统联合作战,让机器人正常运转,这种方法有些笨重!RT-2简单一些,它将复杂推理与动作输出整合到一个模型。
RT-2的最大特点在于:它从语言和视觉训练数据中学习概念,将概念变成机器人动作,即使是之前没有训练过的任务,它的处理能力也更强。简言之,RT-2可以像人类一样,将以前学到的概念应用于新场景。
谷歌的研究似乎在告诉人类,AI正在以更快的速度影响机器人。开发多功能通用型机器人是人类的一个梦想,希望RT-2能带来突破。(小刀)
领取专属 10元无门槛券
私享最新 技术干货