首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【前沿动态】新人工智能框架:可使机器人和家庭助理的开发更友好和社交更智能

现有的人工智能代理和机器人只有在被明确指示时才帮助人类。换句话说,他们不会直观地确定在特定时刻如何提供帮助,而是等待人类告诉他们需要什么帮助。

麻省理工学院(MIT)的研究人员最近开发了NOPA(神经引导的在线概率援助),这是一个框架,可以让人工代理自主确定如何在不同时间最好地帮助人类用户。该框架在arXiv上预先发表的一篇论文中介绍,并计划在ICRA 2023上发表,可以使机器人和家庭助理的开发更具响应性和社交智能性。

社交智能AI助手的预期行为图示,该助手能够共同推断人类的目标并帮助人类更快地实现目标,而无需明确告知该做什么。智能体最初对人类的目标一无所知,因此会选择观察。随着它观察到更多的人类行为,它对自己的目标推断变得更加自信,调整了它的帮助策略。在这里,当代理看到人类走向柜子时,它会预测目标涉及盘子,并决定通过将这些盘子交给人类来提供帮助。当很明显目标是设置餐桌时,它有助于更具体的策略,例如将盘子放在餐桌上。

“我们有兴趣研究可以帮助人类在模拟家庭环境中完成任务的代理,以便最终这些代理可以成为帮助人们在家中的机器人,”进行这项研究的研究人员之一Xavier Puig告诉Tech Xplore。“为了实现这一目标,一个大问题是如何向这些代理指定我们希望他们帮助我们完成的任务。一种选择是通过语言描述或演示来指定此任务,但这需要人类用户进行额外的工作。

普伊格和他的同事最近工作的过度目标是构建人工智能驱动的代理,可以同时推断人类用户试图解决的任务并适当地帮助他们。他们将这个问题称为“在线观察和帮助”。

可靠地解决这个问题可能很困难。造成这种情况的主要原因是,如果机器人过早开始帮助人类,它可能无法认识到人类总体上想要实现的目标,因此它对任务的贡献可能会适得其反。

“例如,如果人类用户在厨房里,机器人可能会试图帮助他们将餐具存放在橱柜中,而人类想要摆桌子,”普伊格解释说。“但是,如果代理人等待太久才能了解人类的意图是什么,那么他们可能为时已晚。在上面概述的情况下,我们的框架将允许机器人代理通过递上盘子来帮助人类,无论这些盘子是做什么用的。

从本质上讲,研究人员创建的框架不是预测人类用户试图解决的单个目标,而是允许代理预测一系列目标。这反过来又允许机器人或人工智能助手以符合这些目标的方式提供帮助,而无需等待太长时间。

“像Alexa这样的普通家庭助理只有在被要求时才会提供帮助,”进行这项研究的另一位研究员舒天民告诉Tech Xplore。“然而,人类可以以更复杂的方式互相帮助。例如,当你看到你的伴侣带着沉重的袋子从杂货店回家时,你可以直接帮助他们拿这些袋子。如果你等到你的伴侣要求你帮忙,那么你的伴侣可能不会高兴。

大约二十年前,马克斯·普朗克进化人类学研究所的研究人员表明,人类帮助有需要的人的天生倾向很早就发展起来了。在一系列实验中,年仅18个月大的孩子可以准确地推断出他人的简单意图,并帮助他们实现目标。

从团队的方法中出现帮助策略。在顶部,辅助代理(蓝色)决定将对象交给人类(橙色)是最佳策略。在底部,辅助代理在观察人类行为后将对象返回到其原始位置,保留风筝。

利用他们的框架,Puig,Shu和他们的同事希望为家庭助理配备这些相同的“帮助能力”,使他们能够通过观察它们来自动推断人类试图做什么,然后以适当的方式采取行动。这样,人类将不再需要不断地向机器人发出指令,而可以简单地专注于手头的任务。

“NOPA是一种同时推断人类目标并帮助他们实现这些目标的方法,”Puig和Shu解释说。“为了推断目标,我们首先使用一个神经网络,根据人类所做的事情提出多个目标。然后,我们使用一种称为逆向规划的推理方法来评估这些目标。这个想法是,对于每个目标,我们可以想象人类为实现该目标而采取的理性行动是什么;如果想象的行动与观察到的行动不一致,我们拒绝该目标提案。

从本质上讲,NOPA框架不断维护一组人类可能试图解决的可能目标,随着新的人类行为的观察,不断更新这一集。在不同的时间点,帮助计划者会搜索一个共同的子目标,这将是解决所有当前可能目标集的一步。最后,它寻找有助于实现这一次级目标的具体行动。

“例如,目标可能是把苹果放在冰箱里,或者把苹果放在桌子上,”普伊格和舒说。“我们的人工智能助手不会随机猜测目标位置并在那里放苹果,而是会捡起苹果并将它们交付给人类。通过这种方式,我们可以避免因帮助实现错误的目标而破坏环境,同时仍然为人类节省时间和精力。

到目前为止,Puig,Shu和他们的同事在模拟环境中评估了他们的框架。虽然他们期望它允许代理在目标不明确的情况下帮助人类用户,但他们没有预料到他们在模拟中观察到的一些有趣的行为。

“首先,我们发现代理商能够纠正他们的行为,以尽量减少对房屋的干扰,”普伊格解释说。“例如,如果他们挑选了一个物体,后来发现该物体与任务无关,他们会将物体放回原来的地方以保持房屋整洁。其次,当不确定目标时,智能体会选择通常有用的行动,而不管人类的目标如何,例如将盘子交给人类,而不是承诺将其带到桌子或储物柜中。

在模拟中,Puig,Shu及其同事创建的框架取得了非常有希望的结果。即使团队最初调整了辅助代理以协助代表人类用户的模型(以节省实际测试的时间和成本),也发现代理在与真实人类交互时实现了类似的性能。

未来,NOPA框架可以帮助提高现有和新开发的家庭助理的能力。此外,它可能会激发创建类似的方法,以创建更直观和社会协调的AI。

“到目前为止,我们只在具体模拟中评估了该方法,”Shu补充道。“我们现在想将这种方法应用于真实家庭中的真实机器人。此外,我们希望将口头交流纳入框架,以便AI助手可以更好地帮助人类。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230206A067W900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券