道德算法让机器学会协作比人类更能妥协

文章来源：企鹅号 - cnBeta

在过去的一年中，机器人已经可以在许多简单的零和博弈（零和游戏）中击败人类。来自国际计算机科学家团队的一项新研究着手开发一种新型的博弈算法 - 其可以依靠协作和妥协等特性来进行博弈，而且研究人员已经发现，机器已经可以比人类更好地部署这些特性。

国际象棋，围棋和扑克都是敌对的游戏，两个或两个以上的玩家相互冲突。像这样的游戏提供了明确的里程碑来衡量人工智能的发展进程。但人工智能最终要运行的许多真实世界的场景需要人与机器之间更复杂的长期关系。

新研究的主要作者Jacob Crandall表示：“最终目标是我们了解与人合作背后的数学，以及人工智能发展社交技能所需的属性。人工智能需要能够对我们做出回应并阐明它在做什么，它必须能够与其他人进行互动。”

该团队创建了一种名为S＃的算法，并在机器，人机或人与人之间的各种双人游戏中测试其性能。所选的例子包括《囚徒困境》和《夏普利博弈》等，都要求玩家进行不同程度的合作或妥协。结果表明在大多数情况下，机器在游戏中胜过人类。

Crandall认为：“如果两个人相互坦诚，忠诚，那么就能像两台机器一样完美地完成。事实上，大约一半的人类在某种程度上说谎，所以从本质上讲，这种特定的算法正在学习道德特征是好的，它被编程为不撒谎，并且一旦出现就学会维持合作。”

算法中融入了一项有趣的技术，就是机器参与研究人员称之为“廉价交谈”(cheap talk)的能力。这些机器部署是为了响应合作的姿势，或作为对另一个参与者撒谎或作弊的反应。当这些机器部署“廉价交谈”时，人们普遍无法挑选他们在和机器博弈，而在大多数情况下，这些意见使合作的数量翻了一番。

研究人员表示，这些发现可能为未来更好的自主机器奠定基础，因为像无人驾驶汽车这样的技术需要机器与人类和其他机器通常不能共享相同的目标。

Crandall表示：“在社会上，人际关系一直在瓦解。许多人多年的朋友一下子成为了敌人，因为机器往往比我们做得更好，所以可以教会我们如何做得更好。”

这项研究发表在《自然·通讯》杂志上。

相关快讯