前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生成数字人:第1款基于ChatGPT制作的游戏诞生

生成数字人:第1款基于ChatGPT制作的游戏诞生

作者头像
成江东
发布2023-05-24 14:50:58
5310
发布2023-05-24 14:50:58
举报
文章被收录于专栏:强人工智能之路

| 导语你有没有想过生活在一个由真实可信的角色组成的虚拟世界里会是什么感觉?如果您可以使用自然语言与他们互动并观察他们的日常生活、情绪和人际关系,会怎么样?如果您可以使用这些角色创建自己的场景和故事并查看他们的反应会怎样?之前的游戏AI太弱了,NPC一个个都像木偶人,那么如果我们把chatGPT运用到游戏中呢?我想大家都很期待答案。本月,世界上第1款基于ChatGPT制作的游戏:《生成数字人:人类行为的交互式模拟》已经诞生了 。

斯坦福大学和谷歌研究院的研究人员在20230407号发表一篇研究论文,描述了一个沙盒 RPG游戏引擎,作者通过使用 25 个数字人填充一个让人联想到模拟人生的沙盒环境 。用户可以作为代理人进行观察和干预,发现数字人会计划自己的时间、分享新闻、建立关系并协调小组活动。

这个沙盒 RPG 世界被命名为 Smallville,根节点描述了整个世界,子节点描述区域,例如房屋、咖啡馆、商店,叶节点描述对象,例如桌子、书架。

一个由 25 名数字人组成的社区居住在这里,每个数字人都由一个简单的精灵头像表示。每个数字人都有一个描述。例如,John Lin 是Willow Market 和药店的药店店主,他喜欢帮助别人。他一直在寻找方法让他的顾客更容易获得药物。有了这些信息,您就可以与 ChatGPT 进行通信和聊天,因为 ChatGPT 就是这个 John Lin 角色。这是本文作者利用的核心概念。

数字人通过他们的行为与世界互动,并通过自然语言与其他人互动。在沙盒引擎的每个时间点,数字人输出描述他们当前行为的自然语言语句,例如 Isabella Rodriguez 正在写她的日记,Isabella Rodriguez 正在检查她的电子邮件,Isabella Rodriguez 正在与她的家人通电话等等。然后将此声明转化为影响沙盒世界的具体动作。动作在沙盒界面上显示为一组表情符号,在俯视图中提供动作的抽象表示。

数字人知道他们所在区域的其他数字人,数字人架构决定遇到其他数字人的时候是路过还是参与对话。这是数字人 Isabella Rodriguez 和 TomMoreno 之间关于即将举行的选举的对话中的示例。

数字人像在简单的视频游戏中一样在 Smallville 周围移动,进出建筑物,导航其地图并接近其他数字人。代理移动由生成代理架构和沙盒游戏引擎指导。当模型指示代理将移动到某个位置时。我们在 Smallville 环境中计算到目的地的步行路径,然后代理开始移动。所以为了制作这个沙盒环境,他们使用了Phaser网页游戏开发框架。视觉环境精灵,包括代理头像,以及创作的环境贴图和碰撞贴图都被导入到 Phaser 中。

数字人开始计划他们在沙盒世界中随着时间流逝的日子,他们的行为随着这些数字人彼此互动而演变,他们建立记忆和关系并协调联合活动。然而,这个游戏还远不是一个成熟的游戏,因为代理只能使用他们前一天的记忆。作者解释说,我们使用摘要描述提示语言模型,例如姓名、特征和他们最近经历的摘要以及他们前一天的摘要。GPT每天都会根据前一天的经验和数字人的初始特征为每个代理制定新计划。例如,下图显示了数字人John Lin 的早晨例程。约翰早上 6 点左右醒来,完成了早上的例行工作,包括刷牙、洗澡和吃早餐。在出门开始一天的工作之前,他短暂地拜访了他的妻子梅和儿子艾迪。

数字人还可以交换信息、形成新关系并协调联合活动。这些社会行为是突发的,而不是预先设定的。当数字人每天相遇时,他们可能会进行对话。当他们这样做时,信息可以在数字人之间传播。例如,在杂货店里山姆和汤姆的谈话中,山姆讲述了他在地方选举中的候选资格。因此,通过这种方式,数字人可以传播他们的话语并从其他数字人那里学习新信息。

关系记忆:数字人会随着时间的推移形成新的关系,并记住他们与其他数字人的互动。例如,Sam 一开始并不认识 Latoya Williams。在约翰逊公园散步时,Sam 遇到了Latoya ,他们做了自我介绍,Latoya 提到她正在从事一个摄影项目。在后来的互动中,Sam 与 Latoya 的互动表明了对互动的记忆,因为他问:“你好 Latoya,你的项目进展如何”,她回答“你好 Sam,进展顺利”。

这个沙盒RPG游戏目前最难的部分是记忆。因为 ChatGPT 或 GPT4能够保存和记住的上下文数量极其有限。所以这么大的游戏,你要用自己的记忆流,每次和数字人交互的时候,你都要检索记忆信息。因此,作者为他们的游戏提出了这些工作流程:感知记忆流、检索记忆、计划、反思和行动。作者解释了这个工作流程,因为智能体感知他们的环境,所有感知都保存在智能体体验的综合记录中,称为记忆流。基于他们的感知,架构检索相关记忆,然后使用这些检索到的动作来确定动作。这些检索到的记忆还用于形成长期计划和创建更高层次的反思,这些都被输入到记忆流中以备将来使用。

生成代理架构,他们目前的实施使用 ChatGPT 的GPT 3.5 turbo 版本 。较新的语言模型(例如 GPT4)将继续扩展支持。如果 在他们从事此项目时可以使用GPT4,他们可能会获得更好的结果 。

沙盒游戏的核心,是一个内存对象列表,其中每个对象都包含一个自然语言描述、一个创建时间戳和一个最近的访问时间戳。内存流的最基本元素是观察,它是数字人直接感知的事件。常见的观察包括数字人自己执行的行为或数字人认为由其他数字人或非数字人对象执行的行为。基于这些记忆流,数字人计划下一步的行动。

对于这项任务,他们定义了三个主要组件。Recency 为最近访问的内存对象分配更高的分数,以便从刚才或今天早上发生的事件很可能保留在代理的注意力范围内。重要性通过为数字人认为重要的那些记忆对象分配更高的分数来区分普通记忆和核心记忆 。同样,重要分数有许多可能的实现。作者发现直接要求语言模型输出一个整数分数是有效的。第三个组成部分是相关性。

为与当前情况相关的记忆对象分配更高的分数。什么是相关的取决于与什么相关的答案。因此,他们以查询记忆为条件来决定相关性。例如, 如果查询是学生正在与同学讨论化学考试要学习什么,关于他们早餐的记忆对象应该具有低相关性,而关于老师和功课的记忆对象应该具有高相关性。

一旦你构建了这个系统,剩下的就是由语言模型 ChatGPT 完成。所以这就是制作这样的游戏引擎的核心。然而,这仍然不完美且不够。因此,作者提出了另一种记忆,称为反射。

考虑这样一个场景,用户问 Klaus Mueller 是否必须从认识的人中选择一个人共度一个小时,你会选谁。由于只能访问观察记忆,智能体只需选择克劳斯与之互动最频繁的人,答案就是沃尔夫冈,他的大学宿舍邻居。不幸的是,沃尔夫冈和克劳斯只是路过,并没有深入的交流。更理想的响应要求代理从克劳斯在研究项目上花费数小时的记忆中进行概括,以产生更高层次的反思。所以他们开发了这种方法。反射是周期性产生的。在我们的实现中,当重要分数的总和时,我们会生成反射对于代理感知到的最新事件超过某个阈值。实际上,数字人每天大约反思两到三次。所以另一个挑战是计划和反应。

虽然大型语言模型可以根据情境信息生成合理的行为,但代理需要在更长的时间范围内进行规划,以确保他们的行动顺序是连贯且可信的。如果我们提示一个有克劳斯背景的语言模型,描述 时间,并询问他在给定时刻应该采取什么行动,克劳斯会在中午 12 点吃午餐,然后在中午 12 点 30 分和下午 1 点再次吃午餐,尽管他已经吃过两次午餐。为了在每一天开始时克服这个问题,他们使用前一天的记忆、数字人的描述,并开始规划一整天的任务。然后他们开始自上而下的方法,然后递归地生成一天中每一部分的更多细节。因此,他们的模型生成了数字人一天计划的粗略草图,分为五到八个块。然后递归地,这些块被细分为更多的块,然后递归地细分为 5 到 50 分钟的块,例如,下午 4 点吃点小吃,比如一块水果、一块格兰诺拉麦片棒或一些坚果。下午 4 点 5 分,在他的工作区周围散散步。这就是他们的计划的运作方式。当然,有反应和更新计划。

数字人在一个动作循环中运行,在每个时间点,他们感知周围的世界,并将这些感知到的观察结果存储在他们的记忆流中。他们用这些观察提示语言模型 ChatGPT,以决定代理是否应该继续他们现有的计划或做出反应。因此,上下文摘要是通过两个提示生成的,这两个提示通过查询检索记忆。观察者与被观察实体的关系是什么,被观察实体是被观察实体的动作状态及其回答汇总在一起。输出表明 John 可以考虑向 Eddy 询问他的音乐创作项目。那么所有这些是如何运作的呢?从结构化世界环境到自然语言,然后再返回,他们简要描述了他们的架构。为实现这一点,它们将沙盒环境区域和对象表示为树数据结构,树中的边表示包含关系。

他们发现数字人比人类角色扮演者表现得更好。尽管他们的系统非常有限并且非常局限,只有一天的记忆和其他东西,且仍然存在很多问题。比如著名的幻觉问题,在他们的游戏中也出现过。

环境是动态的和不断发展的。数字人可以影响彼此及其周围环境。例如,从1个数字人的想法开始,伊莎贝拉·罗德里格斯 (Isabella Rodriguez) 希望于2 月 14 日下午 5 点在 Hobbs 咖啡馆举办情人节派对,数字人在接下来的两天内自动向派对发出邀请,结识新朋友,互相邀请参加派对并协调在合适的时间一起出现在派对上。虽然有12名数字人通过其他人听说了派对,但只有五名数字人参加了。3个说太忙了,4个特工干脆不去了。这种体验是一个有趣的例子,说明虚拟世界中复杂的社交互动可能会出现意想不到的情况。

Isabella Rodriguez 情人节派对的传播路径

作者还讨论了伦理和社会影响。其中一个非常大的风险是人们与生成数字人建立准社会关系。即使这种关系可能不合适,这也是需要注意的非常重要的事情。尽管知道生成代理是计算实体,但用户可能会将它们拟人化或将人类情感附加到它们身上。为了减轻这种风险,他们提出了两个原则。首先,数字人应明确披露其作为虚拟实体的性质。其次,数字人的开发人员必须确保代理或底层语言模型在价值上保持一致,这样它们就不会从事在给定上下文的情况下不合适的行为。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-04-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 强人工智能之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档