2月26日,Google发布基础世界模型Genie。作为一个110亿参数的基础世界模型,Genie可以通过单张图像(包括合成图片、照片甚至草图)的提示生成可玩的交互式环境。
Genie定位基础世界模型,性能表现优异:Genie可以通过合成图像、照片、草图来生成一个虚拟世界,并使人们可以根据自己的要求与世界互动,因此Genie本质是一个基础世界模型,Google将其定义为生成式交互环境。Genie具有以下突出特点:1、用户可以通过各种方式提示模型,可以使用生成的图像或手绘草图。在每个时间点,Genie都可以采用用户提供的潜在动作来生成下一帧,产生具有有趣和多样化角色动作的轨迹。2、对具体的移动指令,Genie也生成了优秀的结果。在平台游戏的生成环境下,Genie能够精确地执行“左”、“右”、“跳跃”、“无操作”等基本指令。3、Genie可以判断场景中的哪些部分通常是可控的,还可以推断出在生成的环境中一致的各种潜在行为。因此可以在不同的提示图像中用相同的潜在操作产生相似的行为。4、Genie还可以在生成的过程中模拟视差,这是平台游戏中的常见功能,即当平台游戏的屏幕发生横移时,前景移动得更多,而背景只稍微移动。
生成式AI全新范式,未来发展空间大:Genie模型的训练包含了三个关键组件:1、潜动作模型(LAM),用于分析每两帧之间可能发生的动作?2、视频分词器,将视频的每一帧转换为一系列的离散符号?3、动态预测模型,根据之前的动作和帧token来预测视频的下一帧内容。我们认为,Genie为生成式AI定义了全新的范式,通过潜动作学习使用户交互成为可能,并且具有推断行动的能力。前期在平台游戏和机器人领域的学习有望推广到更广阔的领域,并利用更大的互联网数据集来进行学习,为培养适应多种环境的AI提供了一种全新的可能性,即成为一个能够跨领域且不需要额外专业知识的通用工具。
短期来看,受AI技术及海外催化影响,建议关注海外映射AI产业链的投资机会。经前期调整后,目前板块具有较高的安全边际。中长期来看,随着包括基础世界模型和视频生成模型在内的各种AI模型不断更新迭代,AI技术潜在的应用行业或将受益。建议重点关注游戏行业:完美世界(002624)、三七互娱(002555)、恺英网络(002517)等;影视/IP类行业:光线传媒(300251)、华策影视(300133)、上海电影(601595)、中文在线(300364)等。
领取专属 10元无门槛券
私享最新 技术干货