观点网讯:2月27日,谷歌发布名为Genie的新世界模型,该模型基于互联网视频训练,能从合成图像、照片、草图中生成多种动作可控的环境。
据谷歌介绍,Genie是一个拥有110亿参数的基础世界模型,通过推断生成环境中的潜在动作来交互。与强调视频真实性的Sora不同,Genie更注重潜在动作的预测。
谷歌展示的视频显示,Genie能根据单张图像生成背景变换、动作流畅的视频。
在世界模型领域,各家公司的路径不尽相同。Sora作为早期引起关注的模型,被OpenAI形容为世界模拟器的视频生成模型。关于Sora是否真正理解物理世界规律并具备世界模型属性仍存在争议。
与此同时,Meta发布了名为V-JEPA的模型,该模型能生成视频中被遮挡的部分。与Genie相似,V-JEPA也强调对“推测”的重视。通过自监督训练,V-JEPA能了解世界运作的知识。
领取专属 10元无门槛券
私享最新 技术干货