首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

上银基金:继续看好AI板块接下来的表现

视频是娱乐的核心,每个人都渴望成为自己故事的梦境导演。然而,制作高质量视频的过程仍然复杂且需要大量资源。有没有一款为非创意专业人士量身定制的视频生成工具,让普通人也能轻松创作并成为自己故事的导演呢?

最近市面上涌现了许多AI生成视频工具,这些工具将AI大模型的能力从语言拓展到图片,再拓展到视频,能够生成和编辑各种风格的视频,如3D动画、动漫、卡通和电影。此外,使用起来也更加简单,例如允许用户上传自己的视频片段,并使用生成式AI来编辑和重新构想场景。

此外,新的模型还能对生成内容进行更精细的编辑和控制,比如调整视频宽高比和视角、换装、增减物品(比如给机器人戴上墨镜)等。随着技术的发展,未来每个人都可能成为自己故事的导演,并激发出我们每个人的创造力。

从技术趋势上分析,AI大模型正在走一条从文字到语言到图片到视频再到终端硬件的路径。目前,大语言模型的技术路径已经收敛,基本就是GPT这一条路,而在涉及到图片和视频的多模态技术方面,目前没有一家公司处于绝对领先地位,技术路径仍存在探索的可能。AI视频的生成面临流畅性、帧生成逻辑、协调性等问题。也就是模型需要生成每一帧发生的事情,而用户的prompt往往非常简略,无法像图像生成一样为每一帧提供详细的描述。种种原因都导致了目前AI视频生成技术仍无法做到非常完美,技术路线也多种多样。

语言作为一种精炼的表述载体,可以对物理世界进行抽象描述,例如文生图和文生视频中,用户都可以用简短的一句话或者几句话来对想要生成的图像或视频进行描述。但是从承载的信息量来讲,语言所能承载的信息是远远不及图像和视频的。而多模态的数据例如图像、视频、音频、振动等信息则更能反映出物理世界的真实属性,是真正对于物理世界状态的感知,与人类感知世界的方式更加接近。未来的多模态模型将能够真正实现对世界状态的完整感知,也因此具备更多的应用场景。

从技术突破的角度来看,现阶段大语言模型的竞争已经非常激烈,下一阶段的重点攻克方向必然是多模态技术。能够真正处理和应用好多模态AI能力是打通物理世界和数字世界的障壁的第一步,用最基础的感知世界能力直接生成操作,实现与物理世界最自然的交互。AI视频生成仅仅是多模态技术路径中的一个小方向,多模态领域的ChatGPT时刻还未到来。

在投资方面,近期文生视频模型的出圈使得我们继续看好AI板块接下来的表现。在多模态模型应用场景上,具备良好布局和卡位的公司值得关注。同时可以关注多模态模型对AIPC、机器人等硬件终端的带动。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O_Jk13DqPaSathOMY6XsdcJA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券