夕小瑶科技说 原创
作者 | 夕小瑶编辑部
国产AI视频生成赛道终于再添一员猛将。
这次,是笔者期待已久的AI大模型厂商——智谱!
就在今天,智谱AI CEO张鹏在智谱 Open Day上宣布,智谱清言正式上线AI视频生成功能——清影。
亲测在PC端、APP端和小程序端均能访问!
老规矩,先划重点:
无需预约,开箱即用
所有人可免费可用
API 发布,低至5毛钱/条视频
而且这一波,文生视频+图生视频一波上齐了,笔者第一时间在官网进行了测试。
放个视频给你们感受下:
提示词:特写镜头 + 柔和的自然光线 + 一只蓬松的橘色虎斑小猫(大大的蓝眼睛,粉色鼻子) + 顽皮地拍打着悬挂的玩具 + 在一个舒适的客厅里(柔软的地毯,舒适的沙发) + 充满童趣和温馨
生成速度非常快!输入提示词后,一条6秒时长的视频仅用30秒就生成好了,而且清晰度达1440 x 960。
更关键的是,可以免费无限次数使用。
ps:我们编辑部的小伙伴们今天已经玩疯了
笔者经过半天的玩耍,总结下来智谱清影的一些特点:
擅长生成动物、风景、人物等多种实体维度;
卡通3D、电影感、黑白老照片、皮克斯等多种风格都能拿捏;
具备强大的指令跟随能力,视频细节遵从度高;
此外,还提供了给生成的视频配乐的小功能。
话不多说,先来跟着笔者通过case直观感受下文生视频的表现——
Case1:好莱坞电影风
提示词:低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。好莱坞电影风
好莱坞科幻电影的即视感这不就来了嘛(虽然恐龙脚出现的时候有点小瑕疵
Case 2:动物镜头
提示词:写实描绘,近距离,猎豹卧在地上睡觉,身体微微起伏
从毛发细节、神态上来说,只能说,清影确实在训练阶段看过不少“豹片”。
Case 3:人物镜头
提示词:写实描绘,近距离,猎豹卧在地上睡觉,身体微微起伏
光影在人物脸上呈现的效果也是绝绝子。
Case 4:英文提示词+复杂指令测试
提示词:Two monkeys in ragged clothes are typing on a computer in a colorful room, their eyes moving exaggeratedly as if telling a humorous story. The room is filled with bizarre decorations and toys, creating a dreamlike atmosphere. The camera uses a whimsical and ethereal style, following the monkeys with a handheld shot to capture their comical movements, occasionally switching to slow motion to highlight their exaggerated expressions. The lighting features a contrast of warm and cool tones, enhancing the playfulness of the scene. The depth of field varies, sometimes focusing on the monkeys and sometimes on the computer screen, creating a light-hearted and humorous visual effect.
这是一段相对复杂的指令了,仔细看,指令跟随能力表现着实不错了。
再来看看图生视频的表现。
Case 5:让图片动起来
提示词:Little yellow duck toy floating on the water in the swimming pool, close-up
总结一下——
如果只用简单的提示词,能快速生成出来具备一定创意参考价值的视频,但视频中常常会有一些“反物理规律”的瑕疵(类Sora的生成式模型普遍会有这类问题)。
但如果配合上高级提示词技巧+抽卡大法,瑕疵问题能大大改善。
在智谱清影的背后,是智谱AI自研的视频生成模型 CogVideoX。
在讲技术前,笔者无意间发现CogVideoX模型的介绍文档里就有非常详细的文生视频“高级提示词指南”,这对于普通用户和开发者来说都有不错的指导意义。
这里节选其中一些提示词技巧:
提示词的精确度与细节水平直接影响视频内容的质量。
采用结构化提示词可以极大提升视频内容的符合度和专业性。
以下是构建提示词的关键组成部分:
提示词 = (镜头语言 +景别角度+ 光影) + 主体 (主体描述) + 主体运动 +场景 (场景描述) + (氛围)
...
文档中有非常详细的指导,这里就不展开了。
CogVideoX:清影背后的大模型
要聊CogVideoX,得从智谱对多模态技术的布局开始讲起。
早在2021年,智谱就在人工智能顶会NeurIPS’21上发表了文生图大模型CogView,这是智谱多模态系列产品的奠基模型。而后,智谱在CogView的基础上延伸,于2022年提出并开源了在业界颇具影响力的文生视频模型CogVideo,这项工作被Meta提出的 Make-A-Video、Google的 Phenaki 和 MAGVIT、微软的女娲 DragNUWA、英伟达的 Video LDMs 等视频生成模型所引用。
CogVideo论文链接:
简单来说,CogVideo基于CogView2模型冷启,沿用Transformer架构,结合了预训练模型、多帧率训练、双通道注意力和Swin Transformer的扩展等设计进行视频生成建模。
而CogVideoX,则是在CogVideo的基础上做了进一步系统性的优化,不仅生成效果更好,而且推理速度提升了6倍,实现了如今智谱清影仅用30s就能生成6秒视频的顺滑体验。
除此之外,笔者了解到,智谱的CogVideoX模型在用户指令遵循方面花了很大力气。智谱甚至专门自研了一个视频理解模型用于为视频数据生成高度吻合的文本描述,进而构建了海量的高质量视频文本对,使得训练出的模型指令遵循度高。
而指令遵循能力强大与否,是视频生成模型能在C端场景落地的重要条件。
逻辑也很简单,当下无论是文生图产品,还是文生视频产品,其对于用户端的重要价值在于提供创意参考。
而一个能帮助用户高效提供创意参考的前提是,模型能很好的理解并遵循用户的指令,之后才是视频生成的质量、时长、清晰度等其他因子,其余的就得交给“抽卡大法”了。
虽然从客观效果上来说,智谱清影跟Sora官方放出的case相比,还存在一定差距。
但做过算法的同学都知道,让模型效果变好的最佳方式就是快速构建出基线模型,上线,然后形成数据飞轮,让模型快速、无偏的去迭代进化。
从这一点上来说,智谱AI选择直接免费开放、人人可用,甚至将API以低至5毛钱的定价开放出去,无疑是一个明智的选择。
而从我们普通用户、开发者的角度来说,更是妥妥的利好了——
视频生成模型的访问门槛终于被智谱打下来了。
领取专属 10元无门槛券
私享最新 技术干货