首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

国产视频大模型PixVerse发布运动笔刷,网友:效果超Runway

不卷Demo,卷产品。

在AI图生视频场景,有一个常见的痛点:仅靠提示词难以达到预期效果,可控性不佳,而且运动方式经常不符合物理规律。

近期,一个名为“Magic Brush运动笔刷”的工具因为很好地解决了该痛点而在AI视频社区走红。

它堪比“神笔马良”,只需寥寥数笔,就能让马斯克对你连连点头:

让哈利·波特挥动魔杖,画圈施法:

让大鱼腾空而起,捕食小鱼:

这款工具来自爱诗科技的PixVerse,在图生视频过程中,用户可通过Magic Brush涂抹区域和绘制轨迹,精确控制视频元素的运动方式,像修图一样修视频。

视频大模型领头羊Runway在2023年11月首次发布了Motion Brush运动笔刷功能,爱诗科技是Runway后首家发布类似功能的AI视频生成公司,且从大量用户实测案例中我们看到,PixVerse的运动笔刷功能要比Runway的灵活性与可控性效果更好,既可以一键智能选区,还能自由绘制运动轨迹。

知名AI艺术家达斯汀·好莱坞(Dustin Hollywood)在X上发文表示:“Runway已被PixVerse超越,失去了其领先地位。现在你通过PixVerse的运动笔刷,就能让物体弹跳起来。在当前的AI视频制作中,运动笔刷工具至关重要。”

产品&模型设计师、独立开发者歸藏也表示:“PixVerse发布了自己的运动笔刷功能,产品的可用性上升了一大截。他们甚至可以通过手绘箭头自定义每个元素的运动方向和距离,比 Runway 的滑块更方便和直观。

在AI视频生成行业普遍卷Demo、卷生成时长的当下,爱诗科技的PixVerse已经率先朝着AI视频生成的产品实用性方向发力。

1.像修图一样修视频

如果没有亲自上手体验过AI视频生成,可能对于运动笔刷的功能没有直观的感受。但对于用过视频大模型的用户而言,就知道这个功能对于控制视频生成质量有多“香”了。

所以,先看一下Magic Brush运动笔刷的直观效果。(部分取自外网用户发布的实测案例)

多主体的运动控制:分别控制火车与烟的不同运动方向:

桌子上有四个彩球,通过四个箭头的指令来让彩球朝着不同的方向移动。一次最多选定6个目标对象:

即使是同样的运动方向,也可以通过绘制更长的箭头,让左边的汽车移动地更快。

顺应物理规律,视频效果生动自然:火箭发射时,通过上下左右四个箭头,让火箭升空的同时,底部的云彩随着火箭升空而四散开来:

通过箭头的大小来控制水流的不同的流速,瀑布倾泻而下,水流缓缓向前:

基于画面含义理解笔刷,具有故事感:在一个太空场景,通过上下、左右移动箭头,让宇航员随着宇宙飞船的升空而挥手,同时远景处的地球在下降:

更灵活的笔刷指令:在一个晾晒衣服的场景,通过画S形态的箭头,让衣服随风飘荡:

分别控制主体与背景:在宇宙飞船的航行场景,通过刷遍整个背景,让宇宙飞船朝着相反的方向形成更强烈的运动感:

我们能明显看到 PixVerse 运动笔刷的几大优势:

一次最多使用6个笔刷,可以满足复杂运动的创作需求;

笔刷具备AI自动识别能力,帮助用户筛选运动对象;

相比于Runway的运动笔刷只能调整方向,PixVerse可以手绘运动轨迹,灵活性和可控性维度更高。

深度理解物理规律与画面场景,确保视频效果贴近自然效果。

此功能大大提高了视频生成的用户体验和实际效果,能够满足专业创作者在视频制作中的高标准需求。

2.官方解读技术路径

在6月14日智源大会上,爱诗科技CEO王长虎受邀为大模型产业技术论坛做主旨演讲,介绍了PixVerse背后的核心技术。

在2023年爱诗科技成立之初,公司采用过Diffusion+Unet架构的技术路线,这是在Sora出现之前一种主流的文生图、文生视频模型生成路线。这个过程可以想象成将一滴墨水滴入水中,墨水逐渐扩散,而Diffusion模型需要学会如何将墨水从水中重新提取出来。

Unet架构在降低复杂度与保留细节度之间做到了很好的平衡,提升了模型的计算效率,模型的算力需求不会太高。但另一方面,如果要想模型越来越聪明,加入的参数越来越多,图像或指令变得越来越复杂,Unet架构很容易陷入性能瓶颈,面临扩展性问题。

因此,爱诗科技也尝试了Diffusion+Transformer(DiT)架构,通过Scaling Law的方式来提升模型的性能。Sora的出现验证了爱诗的早期判断正确。

不过,爱诗科技并没有止步于此。除了DiT路线之外,也在探索自回归路线在文生视频模型的潜力。自回归路线的代表模型,是谷歌去年12月发布的VideoPoet模型,但没有开源,也没有产品化,只有一篇论文。

王长虎表示:“爱诗科技不会局限在一种技术路线,未来会多种技术路线共同探索,一方面用Transformer路线进一步提升基座模型能力,并加入可控生成技术;另一方面会持续探索自回归路线,增强时空建模,并建立各个模态间统一范式。”

爱诗科技CEO王长虎在智源大会上的演讲,图片由甲子光年现场拍摄

除了最底层的视频生成路线,王长虎还着重分享了视频可控性的核心技术。

首先是角色一致性(C2V,Character to Video)的功能,此前业内一般有两种技术手段——LoRa与Adapter,但两者都不够完美。LoRA的优点在于保真度高,但每个ID都需要重复训练;Adapter的优点是只需要训练一次,成本较低,但生成质量上限没有LoRA高,图片的美学质量偏低。

为了克服这些限制,爱诗科技综合两者的优点,设计了一种基于新的结构,不仅保留了LoRA的优点,还通过添加特定的模块来提升图片的保真度和美学性。

王长虎表示:“无论从主观对比还是客观数据,我们的新结构在多个方面都优于传统的LoRA和Adapter方法。”

爱诗科技CEO王长虎在智源大会上的演讲,图片由甲子光年现场拍摄

第二个技术创新点是运动笔刷。如何控制视频中运动的物体一直是文生视频领域的重点研究方向,但目前业内的方法都较难实现很高的精准度。

比如此前快手、浙江大学、新加坡国立大学联开源的工具DragAnything,通过controlnet+SVD(Stable Video Diffusion)+多条件注入,但是难以实现局部运动控制,同时背景难以稳定。

东京大学与腾讯AILab发布的MOFA-Video使用各种额外的可控信号(例如人体地标landmarks参考、手动轨迹,甚至提供的另一个视频)或它们的组合从给定图像生成视频。但这一模型流程复杂(SVD+controlNet+S2D),也无法对物体进行精准的控制。

针对业内尚未解决得好的问题,爱诗科技提出了一种新的算法:MagicBrush网络结构。

王长虎表示:“一方面在交互层面做了创新,让用户可以更方便地控制画面的运动;第二是模型的架构大大简化,不需要做controlnet注入SVD,只需要做一个预处理+Encoder,再经过一个预先训练好的模型就可以。总结来说就是简洁+高效。”

爱诗科技CEO王长虎在智源大会上的演讲,图片由甲子光年现场拍摄

王长虎认为,未来视频生成领域需要突破的技术重点是更符合物理规律的运动、长时长且精确的视频生成、多镜头场景生成、实时生成、端云协同等。

3.聚焦用户痛点,解决实际需求

最近的文生视频大模型赛道,有点儿“卷”。

在年初OpenAI发布Sora的第二周,「甲子光年」曾梳理了国内文生视频的主要玩家。近期,海内外又有一波文生视频大模型密集发布,包括快手的可灵视频大模型、极佳科技视界一粟YiSu美图奇想大模型、Luma AI dream-machine大模型等,文生视频的“百模大战”仍在持续。

相比于各种“超越Sora”式的宣传,爱诗科技的Magic Brush运动笔刷功能非常务实,真正解决用户实际创作场景遇到的问题。这正是爱诗科技自己的节奏。

在产品功能的迭代上,爱诗科技优先选择用户需求最大的痛点,而非市场噱头,目标是提供每个人都能使用、且满足真实需求的产品。

4月,PixVerse推出C2V功能,用户能够创作并锁定角色,实现连续、可控的视频生成,避免出现“上一秒是梁朝伟、下一秒是刘德华”的情况。

5月,PixVerse正式上线Magic Brush运动笔刷功能,已在外网掀起试玩热潮。

如此聚焦需求,用户自然就会用脚投票。

目前,根据权威第三方数据网站similarweb统计,爱诗科技的PixVerse与国际头部视频生成产品Runway和Pika的用户规模处于同等量级。除了访问量,PixVerse的访问时长、频次和留存都比Pika好,平均停留时长是Pika的两倍多。同时,国内所有同类型视频生成产品加起来的访问量大约是PixVerse的三分之一。

图片来自similarweb,数据取自文章发布当日

今天,我们应该如何衡量一款视频大模型的好坏?

在半年前,可以是Demo;在三个月前,可以是视频时长;而现在,当很多用户对于AI视频生成尝鲜的新鲜感褪去之后,踏踏实实解决好用户的痛点,回归做产品的本源,才会真正构建长久的竞争力。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OLM-klSyCQNv4gxHjsDoqB7g0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券