前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >智谱AI上线4K60帧"新清影",还要直接开源,我觉得他们疯了。

智谱AI上线4K60帧"新清影",还要直接开源,我觉得他们疯了。

作者头像
数字生命卡兹克
发布于 2025-04-14 12:29:18
发布于 2025-04-14 12:29:18
920
举报

就在刚刚,智谱宣布全新迭代的AI视频模型“新清影”,正式上线。

10s、4k、60帧,还能自带生成挺匹配的AI音效。

视频模型已经上线智谱清言上,人人可用。音效模型这个月也即将上线。

这个点,其实还好,就是线上模型迭代升级了一版而已。

但是最牛逼的是,他们直接宣布,把这个“新清影”背后的底层模型,也就是CogVideoX v1.5,直接开源了。。。

我觉得他们疯了,真的。

上上周发类似GPT4o那种端到端的语音对话模型也是,直接发布即开源。

真的,智谱给我整不会了。

周二才夸过腾讯混元,开源了他们参数最大的MoE模型混元Large和AI 3D模型Hunyuan3D-1.0。

现在智谱直接接力,直接开源了他们内部效果最好的AI视频模型。

还是那句话,对于每一个愿意开源,让社会、让开源社区,百尺竿头更进一步的公司。我都永远报以最崇高的敬意,和最大的善意。

CogVideoX v1.5我也第一时间去测试了一下。

开源地址在此:https://github.com/thudm/cogvideo

普通用户也可以去智谱清影上玩。

我放一些我自己跑的case吧。

非常坦率的讲,智谱的新清影,跟上一代比,已经进步巨大了。

不管是审美、还是动作幅度、还是物理规律、还是稳定程度。

真的,上一代的人物变形变得我到现在都还记忆犹新。

但是如果你要把他跟业界最好的比,比如你跟豆包PixelDance比分镜比运镜,那肯定还是差了一定距离的。

毕竟这一版的新清影,在版本号上,还是一个折中的阶段,也就是CogVideoX v1.5,而且他们进步速度还是飞快的。

当时8月也是第一个把生视频全面公开让c端来玩的,说实话也勇气可嘉。

而且我问了一下内部人,参数量更大更新更强的模型正在训练,如果等过两个月CogVideoX v2.0阶段,可能又会来一波进化的飞跃。

当然,不管怎么样,智谱敢把新清影发布即开源,就凭这点,我赞智谱一声勇士。

上一次他们开源CogVideoX,直接给开源社区贡献了一波大力。

一群老外直接玩的飞起。

比如微调一个自己的视频模型。

比如微调一个室内设计的专属视频模型。

等等等等。

AI绘图的开源生态已经被玩出花了,但是AI视频的生态,确实还是非常的贫瘠,不管是配套插件,还是微调方式,还是模型数量等等,都还远远处于起步阶段。

希望这一波新清影CogVideoX v1.5的开源,能让AI视频的开源社区和生态,继续沸腾一次。

除了CogVideoX v1.5的开源之外,还有另一个东西我觉得非常值得说,虽然它还没有上线,但是在这次的demo里一窥了真容。

就是智谱的AI音效模型。

智谱可能是我知道的,唯一一个,什么模态都做的,关键,每个模特居然做的都还不错。

我真的,尊称一声模型法王。

给你们数一下。

文本生成 - GLM

图像生成 - CogView

视频生成 - CogVideoX

音效生成 - CogSound

音乐生成 - CogMusic

端对端语音 - GLM-4-Voice

自主代理 - AutoGLM

图像理解 - CogVLM

...

这些,还不包括代码生成、图片理解、视频理解等等。。。

我只能说一句佩服。

说回智谱的这个AI音效模型。

通俗的理解,就是给一段视频,配上音效。

我先放两个case,这两case都是清影生的视频,然后用他们的AI音效模型CogSound配音。

这小音效还是挺适配的。也可以传一段现有的视频素材进去。

比如这是我很喜欢的一部电影《妖猫传》里的经典镜头,而这次,整段音效,都是我把视频片段扔给智谱后,他们配的。

感觉非常好,甚至最后的烟花爆炸的声音,都跟烟花爆炸的那一刻,精准的对上了。

我之前在11Labs的AI音效评测中也说过,音效设计,一直是一个非常重要、难度极高但又容易被大家忽视的领域。

一部片子或者游戏能让你沉浸进去,你可能更多的会夸他的剧情、画面、配乐,但是很少有人会去夸他的音效,比如夸你这个关门声关的真真实等等。

但是音效,是沉浸感中绝对重要的一环,而做一个优秀的音效,有时候难度更是超高,比如《哥斯拉》里面经典的吼声。

制作团队用了很多种方法去做哥斯拉的吼,比如用干冰升华时在金属通风管道中造成的震动和尖叫制作出了哥斯拉金属质感的长啸,比如他们在抛光过的地板上用大木箱拖动,拖出了那一阵阵令人毛骨悚然的胸腔共鸣。

这才有了这史上最著名的怪兽的惊鸿一瞥。

现在,你可以用智谱的AI音效,生成一段哥斯拉的吼声。

质感上肯定跟原版那种极致的特斯拉还差了一些,但是也是极好的开头。

音效,真的很重要。而AI音效的产品,其实从今年3月,就出来了不少的。但是都有一个问题。

就是他们的AI音效设计,是直接用文字生成音频的。

比如PIKA很早的时候就做了生成的AI视频自带音效。

但是跟画面的匹配度,其实极低。因为是纯粹的文字生成音效后,再直接把这个音效音轨给你拼到视频里,至于合不合拍,那就纯靠人品,比随机还随机。

但是智谱这次的做法,非常的有趣。

他们是先把视频过一遍他们自己的视频理解模型,然后得到画面关键信息,再用画面关键信息和prompt,去生成音效模型。

这样的做法,音效和画面的匹配度,就实在是高太多太多了。

为啥别人家不这么做呢?废话,因为别人家没有视频理解模型啊...

智谱的全模态模型的生态,虽然之前都是一个一个小点,但是我有一种感觉,就是未来的某一天,这些小点会逐渐连成线,结成网,最后形成一道坚不可摧的巨大的面。

这可能,就是生态的优势吧。

穷则独善其身,达则兼济天下。

我爱每一个愿意开源的公司。

当OpenAI变成CloseAI。

智谱接过了那个Open的大旗。

然后高喊出那一句。

China,No.1!

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数字生命卡兹克 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
告别“默片”时代!智谱新清影正式发布,生成 10 秒 4K60 帧 AI 视频
大家好,我是猫头虎!今天给大家带来一条劲爆消息,智谱技术团队的最新大招——新清影,一款支持4K超清视频生成并自带音效的AI视频生成神器正式发布!本次升级让 AI 视频生成不再局限于“无声电影”,从此视频不仅有“画”还有“声”!👀📽️
猫头虎
2024/11/11
3020
告别“默片”时代!智谱新清影正式发布,生成 10 秒 4K60 帧 AI 视频
全面升级的“新清影”,给AI生成视频带来了哪些新玩法?
就在刚刚,智谱清言App上线了“新清影”,同时对外开源了智谱最新的图生视频模型CogVideoX v1.5。
Alter聊科技
2024/11/08
1810
智谱AI刚刚把他们的Sora「清影」,正式开源了,我爱他们。
起因是我睡觉之前,在看Github的时候,无意间看到THUKEG这个号,更新了一个项目。
数字生命卡兹克
2025/04/14
1300
智谱AI刚刚把他们的Sora「清影」,正式开源了,我爱他们。
智谱开源AI绘图CogView4,曾经的开源之光回来了。
上周DeepSeek连续5天开源硬核技术,阿里开源万相2.1,Qwen的推理模型推出预览版,但是肯定马上也要开源。
数字生命卡兹克
2025/04/14
1040
智谱开源AI绘图CogView4,曾经的开源之光回来了。
视频生成赛道再添「猛将」,智谱清影正式上线
年初 Sora 横空出世,验证了 Scalling Law 在视频生成方面的有效性。但 Sora 始终止步于公开的 60 秒 demo,产品落地计划迟迟未有公开。
AI科技评论
2024/07/29
2500
视频生成赛道再添「猛将」,智谱清影正式上线
智谱AI再放“大招”,30秒将任意文字生成视频
7月26日的智谱Open Day上,在大模型赛道上动作频频的智谱AI,正式推出视频生成模型CogVideoX,并放出了两个“大招”:
Alter聊科技
2024/07/26
1820
智谱AI再放“大招”,30秒将任意文字生成视频
智谱AI大模型免费开放:开启AI创作新时代
智谱AI作为国内人工智能领域的领军企业,一直致力于认知智能大模型的研发。大模型,即大型语言模型(Large Language Model,LLM),是近年来人工智能领域的重要突破。通过海量数据的训练,大模型能够理解和生成自然语言,具备强大的语言理解和生成能力,在文本创作、信息归纳、问答对话等方面展现出惊人的表现。
正在走向自律
2025/04/19
2900
智谱AI大模型免费开放:开启AI创作新时代
智谱「清影」同源模型 CogVideoX开源
从快手可灵风靡全球,到luma AI、runway等相继发布最新的图生视频,AI视频赛道愈发的内卷。
AIGC新知
2024/10/08
1670
智谱「清影」同源模型 CogVideoX开源
DeepSeek开源周之后,智谱开源年No.1|AI绘画CogView4
前不久DeepSeek惊天地泣鬼神的开源周连续5天,每天一个重磅模型,直接把整个开源社区都点燃了。
一臻AI
2025/03/17
1040
DeepSeek开源周之后,智谱开源年No.1|AI绘画CogView4
智谱 AI 版Sora“清影”全量开放,官方附带发布提示词撰写智能体,30 秒即可快速生成
智谱 AI 于26日OpenDay宣布正式推出新一代AI视频生成产品 ——CogVideoX。
AIGC新知
2024/10/08
5220
智谱 AI 版Sora“清影”全量开放,官方附带发布提示词撰写智能体,30 秒即可快速生成
智谱AI静悄悄的上线了一大波新模型,过年了,真的。
我真的服了,我本来今天从泰国回来,准备休一天假的,结果晚上又坐在电脑面前被迫营业。
数字生命卡兹克
2025/04/14
650
智谱AI静悄悄的上线了一大波新模型,过年了,真的。
智谱AI发布了类GPT4o的视频通话功能,现在可以和AI无缝交流了
在语言解析、指令执行和长篇幅文本处理上实现了显著的性能飞跃,确立了其在全球AI领域的领先地位。
AIGC新知
2024/10/08
1800
智谱AI发布了类GPT4o的视频通话功能,现在可以和AI无缝交流了
用行动回应“实体清单”,智谱发布了一系列新模型
1月15日晚间,美国商务部工业和安全局(BIS)修订了《出口管制条例》(EAR),以安全为由在实体清单中分两批增加了25个中国实体。
Alter聊科技
2025/01/16
1680
用行动回应“实体清单”,智谱发布了一系列新模型
看过智谱现场演示,我觉得AI要开始卷“动手能力”了
仅仅是几个KOL的评测文章,Manus就被捧上了神坛,邀请码被炒到上万元,淋漓尽致的诠释了用户对AI Agent的热忱。
Alter聊科技
2025/03/31
1140
2024的最后一天,由智谱AI新上线的o1为这一年划上句点。
2024年的最后一天本来我想划水过的,提前给自己放假,结果现在被迫深夜加班。。。我想睡觉。。。
数字生命卡兹克
2025/04/14
530
2024的最后一天,由智谱AI新上线的o1为这一年划上句点。
独家对话智谱:开源的大模型越来越多,但智谱选择慢慢来
作为当前国内最受欢迎的开源大模型之一,智谱AI开源非常早,是国内大模型的开源先锋。
AI科技评论
2023/11/22
2.7K0
独家对话智谱:开源的大模型越来越多,但智谱选择慢慢来
始智AI-wisemodel社区正式上线,目标打造中国版“HuggingFace”
始智AI团队打造的中立开放AI开源社区平台(wisemodel.cn)正式上线,欢迎大家注册使用。我们的目标是要打造中国版“HuggingFace”,汇聚国内外常用的开源AI模型和数据集等资源,建设中立开放的AI开源创新平台。清华/智谱chatglm2-6B、Stable Diffusion V1.5、alphafold2、seamless m4t large等模型,以及shareGPT、ultrachat、moss-sft等数据集均已上线,欢迎大家使用。
大数据文摘
2023/09/09
7630
始智AI-wisemodel社区正式上线,目标打造中国版“HuggingFace”
智谱 AI 狂飙:与商业化博弈的一年
2023 年 12 月 AI 科技评论在搜狐网络大厦见到智谱AI COO 张帆时,张帆如是说。
AI科技评论
2024/03/18
4820
智谱 AI 狂飙:与商业化博弈的一年
智谱AI深夜上线全新Agent GLM-PC,再见仍是巅峰。
2024年10月25日,智谱在CNCC发布了第一款手机自主人工智能,AutoGLM,直接在行业内和金融市场上掀起了风暴。
数字生命卡兹克
2025/04/14
760
智谱AI深夜上线全新Agent GLM-PC,再见仍是巅峰。
智谱AI开源国产版Sora——CogVideoX-2b本地部署实践教程
智谱AI在8月6日宣布了一个令人兴奋的消息:他们开源了视频生成模型CogVideoX,目前,其提示词上限为 226 个 token,视频长度为 6 秒,帧率为 8 帧 / 秒,视频分辨率为 720*480,而这仅仅是初代,性能更强参数量更大的模型正在路上。
中杯可乐多加冰
2024/08/13
7380
推荐阅读
相关推荐
告别“默片”时代!智谱新清影正式发布,生成 10 秒 4K60 帧 AI 视频
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档