Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >中国版的Sora还需要多久?

中国版的Sora还需要多久?

作者头像
matinal
发布于 2024-04-07 00:05:10
发布于 2024-04-07 00:05:10
4030
举报
文章被收录于专栏:SAP TechnicalSAP Technical

近日,一款名为Kimi的国产大模型在资本市场上引起了广泛关注,成为了AI领域的新星。Kimi,由国内AI创业公司月之暗面科技有限公司(Moonshot AI)开发,凭借其卓越的长文本处理能力和丰富的应用场景,迅速在AI对话助手市场中脱颖而出。

  Kimi chat是国内AI创业公司月之暗面在2023年10月推出的一款AI长文本处理应用。今年3月,Kimi宣布自己可以处理200万字无损上下文。

  2024年一季度结束。在以ChatGPT为起点的AI风潮席卷世界一年后,全球生成式AI应用加速发展,盘点一季度资本市场最“出圈”的AI应用,当属文生视频赛道上的Sora。

  2月16日凌晨,开发出ChatGPT的OpenAI团队突然在官网发布了自己的首个文生视频大模型:Sora。

  在OpenAI一口气放出的48个示例视频中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

  特斯拉CEO马斯克也为此惊叹,他在社交媒体上说到 “gg humans”。360创始人周鸿祎则发微博称:sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。

  相比在2022年Chatgpt发布后中国科技公司都争先在AI文生文赛道上抢占先机不同,截至目前,只有少数国内初创公司 “站出来”表示要做文生视频大模型。

  3月5日,文生视频创业公司——七火山发布了其结合Sora路线迭代的Etna文生视频模型,并在发布会现场对生成效果进行了展示。公司CTO黄礼强对媒体表示,借鉴Sora技术迭代开发的Etna模型,在性能上有显著提升,“视频时长延长至8-15秒,且每秒帧数高达60帧。“

  3月19日,AI芯片初创公司中昊芯英与某上市公司合作伙伴共同发布“文生视频大模型”。研发团队利用一个包含5.8亿个视频片段的数据库,最新研发视频生成模型V-Gen,通过逐步注入细节和运动信息,将静态图像转化为动态视频、

  据统计,Chatgpt发布后,中国八个月内就诞生了238个大模型,平均每隔一天就会官宣一个新的大模型。

  相比于Chatgpt火爆不到一个月的时间里,阿里、华为、腾讯、京东、字节、360、商汤、科大讯飞等一众大厂纷纷下场,或官宣入场或亮相大模型。

  这次sora的亮相后,中国的大厂出现了集体失声。

对开源的等待

  面对这份沉默,清华大学新闻学院教授、博士生导师沈阳认为主要是实力差距太大,以及对方没有开源。

  OpenAI是一家闭源的机构,即不公开其大模型的架构、硬件平台、训练计算方法和数据集等方面的细节。

  沈阳告诉《新浪蜂鸟》,中国大部分AIGC领域的算法主要还是靠美国的一些公司开源。“美国公司开源算法了之后,我们就能拉齐水平,但Sora并不开源,所以领先的部分我们很难在短期内知道,从这个角度上来说,中美之间的技术差距是动态的,例如OpenAI发布新版本差距就拉大了,在发布前,我们又能追的稍微近一点。”

  浙江大学计算机博士,人工智能算法专家傅聪持相同观点。

  傅聪告诉《新浪蜂鸟》:在算法领域,一些世界顶级学术会议如ICCV(计算机视觉国际大会)会把一些比较领先的技术方案,以论文的形式呈现出来,与此同时,大部分高质量的论文还会直接提供它们的代码实现。

  “例如人们普遍认为Sora是基于DIT模型的一个进阶版本,而DIT模型是2023年ICCV会议上面的一篇基础论文。这些公开的技术资料,可以让科研团队在OpenAI把模型开源出来之前,摸索到他们可能的技术路线。 ” 傅聪说道。

永远是刚需的算力

  OpenAI成立于2015年,在大模型领域的技术积累和投入已长达近9年,而国内起步仅2年。

  在中国马不停蹄追赶过程中,OpenAI还在源源不断地向大模型输送资金、顶尖人才和高质量数据。

  Sora公布后,OpenAI的CEO山姆·奥特曼透露,他正在计划筹集7万亿美元重塑全球半导体行业,以支持Sora的发展。

  百川智能创始人、CEO王小川在去年的一个大会上提到,他在硅谷调研中了解到,OpenAI正在尝试把1000万块GPU连在一起训练一个大规模的模型。

  王小川对此感到十分震惊,“英伟达一年大概生产100万块GPU,训练GPT-4要2.5万块,国内对标GPT-3.5训练需要4000块。要中国拿出1000万块GPU去训练大模型,目前从资源层面还远远达不到”。

  “算力确实是实现赶超的一个瓶颈。算力主要决定了科研的试错成本。” 傅聪说。

  通常在科研领域想到一个新想法,并不是迅速就能落地,而需要大量的尝试,但是如果试错的成本很高的话,追赶速度就会比较慢,“OpenAI确实拥有大量的英伟达提供的高端芯片“傅聪解释到。

  如果没有高端芯片,我们只能寄希望于开源公司公布出试错经验。

  “像Meta这样的公司,还是在坚持走开源的道路。与此同时,他们会把试错的经验公布出来。在学术圈里我们能看到一个现象,开源的热度在不断提升,意味着资料的公开性和透明化是越来越高的。”

  好处显而易见。“我们会省去很多试错的成本,这样的话,即使使用相对来说比较‘低端’的芯片,我们也可以突破一些核心的技术点。” 傅聪说道。

  我们国内的AIGC大模型,究竟在使用什么芯片?

  “关于阿里的通义千问,百度的文心一言,这些商业企业拥有什么类型的芯片,以及它实际搭载在模型上,真正使用的是什么芯片,其实都属于企业的非公开商业机密。”傅聪说道。

  但是,从一些已有的公开信息推测出,这些企业使用的可能是 A100、A800、A30、V100等芯片。

  差距到底有多大?OpenAI的首席执行官奥特曼在接受英国《金融时报》采访时曾透露过,说OpenAI购买了大量的英伟达H100 芯片。

  “奥特曼所说的H100芯片,对比国内企业在用的A100等芯片,在训练某些大型AI模型时的效率至少高了1个数量级(10倍),”傅聪说道。

视觉形态语言数据的投入缺失

  除了芯片所提供的强大算力,对于AIGC语言模型来说,数据的品质直接影响了模型训练的成效。

  目前,大模型训练数据主要来自于公开的文档、资料和数据。总体来说,这些初级加工的数据多数为英语,占据主流地位,从数据质量来看,由于国内在数据产业的投入和精细化程度不足,导致了中文语料不仅少且能用得也不多的现状。

  对这一现象的原因傅聪认为OpenAI使用的训练数据集中的一部分有重金投入,这部分数据通过人力进行标注,而且标注的精细程度非常高,这是OpenAI长期与Scale AI这样的专门数据标注公司深度合作、共同迭代的成果。

  国内的中文语料库虽然很庞大,但是在这之中,符合大语言模型需求的高质量文本,以及带有针对性标注的文本数量,都是远远不够的。

  对于数据的品质,傅聪以国内的文生图的一个经典例子举例,文本输入“驴肉火烧”,生成的是几头驴围坐在一个篝火边。

  “文生图领域,除了需要高质量的纯图片数据集以外,还需要特定的文字和图片配对,形成高质量且庞大的数据集去继续训练模型。”傅聪表示。

  对于“驴肉火烧”这个概念,它是要把驴当做一个孤立的概念去理解?还是把“驴肉火烧”当做一个整体去理解?这主要是依赖于语言模型的建模能力。如果训练数据里大量都是关于驴的文字、图片和视频,很少出现“驴肉火烧”这个整体。那么,训练出来的模型,就无法理解“驴肉火烧”这个整体概念,更加不能生成相对应的图片。

  不过总的来看,傅聪表示“驴肉火烧”其实是一个个例。对于大模型的评估,我们需要在大量的评测级上进行系统的评测,最后得到一个统计性结果。

  对于中国应如何构建高质量和庞大的中文数据集来实现与OpenAI媲美的AIGC大模型,傅聪表示可以借鉴OpenAI的模式,让从事大模型开发的团队和数据标注公司进行深度合作。国内其实也有一些专门做数据标注的公司,例如海天瑞声等,但他们以往从事的标注业务方向,与大模型训练数据的需求还有一定距离。

  Sora出现以后,视觉形态的数据标注可能又会成为一种新的需求。这些数据标注公司需要和从事相关模型开发的团队或公司深入合作才有可能满足这些需求。

  此外,大公司也可以依赖自己的标注团队的人力,迭代完成这些工作。

人才储备不足

  人才储备不足是中国企业失声的另一个原因。

  在傅聪看来,在AIGC的人才储备方面,国内并不是人才质量不高,其实在很多学术大会上都能看到中国科学家的身影。“主要还是人才在AIGC细分赛道的时间投入不足。“中国的高端学术、工业人才,开始注意并投入到AIGC的各个细分赛道,大部分是从ChatGPT和MidJourney这样的明星公司引起了全世界范围的关注时开始的。从这个时间节点算起,大规模的人才储备到目前为止只有不到两年时间。OpenAI在大模型这个领域投入了近七年的时间,他们比我们多走了很多路,经历了无数次试错才取得了今天的成就。”

  “这些路我们是一定要趟过去的,这些成本是省不掉的。”傅聪说。

  在未来,不论是企业和高校,傅聪表示相信都会持续加大AIGC相关领域投入,这些投入也可以通过国内相关领域顶级论文的投稿量,以及企业相关岗位的招聘趋势反映出来。

中国版的sora还需要多久?

  中国需要多久才能出现与Sora相媲美的文生视频大模型?

  沈阳认为如果美国开源了文生视频的大模型,中国做“追随性产品”的难度就不大了,能“很快”出现这样的大模型。

  但是如果从0到1的基座大模型要跟OpenAI去PK的话,从短期来看不太现实。“我们在算力方面的瓶颈短期内不太可能弥补。”沈阳表示。

  傅聪认为会有一个比较大的浮动区间,在半年到两年之间能够实现。

  他表示如果国内的研究人员在stable diffusion技术的基础上,积累一些研究成果和视频数据,是能比较快地从OpenAI的技术报告中找到一些较好的方向,实现加速追赶。

  此外,从外界对Sora的技术框架的猜测来看,普遍认为目前Sora的参数规模可能只有几十亿,对比几千甚至上万亿参数规模的超大模型GPT4,Sora的模型规模显然要小得多。而更小的参数规模,就意味着可以通过更小的算力,实现更快速的试错。

  如果研究人员的成果积累和对数据的理解,已经达到了DIT的水平,那么可能半年就能追上,反之,可能需要两年,傅聪认为。

  对话的最后,两位人工智能即算法专家沈阳和人工智能算法专家傅聪都对Sora的未来表示期待。

  从OpenAI目前所公布的信息来看,Sora的野心不只是一个简单的视频生成器,而是“构建通用物理世界模拟器的一条有前景的道路”。

  “我们人工智能学界一直有一个野心,就是希望能够构建一个世界模型。世界模型的通俗理解就是,把整个世界的因果建模在一个模型里,理想状态下,我们给这个模型输入世界当下的状态,就可以预测世界未来会怎么发展。”傅聪说到。

  通过文生视频走向世界模型,这条道路的探索非常有价值。我们原来认为要生成世界模型,要先搞懂物理规则,根据物理规则来建构世界模型,但现在看来,如果能用语言建构世界模型,意味着真正的实现了维特根斯坦说到的‘语言的边界就是世界的边界’。”

  “如果语言能够生成世界模型,意味着未来通过脑机接口,我们只要有一个意念就能生成想要的内容,这条道路走下去,人类会有一个非常大的发展。”沈阳表示。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Sora阴影之下,焦虑的中国AI
“跟不上的可能就要被淘汰了。”看到Sora演示视频后,从业10多年的动画制作师黄斌得出了这样的判断。
科技云报道
2024/03/05
1650
Sora阴影之下,焦虑的中国AI
为什么ChatGPT不是诞生在中国?
无论是2022年11月30日上线的ChatGPT,还是最近 OpenAI 正式发布的迄今为止规模最大、功能最强悍的多模态预训练模型 GPT-4,都着实让普罗大众感受到了AI人工智能的强大威力,宣告了强人工智能时代的到来。在这场人工智能引发的破圈热闹之下,我们不免要进一步深入思考一个问题,为什么这么多年过去了,引领产业技术革命的依然是美国而不是中国?
慕枫技术笔记
2023/04/20
5420
为什么ChatGPT不是诞生在中国?
加速分化:关于大模型走势的十个判断
大模型进入加速发展的第二年,技术迭代和竞争更为激烈。令全球震撼的文生视频Sora世界模拟器、拥有更强智能的谷歌Gemini 1.5、Meta的世界模型的雏形V-JEPA同一天推出,Claude3超越了GPT4的能力。Open AI的GPT5呼之欲出,奥特曼不仅自研芯片、还投资了数家可控核聚变公司,储备未来的关键资源——算力和能源。
小腾资讯君
2024/03/15
2170
加速分化:关于大模型走势的十个判断
Sora 面世,视频生成的 GPT-3 时刻来了
2月16日凌晨,正值中国春节法定节假日期间,OpenAI 毫无预兆地发布了 AI 视频生成大模型 Sora。看过视频效果后,网友纷纷感叹「现实,不存在了。」
AI科技评论
2024/02/27
2640
Sora 面世,视频生成的 GPT-3 时刻来了
硅谷对中国AI公司的焦虑越来越重,不只是因为DeepSeek:2025这些赛道更值得关注
一切还要从十天前说起,DeepSeek 正式开源了 DeepSeek-R1,在数学、代码和自然语言推理等任务上比肩 OpenAI o1 正式版。一众 AI 研究者感到「震惊」,纷纷猜测这是如何做到的。英伟达市值几千亿美元级别的震荡,更是让全世界看得目瞪口呆。
机器之心
2025/02/03
1290
硅谷对中国AI公司的焦虑越来越重,不只是因为DeepSeek:2025这些赛道更值得关注
蓝振忠也发「英雄帖」,中国版 ChatGPT 明星公司寻找 CEO
「打造中国OpenAI」,「西湖心辰」这家创立时间不到两年的小公司怎么敢夸下海口? 相比于国内的其他创业团队,心辰具有以下几大优势: 1.在大模型的研究和商业化落地要早一年。积累了超过百万的用户,并训练出了匹敌GPT3.5的模型RIO。 2.创始人蓝振忠曾在Google主导研发了大模型ALBERT(学术引用4300+),在大模型领域颇有影响力,也让他和AI风云人物们建立了紧密合作,比如Transformer作者、Character.ai创始人Noam Shazeer。 3.初步组建了一支高人才密度的团队,覆
AI科技评论
2023/02/23
5180
蓝振忠也发「英雄帖」,中国版 ChatGPT 明星公司寻找 CEO
AIGC元年 | 从科幻到现实,人工智能为何成为未来的引擎
AIGC是如今备受关注的热门概念,它属于生成式人工智能领域,可以创作出像AI绘画和ChatGPT等明星产品。尽管元宇宙和Web3等概念正风靡全球,但AIGC凭借着"创作"这一强大功能,已经高居榜首。
云坞网络-Peter
2023/05/21
5870
AIGC元年 | 从科幻到现实,人工智能为何成为未来的引擎
快手「可灵」爆火:海外AI圈巨震,中国版Sora一号难求
短短一年后,AI 生成的「吃面条」已经如此自然流畅?这让全球网友都感受到了亿点点震撼。
机器之心
2024/06/17
1.1K0
快手「可灵」爆火:海外AI圈巨震,中国版Sora一号难求
徐图智能徐东:文生视频创业,要用坚定信仰对抗 fomo 的大厂
在 GPT-4 发布一年多后,OpenAI 推出 GPT-4o,是有史以来第一个真正实现「多模态输入—多模态输出」的多模态模型。
AI科技评论
2024/06/17
1980
徐图智能徐东:文生视频创业,要用坚定信仰对抗 fomo 的大厂
人大系初创与OpenAI三次“撞车”:类Sora架构一年前已发论文
Sora出世前,他们拿着一篇如今被ICLR 2024接收的论文,十分费劲地为投资人、求知者讲了大半年,却处处碰壁。
量子位
2024/03/07
1520
人大系初创与OpenAI三次“撞车”:类Sora架构一年前已发论文
Sora送上“泼天富贵”,AI基础设施:这次轮到我了!
春节期间,OpenAI的最新技术成果——文生视频模型Sora惊艳登场,令海内外的AI从业者、投资人彻夜难眠。
科技云报道
2024/02/26
1550
Sora送上“泼天富贵”,AI基础设施:这次轮到我了!
要做中国OpenAI的很多,但智源要打造大模型领域的Linux
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI “要做中国的OpenAI!”“要打造中国版ChatGPT!”ChatGPT的火以燎原之势蔓延到每一个角落。 人们目光的焦点聚集到这个具体的现象级应用,或者其它大模型支撑的类ChatGPT产品上。大模型似乎成为了人人都能参与的游戏?智源研究院院长黄铁军并不这样想。 ChatGPT的出现,好比用电灯点亮了一个街区。 但是要建全国、全球的电网,中间还有很长的路要走。 “很长的路”上,技术、资金、算力、算法、基础设施,搭建了一道难以攻破的壁垒。要继续前行,得凿开
量子位
2023/03/04
4500
要做中国OpenAI的很多,但智源要打造大模型领域的Linux
Sora到底是什么?Sora详解
自2015年成立以来,OpenAI已经成为人工智能研究与推广的领军机构。这家机构在深度学习、自然语言处理等多个前沿领域不断取得重大突破,引领着行业的发展潮流。
用户10980048
2024/02/25
8120
Sora到底是什么?Sora详解
万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本
导语 OpenAI 越来越不“Open”了,尽管发布多个轰动世界的闭源大模型——从 ChatGPT 到 Sora——伴随的技术报告却并不“技术”,更像一种营销。这次 Sora 的技术博客明确表示不分享技术实现细节,只提供模型设计理念及其“炫酷”的效果展示。 而尚在内测阶段的 Sora ,其轰动效应仅次于一年多前 ChatGPT 的“核爆”。从结果来看,Sora 均能在维持高分辨率输出的同时,在视频生成长度以及一致性层面,实现对于现有视频生成模型的碾压式超越。 在国人感叹于 Sora 的惊赞效果、顿悟这一人类与 AI 文明交汇时刻的同时,一面是哀鸿遍野于我们与 OpenAI 的进一步宏大差距,一面是各路神仙从各种角度予以技术分析、点评或拆解。 今日此时,中国的 AI 再一次站在了十字路口。作为技术人我们好奇 Sora 的实现细节究竟如何?作为中国的创业者,我们同样追问 Sora 能否复刻?中国复刻 Sora 要跨过哪些门槛?能否共趟一条中国 AI 强而有为的逆袭之路? 本文旨在提供对 Sora 技术路线的有理有据的“猜想”,其主要依据是出门问问训练跨模态大语言模型「序列猴子」获得的实战经验以及对相关文献的梳理。 错漏之处,文责自负,欢迎业界同仁批评指正,以期吾辈共勉。
深度学习与Python
2024/03/07
1.2K0
万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本
“视频生成器”表皮之下,Sora究竟意味着什么?
Sora,源自日语的そら,空。色即是空。色、受、想、行、识,五蕴亦皆空。至大无外,至小无内,这个产品注定会给人无穷的想象空间。
小腾资讯君
2024/02/26
2970
“视频生成器”表皮之下,Sora究竟意味着什么?
【万字长文】与硅谷创业者深聊Sora:对技术创新和商业逻辑的思考
Sora能够制作长达60秒的流畅视频,这与通常只能生成不足5秒视频的其它文生视频技术相比,无疑是一次“跨代”的飞跃。在OpenAI发布的演示视频中,遮挡后的物品能够随着遮挡物的移除而重新显现。在放出的示例视频中,被遮挡的物品在遮挡物离开之后,可以再次重现,这个细节又让业内惊叹。OpenAI在公开的技术文档中将Sora视为一种“世界模拟器”,表达比较谨慎。但是行业内还是有讨论,看起来Sora正在构建“物理世界模型”。
小腾资讯君
2024/03/01
3490
关于 Sora
最近,OpenAI 在 ChatGPT 后,再次推出王炸,发布了文生视频模型 Sora,引起 AI 圈大震动,Sora 在文生视频领域的突破,不亚于 ChatGPT 在 NLP 领域的突破。
关键帧
2024/03/13
1950
关于 Sora
昆仑万维CEO方汉:AIGC以低成本达到80分水平,腰部工作者将大概率被淘汰 | 中国AIGC产业峰会
丰色 发自 凹非寺 量子位 | 公众号 QbitAI “如果人类的水平达不到80分,就会被AI淘汰。” 在中国AIGC产业峰会现场,昆仑万维CEO方汉抛出这样一个大胆预测。 在他看来,目前AIGC对存量知识的理解与表达已经达到80分的水平,行业从业者将随之形成两极分化的局面: 一部分人成为上游管理员,一部分成为底层AIGC操作员,两者的工作产量都会极大提升。 剩下的达不到80分的腰部从业者,大概率被淘汰。 方汉毕业于中国科学技术大学近代物理系,拥有29年互联网从业经验,从1994年开始参与和倡导开源运动,
量子位
2023/04/13
3880
昆仑万维CEO方汉:AIGC以低成本达到80分水平,腰部工作者将大概率被淘汰 | 中国AIGC产业峰会
Sora很难跟进?微调就不是一个岗位?大力出奇迹将继续适用?大模型将对软件生态带来哪些变化?
年初,Sora 爆火,其带来的视觉冲击让我们不禁期待国内企业是否能给我们带来更多惊喜?谷歌发布的 Gemma 首次提出开放模型的概念,这是否是开源、闭源之外的第三条路线?智能编码工具的快速普及是否会带来全新的编程模式?被誉为生成式 AI 最先看到商业落地价值的“Agent”是否能在 2024 年给我们一些冲击?“大力出奇迹”的规律还将继续适用吗?
深度学习与Python
2024/03/26
2210
Sora很难跟进?微调就不是一个岗位?大力出奇迹将继续适用?大模型将对软件生态带来哪些变化?
Sora:技术细节推测与原理解读,行业影响与成功关键
每逢年节,都是普罗大众从繁重的工作中抽离出来,回归生活与家庭的欢聚时光。然而今年的大年初六,OpenAI 发布的“文生视频”工具 Sora,却以又一次的 AI 技术变革姿态席卷了大街小巷,成为每个饭局讨论的焦点。GPT-4 发布的震撼犹在眼前,又一次的行业冲击接踵而至。 被替代的危机论再次甚嚣尘上,未来真的没机会了吗?我们又该如何在变局中抓住机遇?或许,可以先从积极主动地了解危机本身,拥抱学习开始吧!
腾讯云开发者
2024/02/21
1.8K0
Sora:技术细节推测与原理解读,行业影响与成功关键
推荐阅读
相关推荐
Sora阴影之下,焦虑的中国AI
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档