中国版的Sora还需要多久？

matinal

发布于 2024-04-07 08:05:10

6120

近日，一款名为Kimi的国产大模型在资本市场上引起了广泛关注，成为了AI领域的新星。Kimi，由国内AI创业公司月之暗面科技有限公司（Moonshot AI）开发，凭借其卓越的长文本处理能力和丰富的应用场景，迅速在AI对话助手市场中脱颖而出。

　　Kimi chat是国内AI创业公司月之暗面在2023年10月推出的一款AI长文本处理应用。今年3月，Kimi宣布自己可以处理200万字无损上下文。

　　2024年一季度结束。在以ChatGPT为起点的AI风潮席卷世界一年后，全球生成式AI应用加速发展，盘点一季度资本市场最“出圈”的AI应用，当属文生视频赛道上的Sora。

　　2月16日凌晨，开发出ChatGPT的OpenAI团队突然在官网发布了自己的首个文生视频大模型：Sora。

　　在OpenAI一口气放出的48个示例视频中，Sora不仅能准确呈现细节，还能理解物体在物理世界中的存在。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

　　特斯拉CEO马斯克也为此惊叹,他在社交媒体上说到 “gg humans”。360创始人周鸿祎则发微博称：sora的诞生意味着AGI（通用人工智能）实现可能从10年缩短至一两年。

　　相比在2022年Chatgpt发布后中国科技公司都争先在AI文生文赛道上抢占先机不同，截至目前，只有少数国内初创公司 “站出来”表示要做文生视频大模型。

　　3月5日，文生视频创业公司——七火山发布了其结合Sora路线迭代的Etna文生视频模型，并在发布会现场对生成效果进行了展示。公司CTO黄礼强对媒体表示，借鉴Sora技术迭代开发的Etna模型，在性能上有显著提升，“视频时长延长至8-15秒，且每秒帧数高达60帧。“

　　3月19日，AI芯片初创公司中昊芯英与某上市公司合作伙伴共同发布“文生视频大模型”。研发团队利用一个包含5.8亿个视频片段的数据库，最新研发视频生成模型V-Gen，通过逐步注入细节和运动信息，将静态图像转化为动态视频、

　　据统计，Chatgpt发布后,中国八个月内就诞生了238个大模型，平均每隔一天就会官宣一个新的大模型。

　　相比于Chatgpt火爆不到一个月的时间里，阿里、华为、腾讯、京东、字节、360、商汤、科大讯飞等一众大厂纷纷下场，或官宣入场或亮相大模型。

　　这次sora的亮相后，中国的大厂出现了集体失声。

对开源的等待

　　面对这份沉默，清华大学新闻学院教授、博士生导师沈阳认为主要是实力差距太大，以及对方没有开源。

　　OpenAI是一家闭源的机构，即不公开其大模型的架构、硬件平台、训练计算方法和数据集等方面的细节。

　　沈阳告诉《新浪蜂鸟》，中国大部分AIGC领域的算法主要还是靠美国的一些公司开源。“美国公司开源算法了之后，我们就能拉齐水平，但Sora并不开源，所以领先的部分我们很难在短期内知道，从这个角度上来说，中美之间的技术差距是动态的，例如OpenAI发布新版本差距就拉大了，在发布前，我们又能追的稍微近一点。”

　　浙江大学计算机博士，人工智能算法专家傅聪持相同观点。

　　傅聪告诉《新浪蜂鸟》：在算法领域，一些世界顶级学术会议如ICCV（计算机视觉国际大会）会把一些比较领先的技术方案，以论文的形式呈现出来，与此同时，大部分高质量的论文还会直接提供它们的代码实现。

　　“例如人们普遍认为Sora是基于DIT模型的一个进阶版本，而DIT模型是2023年ICCV会议上面的一篇基础论文。这些公开的技术资料，可以让科研团队在OpenAI把模型开源出来之前，摸索到他们可能的技术路线。 ” 傅聪说道。

永远是刚需的算力

　　OpenAI成立于2015年，在大模型领域的技术积累和投入已长达近9年，而国内起步仅2年。

　　在中国马不停蹄追赶过程中，OpenAI还在源源不断地向大模型输送资金、顶尖人才和高质量数据。

　　Sora公布后，OpenAI的CEO山姆·奥特曼透露，他正在计划筹集7万亿美元重塑全球半导体行业，以支持Sora的发展。

　　百川智能创始人、CEO王小川在去年的一个大会上提到，他在硅谷调研中了解到，OpenAI正在尝试把1000万块GPU连在一起训练一个大规模的模型。

　　王小川对此感到十分震惊，“英伟达一年大概生产100万块GPU，训练GPT-4要2.5万块，国内对标GPT-3.5训练需要4000块。要中国拿出1000万块GPU去训练大模型，目前从资源层面还远远达不到”。

　　“算力确实是实现赶超的一个瓶颈。算力主要决定了科研的试错成本。” 傅聪说。

　　通常在科研领域想到一个新想法，并不是迅速就能落地，而需要大量的尝试，但是如果试错的成本很高的话，追赶速度就会比较慢，“OpenAI确实拥有大量的英伟达提供的高端芯片“傅聪解释到。

　　如果没有高端芯片，我们只能寄希望于开源公司公布出试错经验。

　　“像Meta这样的公司，还是在坚持走开源的道路。与此同时，他们会把试错的经验公布出来。在学术圈里我们能看到一个现象，开源的热度在不断提升，意味着资料的公开性和透明化是越来越高的。”

　　好处显而易见。“我们会省去很多试错的成本，这样的话，即使使用相对来说比较‘低端’的芯片，我们也可以突破一些核心的技术点。” 傅聪说道。

　　我们国内的AIGC大模型，究竟在使用什么芯片？

　　“关于阿里的通义千问，百度的文心一言，这些商业企业拥有什么类型的芯片，以及它实际搭载在模型上，真正使用的是什么芯片，其实都属于企业的非公开商业机密。”傅聪说道。

　　但是，从一些已有的公开信息推测出，这些企业使用的可能是 A100、A800、A30、V100等芯片。

　　差距到底有多大？OpenAI的首席执行官奥特曼在接受英国《金融时报》采访时曾透露过，说OpenAI购买了大量的英伟达H100 芯片。

　　“奥特曼所说的H100芯片，对比国内企业在用的A100等芯片，在训练某些大型AI模型时的效率至少高了1个数量级（10倍），”傅聪说道。

视觉形态语言数据的投入缺失

　　除了芯片所提供的强大算力，对于AIGC语言模型来说，数据的品质直接影响了模型训练的成效。

　　目前，大模型训练数据主要来自于公开的文档、资料和数据。总体来说，这些初级加工的数据多数为英语，占据主流地位，从数据质量来看，由于国内在数据产业的投入和精细化程度不足，导致了中文语料不仅少且能用得也不多的现状。

　　对这一现象的原因傅聪认为OpenAI使用的训练数据集中的一部分有重金投入，这部分数据通过人力进行标注，而且标注的精细程度非常高，这是OpenAI长期与Scale AI这样的专门数据标注公司深度合作、共同迭代的成果。

　　国内的中文语料库虽然很庞大，但是在这之中，符合大语言模型需求的高质量文本，以及带有针对性标注的文本数量，都是远远不够的。

　　对于数据的品质，傅聪以国内的文生图的一个经典例子举例，文本输入“驴肉火烧”，生成的是几头驴围坐在一个篝火边。

　　“文生图领域，除了需要高质量的纯图片数据集以外，还需要特定的文字和图片配对，形成高质量且庞大的数据集去继续训练模型。”傅聪表示。

　　对于“驴肉火烧”这个概念，它是要把驴当做一个孤立的概念去理解？还是把“驴肉火烧”当做一个整体去理解？这主要是依赖于语言模型的建模能力。如果训练数据里大量都是关于驴的文字、图片和视频，很少出现“驴肉火烧”这个整体。那么，训练出来的模型，就无法理解“驴肉火烧”这个整体概念，更加不能生成相对应的图片。

　　不过总的来看，傅聪表示“驴肉火烧”其实是一个个例。对于大模型的评估，我们需要在大量的评测级上进行系统的评测，最后得到一个统计性结果。

　　对于中国应如何构建高质量和庞大的中文数据集来实现与OpenAI媲美的AIGC大模型，傅聪表示可以借鉴OpenAI的模式，让从事大模型开发的团队和数据标注公司进行深度合作。国内其实也有一些专门做数据标注的公司，例如海天瑞声等，但他们以往从事的标注业务方向，与大模型训练数据的需求还有一定距离。

　　Sora出现以后，视觉形态的数据标注可能又会成为一种新的需求。这些数据标注公司需要和从事相关模型开发的团队或公司深入合作才有可能满足这些需求。

　　此外，大公司也可以依赖自己的标注团队的人力，迭代完成这些工作。

人才储备不足

　　人才储备不足是中国企业失声的另一个原因。

　　在傅聪看来，在AIGC的人才储备方面，国内并不是人才质量不高，其实在很多学术大会上都能看到中国科学家的身影。“主要还是人才在AIGC细分赛道的时间投入不足。“中国的高端学术、工业人才，开始注意并投入到AIGC的各个细分赛道，大部分是从ChatGPT和MidJourney这样的明星公司引起了全世界范围的关注时开始的。从这个时间节点算起，大规模的人才储备到目前为止只有不到两年时间。OpenAI在大模型这个领域投入了近七年的时间，他们比我们多走了很多路，经历了无数次试错才取得了今天的成就。”