开源笔记 | 中国最神秘的大模型公司“阶跃星辰”

文章来源：企鹅号 - David的AI全景图

阶跃星辰可能是中国最神秘的一家大模型公司。2023年4月成立，但直到昨天才对外发布产品，并且只有一篇创始人姜大昕的公开访谈。

这是我简单了解官网、产品、官方公众号和公开访谈之后的一篇笔记。继续践行Learn in public的精神，开源给大家～

1、官网

阶跃星辰一共发布了3款模型：Step-1千亿参数语言大模型、Step-1V千亿参数多模态模型（特色是多模态、逻辑推理、200K上下文），Step-2万亿参数MoE语言大模型（还在训练需要申请内测）。

发布了两款产品：跃问和冒泡鸭。可以理解为一个是ChatGPT，一个是Character.ai。

我用跃问问了公司和创始人的介绍：

2、来自暗涌智能《闭关一年创业大模型，姜大昕站在AGI呼啸的风中》的笔记：

关于GPT-3.5的复现：

GPT-3.5的算力用两三千张A800就可以搞定，数据用公开数据也可以搞得定，算法层面LLaMA这种开源架构已经有了。这些条件，在InstructGPT的paper等材料里都写得很清楚了，老老实实地复现一遍，基本就能达到。

关于多语种语料：

但比语言更重要的是获取高质量语料、知识的途径。现在全世界大多数的知识还是在英语里。

语种没有那么大差别，不是说你有90%的中文语料，而我只有30%，你就比我好3倍。他们更好的是诗词这些从英文语料上不能获得的中文语境。

如何解决语料不足的问题

要解决中文语料不足的问题，第一点，你要有全球视野，用全球互联网上高质量的语料来弥补中文语料的不足。全球互联网大概3亿个网站，质量也参差不齐，只有100万个网站的质量是可以用来训练大模型的。这100万个网站在哪？是谁？这个只有搜索引擎公司知道，我们会根据权威度为每个站点打分，相当于有了一个索引。

第二点，即便是高质量网站，质量也参差不齐，所以最初网页需要清洗、去重，这需要一条流水线，而且这个活非常细，因为不同的网站内容都不一样。这是搜索团队的基本功。

对Openai AGI路线图的认知

OpenAI是一条主线、两条支线，我们的看法和他们是一致的。最开始的时候叫单模态系统，比如一个语言模型或一个视觉模型。现在到了第二个阶段，特点是多种模态走向融合，比如GPT-4V既能够接收文字、理解文字，也能够理解图片，甚至在理解的基础上还能做推理。

但是这个融合还没有很彻底，因为理解任务和生成任务是分开的。分开造成的后果就是：理解模型理解强，生成弱；生成模型反过来，生成强，理解弱。

AI的下一步，一定是将生成和理解统一在一个模型里。多模态理解和生成统一后，就可以和具身智能结合起来。具身智能是什么？就是把模型作为机器人或者一个设备的大脑，让它去探索这个世界，与世界进行交互融合，建立一个世界模型。

在具身智能之前，AI只是把人给的数据作为训练语料，但到具身智能，训练数据是通过物理世界和机器人或设备进行交互得到的反馈。数据获取方式不一样了，就能形成世界模型。

再往前走，世界模型如果还能够做复杂任务的规划，能做抽象概念的归纳，这就是我们所说的大脑的System 2。世界模型还只是System 1，加上System 2之后，我们认为就到了AGI。

3、几点主观印象：

对技术有深度认知，比如希望和OpenAI神似（一条主线两条支线）而不是形似（产品跟风），对OpenAI技术路线图的解读。

产品不够“大”，缺乏通用C端应有的野心。又不够“小”，切入点没有取舍，无法力出一孔。目前采用的是跟随策略，一下发布两款独立产品，分别对标ChatGPT和Character.ai。细节是两款产品账号体系不互通。

商业层面已经和一些B端大客户在合作。总体气质感觉和智谱更接近一些。

4、一些参考链接：

相关快讯