阶跃星辰可能是中国最神秘的一家大模型公司。2023年4月成立,但直到昨天才对外发布产品,并且只有一篇创始人姜大昕的公开访谈。
这是我简单了解官网、产品、官方公众号和公开访谈之后的一篇笔记。继续践行Learn in public的精神,开源给大家~
1、官网
阶跃星辰一共发布了3款模型:Step-1千亿参数语言大模型、Step-1V千亿参数多模态模型(特色是多模态、逻辑推理、200K上下文),Step-2万亿参数MoE语言大模型(还在训练需要申请内测)。
发布了两款产品:跃问和冒泡鸭。可以理解为一个是ChatGPT,一个是Character.ai。
我用跃问问了公司和创始人的介绍:
2、来自暗涌智能《闭关一年创业大模型,姜大昕站在AGI呼啸的风中》的笔记:
关于GPT-3.5的复现:
GPT-3.5的算力用两三千张A800就可以搞定,数据用公开数据也可以搞得定,算法层面LLaMA这种开源架构已经有了。这些条件,在InstructGPT的paper等材料里都写得很清楚了,老老实实地复现一遍,基本就能达到。
关于多语种语料:
但比语言更重要的是获取高质量语料、知识的途径。现在全世界大多数的知识还是在英语里。
语种没有那么大差别,不是说你有90%的中文语料,而我只有30%,你就比我好3倍。他们更好的是诗词这些从英文语料上不能获得的中文语境。
如何解决语料不足的问题
要解决中文语料不足的问题,第一点,你要有全球视野,用全球互联网上高质量的语料来弥补中文语料的不足。全球互联网大概3亿个网站,质量也参差不齐,只有100万个网站的质量是可以用来训练大模型的。这100万个网站在哪?是谁?这个只有搜索引擎公司知道,我们会根据权威度为每个站点打分,相当于有了一个索引。
第二点,即便是高质量网站,质量也参差不齐,所以最初网页需要清洗、去重,这需要一条流水线,而且这个活非常细,因为不同的网站内容都不一样。这是搜索团队的基本功。
对Openai AGI路线图的认知
OpenAI是一条主线、两条支线,我们的看法和他们是一致的。最开始的时候叫单模态系统,比如一个语言模型或一个视觉模型。现在到了第二个阶段,特点是多种模态走向融合,比如GPT-4V既能够接收文字、理解文字,也能够理解图片,甚至在理解的基础上还能做推理。
但是这个融合还没有很彻底,因为理解任务和生成任务是分开的。分开造成的后果就是:理解模型理解强,生成弱;生成模型反过来,生成强,理解弱。
AI的下一步,一定是将生成和理解统一在一个模型里。多模态理解和生成统一后,就可以和具身智能结合起来。具身智能是什么?就是把模型作为机器人或者一个设备的大脑,让它去探索这个世界,与世界进行交互融合,建立一个世界模型。
在具身智能之前,AI只是把人给的数据作为训练语料,但到具身智能,训练数据是通过物理世界和机器人或设备进行交互得到的反馈。数据获取方式不一样了,就能形成世界模型。
再往前走,世界模型如果还能够做复杂任务的规划,能做抽象概念的归纳,这就是我们所说的大脑的System 2。世界模型还只是System 1,加上System 2之后,我们认为就到了AGI。
3、几点主观印象:
对技术有深度认知,比如希望和OpenAI神似(一条主线两条支线)而不是形似(产品跟风),对OpenAI技术路线图的解读。
产品不够“大”,缺乏通用C端应有的野心。又不够“小”,切入点没有取舍,无法力出一孔。目前采用的是跟随策略,一下发布两款独立产品,分别对标ChatGPT和Character.ai。细节是两款产品账号体系不互通。
商业层面已经和一些B端大客户在合作。总体气质感觉和智谱更接近一些。
4、一些参考链接:
领取专属 10元无门槛券
私享最新 技术干货