近日,三言科技披露了一则关于人工智能领域的最新动态。据悉,知名AI企业Kimi在上月推出的多模态推理模型k1.5,其背后的诞生故事由月之暗面官方于2月17日正式揭晓。
月之暗面的研究员Flood Sung回顾了k1.5模型的研发历程,特别提到了去年9月12日OpenAI发布的o1模型对其产生的深远影响。o1模型中的长思维链技术,让Flood Sung深感震撼,因为这项技术早在一年多前,就被月之暗面的联合创始人Tim周昕宇所验证。当时,他们通过小型模型训练,实现了数十位的加减乘除运算,将精细的运算步骤串联成长长的思维链数据,进行监督微调,取得了显著成效。
“那次实验的结果让我们意识到长上下文的重要性,因此我们率先尝试将文本长度增加。”Flood Sung坦言,“然而,对于长思维链的重视程度却不够。这主要是出于成本考虑。长上下文主要涉及长文本输入,有预填充技术和Mooncake的加持,成本和速度都在可控范围内。而长思维链则意味着长文本输出,成本高昂且速度缓慢,因此并未成为我们的首选方案。”
但Flood Sung强调,性能始终是首要考虑的因素。他相信,随着摩尔定律的推动,成本和速度将不断下降,只要性能得到提升,其他问题都将迎刃而解。“因此,我们决定迎难而上,着手研发长思维链技术,即o1模型。”
在研发过程中,Flood Sung和他的团队还发现了一个重要现象:随着训练的进行,模型性能不断提升,同时token数也在不断增加。这是强化学习(RL)训练过程中模型自我涌现的结果,与另一家AI企业Deepseek的发现不谋而合。
Flood Sung的这一发现,无疑为k1.5模型的研发注入了新的动力。他坚信,通过不断的技术创新和突破,月之暗面将在AI领域取得更加辉煌的成就。
领取专属 10元无门槛券
私享最新 技术干货