“大模型的下一个突破,不在参数堆叠,而在用得更聪明。”
自从DeepSeek R1-0528横空出世、斩获一众基准测试冠军后,R2何时来袭成为了互联网的热议的话题。有人期待它会在某个深夜突然上线,一举秒杀所有竞品;也有人认为,Scaling raw 的时代已经渐行渐远,R2若急于发布,恐怕难带来革命性提升。本文将带你梳理R1-0528的重要改进、Scaling raw的瓶颈,以及目前互联网对R2的种种期待。
近年来,大模型凭借海量数据与超大参数量,不断刷新各种榜单成绩,却也暴露出越来越明显的瓶颈。目前最主流的说法认为,大模型的Scaling raw正在慢慢失效,也就是目前的大模型尽管有着大量的数据集进行训练,但是其能力却没有大规模的提升,体现出了Scaling raw在慢慢失效。
还有两个比较严重的瓶颈导致了大模型的能力提升速度缓慢。
边际效益递减:同样的算力投入,从百亿到千亿参数增量带来的性能提升在不断下降。模型规模越大,对数据质量、训练技巧的敏感度越高,单纯堆量已难以获得质变。
就像之前Grok 3训练的时候,使用了20 万张 GPU进行,马斯克还为此搭建了一个史无前例的 GPU 集群。
但是最后训练得来的 Grok 3,并没有超越其他大模型太多。也仅仅是刚刚达到了 GPT-4o 的水平。
另外一个是算力与成本压力:超大模型训练与推理成本飙升,显存、能耗、基础设施投入成了不得不考量的“包袱”。在企业和研究机构之外,普通开发者和初创团队几乎难以承受。可以看看目前号称最为强大的 Grok 4 模型,它的 API 调用价格也不低,普通人想要调用它也要考虑一下自己是否能够在控制成本的情况下得到好的回答。
相比此前的小版本修补,DeepSeek R1-0528包含了多项重量级改进,使其在多项任务中重回第一梯队:
这个小版本的更新具有以下新的优点:
这些改进并非打补丁式修修补补,而是一次底层架构与训练策略的综合升级。正因如此,许多用户都感叹:R1-0528已经到了天花板级别。
那么,R2何时推出?答案或许并不重要——关键是,它能否给我们带来真正的惊喜。以下是我目前对R2的几点期待:
面对R2的发布节奏,我们无需焦躁。一味刷分、赶进度,往往带来的是不成熟的产物;反之,打磨更适用的版本,才是长久之计。R2如果在发布时间上慢上一些,却能在实用性与创新性上带来质变,那等待就是值得的。
DeepSeek团队已经用R1-0528向我们展示了“深耕而非堆叠”的力量。R2何时来袭并不重要,重要的是——它能否真正解决我们的痛点:成本、效率、本土化与多模态协同。让我们拭目以待,也鼓励团队多些打磨,少些急功近利。相信在不久的将来,一款让所有人惊艳的R2会在某个深夜,如约而至。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。