Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

文章来源：企鹅号 - 前沿科技分享圈

在科技的前沿，总有一些令人意想不到的惊喜。2024年12月26日，一个名为Deepseek-v3的人工智能模型，在没有任何官方宣布的情况下，意外曝光了。这个消息像一颗重磅炸弹，在AI界引起了巨大的震动。

在Reddit上，一些技术爱好者意外发现了Deepseek-v3的存在。它不仅在API和网页上发布了，而且在一些榜单上的跑分也新鲜出炉。这个神秘的模型，似乎在一夜之间，就站在了AI界的聚光灯下。

在Aider多语言编程测试排行榜中，Deepseek-v3一举超越了Claude 3.5 Sonnet，仅次于排在第一位的o1。这一成绩，相比其前身Deepseek-v2.5，完成率从17.8%大幅上涨至48.4%，这是一个令人震惊的飞跃。而在LiveBench测评中，Deepseek-v3更是被冠以“最强开源LLM”的称号，非推理模型中仅次于gemini-exp-1206，排在了第二的位置。

Deepseek-v3的基本配置令人瞩目：685B参数的MoE架构，256个专家，使用sigmoid函数作为路由方式，每次选取前8个专家。它支持64K上下文，默认支持4K，最长支持8K上下文。这些配置，每一个都比前代v2、v2.5有了极大的提升。

但是，这些配置只是冰山一角。机器学习爱好者Vaibhav (VB) Srivastav深入研究了配置文件，总结出v3与v2、v2.5的关键区别。他发现，v3几乎是v2的放大版，在每一项参数上均有较大提升。而且，他重点指出了模型结构的三个关键变化：

第一，v3在MOE结构中使用了sigmoid作为门控函数，取代了v2中的softmax函数。这一变化，允许模型在更大的专家集合上进行选择，而不是像softmax那样倾向于将输入分配给少数几个专家。

第二，v3引入了一个新的Top-k选择方法noaux_tc，它不需要辅助损失。这一创新，简化了训练过程并提高了训练效率。

第三，v3增加了一个新参数e_score_correction_bias，用于调整专家评分，从而在专家选择或模型训练过程中获得更好的性能。

关于v3的实际表现，独立开发者Simon Willison也在第一时间上手测试了。他首先让Deepseek-v3自报家门，然后测试了它的图像生成能力，要求生成一张鹈鹕骑自行车的SVG图。最终的图形，虽然有些荒诞，但却展示了Deepseek-v3的创造力。

在另一网友的测试中，Deepseek-v3甚至回答自己来自OpenAI。这一回答，让网友们推测，这可能是因为在训练时使用了OpenAI模型的回复。

尽管Deepseek-v3还未正式官宣，但它已经在LiveBench测评中坐上了最强开源LLM的宝座。在一些网友心中，这比只搞期货的OpenAI遥遥领先。Deepseek-v3的出现，不仅给AI界带来了惊喜，也带来了悬念。它将如何影响未来的AI发展？它将如何改变我们的生活？这些问题，像一个个悬念，等待着我们去揭晓。

发表于: 2024-12-282024-12-28 23:22:11
原文链接：https://page.om.qq.com/page/OFOPf2P4vKo5GRMBVPnolNZQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Deepseek新模型意外曝光！编程跑分一举超越Claude 3.5 Sonnet

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐