首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

在科技的前沿,总有一些令人意想不到的惊喜。2024年12月26日,一个名为Deepseek-v3的人工智能模型,在没有任何官方宣布的情况下,意外曝光了。这个消息像一颗重磅炸弹,在AI界引起了巨大的震动。

在Reddit上,一些技术爱好者意外发现了Deepseek-v3的存在。它不仅在API和网页上发布了,而且在一些榜单上的跑分也新鲜出炉。这个神秘的模型,似乎在一夜之间,就站在了AI界的聚光灯下。

在Aider多语言编程测试排行榜中,Deepseek-v3一举超越了Claude 3.5 Sonnet,仅次于排在第一位的o1。这一成绩,相比其前身Deepseek-v2.5,完成率从17.8%大幅上涨至48.4%,这是一个令人震惊的飞跃。而在LiveBench测评中,Deepseek-v3更是被冠以“最强开源LLM”的称号,非推理模型中仅次于gemini-exp-1206,排在了第二的位置。

Deepseek-v3的基本配置令人瞩目:685B参数的MoE架构,256个专家,使用sigmoid函数作为路由方式,每次选取前8个专家。它支持64K上下文,默认支持4K,最长支持8K上下文。这些配置,每一个都比前代v2、v2.5有了极大的提升。

但是,这些配置只是冰山一角。机器学习爱好者Vaibhav (VB) Srivastav深入研究了配置文件,总结出v3与v2、v2.5的关键区别。他发现,v3几乎是v2的放大版,在每一项参数上均有较大提升。而且,他重点指出了模型结构的三个关键变化:

第一,v3在MOE结构中使用了sigmoid作为门控函数,取代了v2中的softmax函数。这一变化,允许模型在更大的专家集合上进行选择,而不是像softmax那样倾向于将输入分配给少数几个专家。

第二,v3引入了一个新的Top-k选择方法noaux_tc,它不需要辅助损失。这一创新,简化了训练过程并提高了训练效率。

第三,v3增加了一个新参数e_score_correction_bias,用于调整专家评分,从而在专家选择或模型训练过程中获得更好的性能。

关于v3的实际表现,独立开发者Simon Willison也在第一时间上手测试了。他首先让Deepseek-v3自报家门,然后测试了它的图像生成能力,要求生成一张鹈鹕骑自行车的SVG图。最终的图形,虽然有些荒诞,但却展示了Deepseek-v3的创造力。

在另一网友的测试中,Deepseek-v3甚至回答自己来自OpenAI。这一回答,让网友们推测,这可能是因为在训练时使用了OpenAI模型的回复。

尽管Deepseek-v3还未正式官宣,但它已经在LiveBench测评中坐上了最强开源LLM的宝座。在一些网友心中,这比只搞期货的OpenAI遥遥领先。Deepseek-v3的出现,不仅给AI界带来了惊喜,也带来了悬念。它将如何影响未来的AI发展?它将如何改变我们的生活?这些问题,像一个个悬念,等待着我们去揭晓。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OFOPf2P4vKo5GRMBVPnolNZQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券