在科技的前沿,总有一些令人意想不到的惊喜。2024年12月26日,一个名为Deepseek-v3的人工智能模型,在没有任何官方宣布的情况下,意外曝光了。这个消息像一颗重磅炸弹,在AI界引起了巨大的震动。
在Reddit上,一些技术爱好者意外发现了Deepseek-v3的存在。它不仅在API和网页上发布了,而且在一些榜单上的跑分也新鲜出炉。这个神秘的模型,似乎在一夜之间,就站在了AI界的聚光灯下。
在Aider多语言编程测试排行榜中,Deepseek-v3一举超越了Claude 3.5 Sonnet,仅次于排在第一位的o1。这一成绩,相比其前身Deepseek-v2.5,完成率从17.8%大幅上涨至48.4%,这是一个令人震惊的飞跃。而在LiveBench测评中,Deepseek-v3更是被冠以“最强开源LLM”的称号,非推理模型中仅次于gemini-exp-1206,排在了第二的位置。
Deepseek-v3的基本配置令人瞩目:685B参数的MoE架构,256个专家,使用sigmoid函数作为路由方式,每次选取前8个专家。它支持64K上下文,默认支持4K,最长支持8K上下文。这些配置,每一个都比前代v2、v2.5有了极大的提升。
但是,这些配置只是冰山一角。机器学习爱好者Vaibhav (VB) Srivastav深入研究了配置文件,总结出v3与v2、v2.5的关键区别。他发现,v3几乎是v2的放大版,在每一项参数上均有较大提升。而且,他重点指出了模型结构的三个关键变化:
第一,v3在MOE结构中使用了sigmoid作为门控函数,取代了v2中的softmax函数。这一变化,允许模型在更大的专家集合上进行选择,而不是像softmax那样倾向于将输入分配给少数几个专家。
第二,v3引入了一个新的Top-k选择方法noaux_tc,它不需要辅助损失。这一创新,简化了训练过程并提高了训练效率。
第三,v3增加了一个新参数e_score_correction_bias,用于调整专家评分,从而在专家选择或模型训练过程中获得更好的性能。
关于v3的实际表现,独立开发者Simon Willison也在第一时间上手测试了。他首先让Deepseek-v3自报家门,然后测试了它的图像生成能力,要求生成一张鹈鹕骑自行车的SVG图。最终的图形,虽然有些荒诞,但却展示了Deepseek-v3的创造力。
在另一网友的测试中,Deepseek-v3甚至回答自己来自OpenAI。这一回答,让网友们推测,这可能是因为在训练时使用了OpenAI模型的回复。
尽管Deepseek-v3还未正式官宣,但它已经在LiveBench测评中坐上了最强开源LLM的宝座。在一些网友心中,这比只搞期货的OpenAI遥遥领先。Deepseek-v3的出现,不仅给AI界带来了惊喜,也带来了悬念。它将如何影响未来的AI发展?它将如何改变我们的生活?这些问题,像一个个悬念,等待着我们去揭晓。
领取专属 10元无门槛券
私享最新 技术干货