首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,编程能力暴增近31%

超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,编程能力暴增近31%

作者头像
机器之心
发布于 2025-02-15 01:06:17
发布于 2025-02-15 01:06:17
1630
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:杜伟、小舟

在 2024 年底,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了最新的混合专家(MoE)语言模型 DeepSeek-V3-Base。不过,目前没有放出详细的模型卡。

  • HuggingFace 下载地址:https://huggingface.co/DeepSeek-ai/DeepSeek-V3-Base/tree/main

具体来讲,DeepSeek-V3-Base 采用了 685B 参数的 MoE 架构,包含 256 个专家,使用了 sigmoid 路由方式,每次选取前 8 个专家(topk=8)。

图源:X@arankomatsuzaki

该模型利用了大量专家,但对于任何给定的输入,只有一小部分专家是活跃的,模型具有很高的稀疏性。

图源:X@Rohan Paul

从一些网友的反馈来看,API 显示已经是 DeepSeek-V3 模型。

图源:X@ruben_kostard

同样地,聊天(chat)界面也变成了 DeepSeek-v3。

图源:X@Micadep

那么,DeepSeek-V3-Base 性能怎么样呢?Aider 多语言编程测评结果给了我们答案。

先来了解一下 Aider 多语言基准,它要求大语言模型(LLM)编辑源文件来完成 225 道出自 Exercism 的编程题,覆盖了 C++、Go、Java、JavaScript、Python 和 Rust 等诸多编程语言。这 225 道精心挑选的最难的编程题给 LLM 带来了很大的编程能力挑战。

该基准衡量了 LLM 在流行编程语言中的编码能力,以及是否有能力编写可以集成到现有代码的全新代码。

从下表各模型比较结果来看,DeepSeek-V3-Base 仅次于 OpenAI o1-2024-12-17 (high),一举超越了 claude-3.5-sonnet-20241022、Gemini-Exp-1206、o1-mini-2024-09-12、gemini-2.0-flash-exp 等竞品模型以及前代 DeepSeek Chat V2.5。

其中与 V2.5(17.8%)相比,V3 编程性能暴增到了 48.4%,整整提升了近 31%。

另外,DeepSeek-V3 的 LiveBench 基准测试结果也疑似流出。我们可以看到,该模型的整体、推理、编程、数学、数据分析、语言和 IF 评分都非常具有竞争力,整体性能超越 gemini-2.0-flash-exp 和 Claude 3.5 Sonnet 等模型。

图源:reddit@homeworkkun

HuggingFace 负责 GPU Poor 数据科学家 Vaibhav (VB) Srivastav 总结了 DeepSeek v3 与 v2 版本的差异:

根据配置文件,v2 与 v3 的关键区别包括:

  • vocab_size:v2: 102400 v3: 129280
  • hidden_size:v2: 4096 v3: 7168
  • intermediate_size:v2: 11008 v3: 18432
  • 隐藏层数量:v2:30 v3:61
  • 注意力头数量:v2:32 v3:128
  • 最大位置嵌入:v2:2048 v3:4096

v3 看起来像是 v2 的放大版本。

图源:X@reach_vb

值得注意的是,在模型评分函数方面,v3 采用 sigmoid 函数,而 v2 采用的是 softmax 函数。

网友热评:开源模型逼近 SOTA

众多纷纷网友表示,Claude 终于迎来了真正强劲的对手,甚至在一定程度上 DeepSeek-V3 可以取代 Claude 3.5。

还有人感叹道,开源模型继续以惊人的速度追赶 SOTA,没有放缓的迹象。2025 年将成为 AI 最重要的一年。

参考链接:

https://aider.chat/docs/leaderboards/

https://www.reddit.com/r/LocalLLaMA/comments/1hm4959/benchmark_results_deepseek_v3_on_livebench/

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DeepSeek-V3发布:编程能力超过 Claude Sonnet 3.5!
备受期待的Deepseek V3终于开源!这款全新的AI模型在多语言编程能力上取得了重大突破,其在aider多语言编程测评中的表现,甚至超越了Claude3.5Sonnet V2等竞争对手,引发了业界广泛关注。
致Great
2024/12/27
3630
DeepSeek-V3发布:编程能力超过 Claude Sonnet 3.5!
重磅更新!DeepSeek V3低调发布,超越Claude,编程能力提升明显
DeepSeek突然低调发布V3版本,并且已经上线官方网站,开源权重已经上传到HuggingFace,但还没有官方描述。多方测评显示,性能相较V2.5版本有巨大提升,编程领域甚至超越Claude。
AgenticAI
2025/03/18
1860
重磅更新!DeepSeek V3低调发布,超越Claude,编程能力提升明显
Aider + DeepSeek + Claude 3.5 Sonnet:一次提示生成应用程序(使用 Ollama)
Maestro + Qwen2 + DeepCoderV2:几秒钟生成一个应用程序(本地、快速、一次提示)
AI进修生
2024/12/02
1.1K0
Aider + DeepSeek +  Claude 3.5 Sonnet:一次提示生成应用程序(使用 Ollama)
DeepSeek-V3新版本发布,代码能力赶上Claude 3.7
DeepSeek-V3新版本突然发布,而且一发布就直接开源。DeepSeek真的无愧为开源界的“源神”。
算法一只狗
2025/03/25
4950
DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑
新模型版本为DeepSeek-V3-0324,参数量为6850亿,相较上个版本参数增幅不大(6710亿)。
新智元
2025/03/27
1590
DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑
生成式AI新星:DeepSeek-V3 与 GPT-4o 的对比分析
DeepSeek-V3 是 DeepSeek 公司推出的最新一代自研 MoE(Mixture of Experts)模型,拥有 671B 参数,激活 37B,并在 14.8T token 上进行了预训练。GPT-4o 是 OpenAI 推出的顶尖闭源模型,以其强大的通用性和多模态能力著称。以下将从多个维度对 DeepSeek-V3 和 GPT-4o 进行详细对比。
码事漫谈
2025/01/06
3K0
生成式AI新星:DeepSeek-V3 与 GPT-4o 的对比分析
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
这两天有个新模型引起了不少关注,那就是DeepSeek-Coder-V2。这个模型是DeepSeek-Coder的最新升级版,相比之前的版本有了很大的提升,特别是在编码任务方面的表现令人惊艳。
AI进修生
2024/12/02
2.1K0
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen
中国人工智能初创公司 DeepSeek 于2024年12月26日发布了一种新的超大模型:DeepSeek-V3。
大脸猫不吃鱼
2025/02/05
2410
超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/27
1.2K0
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
Llama 4 开源了!千万上下文 + 单卡H100跑 400B + 反超DeepSeek,网友:RAG还好吗?
AI 圈周末炸锅,Meta 毫无预兆地扔出了 Llama 4 系列,直接抢回开源第一宝座。
AI进修生
2025/04/07
2110
Llama 4 开源了!千万上下文 + 单卡H100跑 400B + 反超DeepSeek,网友:RAG还好吗?
震惊!DeepSeek开源V3新版,代码能力直逼顶尖,国外开发者沸腾了!
3月24日晚,国内知名大模型平台DeepSeek悄然发布了V3模型的最新版本0324。与以往不同的是,此次发布异常低调,既未在国内公众号上宣传,也未在海外社交平台造势,而是直接将模型上传至HuggingFace平台,供用户下载使用。
福大大架构师每日一题
2025/03/27
1740
震惊!DeepSeek开源V3新版,代码能力直逼顶尖,国外开发者沸腾了!
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
当地时间 4 月 8 日,英伟达宣布推出其最新大语言模型 Llama3.1 Nemotron Ultra 253B。该模型基于 Meta 的 Llama-3.1-405B-Instruct 构建,并利用创新的神经架构搜索(NAS)技术进行了深度优化。其性能超越了最近发布的 Llama4,如 Behemoth、Maverick,并在 Hugging Face 平台上开源,引起 AI 社区广泛关注的同时,也再次“暴击”了 Meta。
深度学习与Python
2025/04/13
1200
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
GPT-4.5被DeepSeek 500倍吊打!基准测试全班垫底,OpenAI痛失护城河
GPT-4.5令人失望的表现,再次印证了Ilya这句话的含金量:预训练已经达到极限,推理Scaling才是未来有希望的范式。
新智元
2025/03/03
990
GPT-4.5被DeepSeek 500倍吊打!基准测试全班垫底,OpenAI痛失护城河
DeepSeek-Coder-V2.1:最佳编码LLM再度升级!(经过全面测试并击败 Claude,GPT-4o)
DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源 & 全面测试)
AI进修生
2024/12/02
1.7K0
DeepSeek-Coder-V2.1:最佳编码LLM再度升级!(经过全面测试并击败 Claude,GPT-4o)
雷军千万年薪挖角的AI天才少女什么来头?Deepseek技术优势解析
近日,雷军以千万级别的年薪成功挖角了95后的AI天才少女罗福莉。罗福莉是一位在人工智能领域特别是自然语言处理(NLP)方面有着卓越成就的年轻科学家。
用户7353950
2025/01/01
1.1K0
雷军千万年薪挖角的AI天才少女什么来头?Deepseek技术优势解析
DeepSeek-V3-0324突然开源:不给任何介绍,依然碾压所有人
DeepSeek-V3新版本突然发布,而且一发布就直接开源。DeepSeek真的无愧为开源界的“源神”。
算法一只狗
2025/07/03
3550
万字长文详解DeepSeek核心技术
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/18
2.6K0
万字长文详解DeepSeek核心技术
AI届的拼多多登临iOS榜,DeepSeek到底是什么来头?
DeepSeek的App目前已经登陆iOS免费榜前十,并超过了Google Gemini和微软的Copilot等同类竞品,可谓异军突起。
AntDream
2025/02/04
3030
AI届的拼多多登临iOS榜,DeepSeek到底是什么来头?
【大模型学习 | DeepSeek-V3原理】
DeepSeek-V3 的基本框架还是 Transformer。该模型仍然沿用了 V2 模型中的 Multi-head Latent Attention (MLA) 和 DeepSeekMoE,在这框架的基础上,提出了auxiliary-loss-free strategy 解决了MoE的负载平衡问题。另外,V3 模型是通过将预测多token作为训练目标。本文主要是对DeepSeek-V3的模型框架以及训练目标进行讨论。
九年义务漏网鲨鱼
2025/07/24
8360
【大模型学习 | DeepSeek-V3原理】
Devyan (CrewAI) + DeepSeek-Coder-V2:几秒钟生成一个应用程序(本地、快速、一次提示)
https://github.com/theyashwanthsai/Devyan
AI进修生
2024/12/02
1.2K0
Devyan (CrewAI) + DeepSeek-Coder-V2:几秒钟生成一个应用程序(本地、快速、一次提示)
推荐阅读
DeepSeek-V3发布:编程能力超过 Claude Sonnet 3.5!
3630
重磅更新!DeepSeek V3低调发布,超越Claude,编程能力提升明显
1860
Aider + DeepSeek + Claude 3.5 Sonnet:一次提示生成应用程序(使用 Ollama)
1.1K0
DeepSeek-V3新版本发布,代码能力赶上Claude 3.7
4950
DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑
1590
生成式AI新星:DeepSeek-V3 与 GPT-4o 的对比分析
3K0
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
2.1K0
超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen
2410
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
1.2K0
Llama 4 开源了!千万上下文 + 单卡H100跑 400B + 反超DeepSeek,网友:RAG还好吗?
2110
震惊!DeepSeek开源V3新版,代码能力直逼顶尖,国外开发者沸腾了!
1740
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
1200
GPT-4.5被DeepSeek 500倍吊打!基准测试全班垫底,OpenAI痛失护城河
990
DeepSeek-Coder-V2.1:最佳编码LLM再度升级!(经过全面测试并击败 Claude,GPT-4o)
1.7K0
雷军千万年薪挖角的AI天才少女什么来头?Deepseek技术优势解析
1.1K0
DeepSeek-V3-0324突然开源:不给任何介绍,依然碾压所有人
3550
万字长文详解DeepSeek核心技术
2.6K0
AI届的拼多多登临iOS榜,DeepSeek到底是什么来头?
3030
【大模型学习 | DeepSeek-V3原理】
8360
Devyan (CrewAI) + DeepSeek-Coder-V2:几秒钟生成一个应用程序(本地、快速、一次提示)
1.2K0
相关推荐
DeepSeek-V3发布:编程能力超过 Claude Sonnet 3.5!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档