Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >DeepSeek-Coder-V2.1:最佳编码LLM再度升级!(经过全面测试并击败 Claude,GPT-4o)

DeepSeek-Coder-V2.1:最佳编码LLM再度升级!(经过全面测试并击败 Claude,GPT-4o)

作者头像
AI进修生
发布于 2024-12-02 11:10:08
发布于 2024-12-02 11:10:08
1.7K0
举报
文章被收录于专栏:AI进修生AI进修生
Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

前几天写了一篇DeepSeek-Chat更新的文章:

DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源 & 全面测试)

今天他的代码模型 DeepSeek-Coder-V2 也升级到2.1了,全称:DeepSeek-Coder-V2.1 (0724)

它增加了填充中间功能以及函数调用和一些其他的便利功能。

虽然他们分享了更新模型的信息,但并没有分享任何新的基准测试结果。

但是多个独立的基准测试排行榜已经发布了他们对这个新版本的评估。

所以我们来看看它们。

如果我要给你一个预告,那就是这个新版本已经与Claude 3.5 Sonet相媲美,同时价格更便宜。无论如何,我们先来看一下大代码基准测试排行榜。

▲ https://bigcode-bench.github.io/

你可以看到新的Deep Seek Coder V2模型现在排在第二名,与Claude 3.5 Sonet并列。

这意味着在基准测试中,这个新模型至少与Claude 3.5 Sonet相当。之前这个模型排在第7位,如你所见。所以这是从之前的迭代中一个非常好的跳跃。

如果你考虑价格与性能的比率,现在更加出色了。

下一个基准测试也非常棒,因为它来自aider。aider发布了一篇关于新模型评估的博客文章,以及哪个模型最适合aider。

你可以看到Claude 3.5 Sonet得分77%,而Deep Seek Coder V2 0724得分73%。

▲ https://aider.chat/2024/07/25/new-models.html

所以你可以看到它与Claude 3.5 Sonet相当,并且远远优于Llama3 405B和Mistol Large 2。

他们还说Deep Seek Coder V2 0724是最大的惊喜,也是最强大的代码编辑模型,在排行榜上排名第二。它可以有效地编辑代码,进行搜索替换,这解锁了编辑大文件的能力。

这个新版本的代码编辑模型在基准测试中得分73%,非常接近Sonet的77%,而且价格几乎便宜50倍。所以这确实很酷。

我无法强调它非常便宜这一点。每百万个token只需约20美分,比GPT 40 mini的60美分还要便宜。

新的模型权重还没有在Hugging Face上发布,但它们应该会在接下来的几天内发布,就像Deep Seek V2的新版本一样。

但我们实际上可以在他们的平台上试用这个新模型,不花任何钱。

所以让我们用我的问题来测试一下。这些问题包括一般问题和编程问题,这样我们也可以看看它在一般推理方面的能力。无论如何,让我们开始吧。

第一个问题是,有一个与我们用来形容高大植物的词押韵的数字,这个数字是什么?答案应该是three。这是它的回答,

▲ Gpt4-o

但它没有正确回答这个问题,所以这题不及格。

下一个问题是,我有两个苹果,然后我又买了两个。我用两个苹果做了一个派,吃了一半后,我还剩下多少苹果?答案应该是两个。这是它的回答,

也是正确的,所以这题及格。

下一个问题是,莎莉是一个女孩,她有三个兄弟,每个兄弟都有两个相同的姐妹,莎莉有几个姐妹?答案应该是一个。这是Deep Seek的回答,

也是正确的,所以这题及格。

下一个问题是,如果一个正六边形的短对角线是64,那么它的长对角线是多少?答案应该是73.9。这是它的回答,

但它没有正确回答这个问题,所以这题不及格。

下一个问题是创建一个带有点击时爆炸彩纸的按钮的HTML页面,你也可以使用CSS和JS。

让我们看看它能不能做到。这是代码,它还增加了一个直接在聊天界面中预览HTML文件的选项,

这很酷,就像Artifacts一样。

这个工作正常,但我见过更好的生成,所以这题我会标记为不及格。

下一个问题是写一个打印未来20个闰年的Python函数,仅回复函数代码。让我们发送并检查一下。这是代码,

让我们运行一下。这个工作正常,所以这题及格。

下一个问题是生成一个蝴蝶的SVG代码。让我们看看它能不能做到。这是代码,让我们看看。

这个看起来不错,有蝴蝶需要的部分,可以识别出来,所以这题及格。

下一个问题是写一个HTML页面,这个HTML页面是一个AI公司的登录页面,他们喜欢现代和简约的界面带有动画。让我们发送并检查一下。这是代码,让我们看看。

这看起来不错,所以这题及格。

最后一个问题是写一个在终端运行的Python生命游戏。让我们发送并检查一下。这是代码,让我们复制并运行。

这个工作正常,所以这题及格。

现在这是最终的统计图,

你可以看到它没有通过三个问题,这是可以理解的,因为它没有通过的两个问题是语言或数学问题,这显然不是它的优化方向。

虽然在爆炸彩纸问题上它也很接近,但我希望它能通过这个问题,不过这也没关系。

我现在更加喜欢这个模型了,而且它的推理成本非常便宜。如果你想个人使用它,你也可以在他们的平台上免费使用,没有任何明显的限制,不像ChatGPT

🌟希望这篇文章对你有帮助,感谢阅读

视频教程

https://www.youtube.com/watch?v=LVSA-GtITb0

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四
ZIPDO 2025教育报告显示,AI已经无缝融入70%的研究实验室,并在五年内推动相关科研论文数量增长了150%。
新智元
2025/07/12
610
全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四
Deep Seek V2.5:新一代上线!结合编码与通用能力,超越前作
最近发布了很多模型,甚至 Deep Seek 也发布了一个新模型,Deep Seek V2.5。Deep Seek是一家提供非常出色的编码和通用开源模型的公司。
AI进修生
2024/12/02
1K0
Deep Seek V2.5:新一代上线!结合编码与通用能力,超越前作
Aider + DeepSeek + Claude 3.5 Sonnet:一次提示生成应用程序(使用 Ollama)
Maestro + Qwen2 + DeepCoderV2:几秒钟生成一个应用程序(本地、快速、一次提示)
AI进修生
2024/12/02
9940
Aider + DeepSeek +  Claude 3.5 Sonnet:一次提示生成应用程序(使用 Ollama)
CodeGeeX4-ALL-9B:新的开源代码模型击败了 DeepSeek Coder V2 和 Qwen-2 ?(全面测试)
这款模型是专门为编程任务训练的,基于之前的 GLM 4-9b 模型,GLM 4-9b 是同一家公司推出的一款很酷的模型。这款新模型只有 90 亿个参数,因此在本地设备上运行非常方便。
AI进修生
2024/12/02
6130
CodeGeeX4-ALL-9B:新的开源代码模型击败了 DeepSeek Coder V2 和 Qwen-2 ?(全面测试)
VSCode+Aider+Supermaven:打造免费开源的顶级AI开发环境,别再为Cursor花钱了!
如果你看过我之前的一些视频,你会知道我不喜欢 Cursor。它真的被过度宣传了,售价 $20,但提供的功能却非常基础,我不明白为什么有人会为这些外壳付费。
AI进修生
2024/12/02
1.8K0
VSCode+Aider+Supermaven:打造免费开源的顶级AI开发环境,别再为Cursor花钱了!
Grok-2(经过全面测试):最佳和无限制的模型就在这里?( 击败 Claude-3.5 Sonnet、GPT-4O!?)
你还记得那个被称为 GPT 5 的可疑的 Colum R 模型吗(此前我在Hugging Face PK榜上测试秘密模型的文章)?
AI进修生
2024/12/02
8390
Grok-2(经过全面测试):最佳和无限制的模型就在这里?( 击败 Claude-3.5 Sonnet、GPT-4O!?)
Devyan (CrewAI) + DeepSeek-Coder-V2:几秒钟生成一个应用程序(本地、快速、一次提示)
https://github.com/theyashwanthsai/Devyan
AI进修生
2024/12/02
1.2K0
Devyan (CrewAI) + DeepSeek-Coder-V2:几秒钟生成一个应用程序(本地、快速、一次提示)
DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源 & 全面测试)
前面发生了一些事情,Gpt4o-mini发布、Windows崩溃,这些我有所关注,但不做多讲
AI进修生
2024/12/02
1.2K0
DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源 & 全面测试)
Reflection 70B(已全面测试):这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O?
最近有一款新的Llama 3.1微调模型在网络上引起了关注,据称它比Claude 3.5 Sonet更好,是目前最好的开源模型。而且,这只是70B版本的微调模型,甚至不是405B版本。
AI进修生
2024/12/02
1280
Reflection 70B(已全面测试):这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O?
DeepSeek V3把训练大模型的成本给干下来了
一夜之间,DeepSeek突然之间炸场,各个大佬都在纷纷转发,而且发布即开源,直接用50多页的论文公布了其训练细节
算法一只狗
2024/12/29
5.1K0
DeepSeek V3把训练大模型的成本给干下来了
这届出题太难了!新基准让多模态模型集体自闭,GPT-4o都是零分
眼下最顶尖的一批 LMM 是哪些?你可能想到了无所不能的 GPT-4o、Gemini 2 Flash 等等……
机器之心
2025/02/19
860
这届出题太难了!新基准让多模态模型集体自闭,GPT-4o都是零分
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
这两天有个新模型引起了不少关注,那就是DeepSeek-Coder-V2。这个模型是DeepSeek-Coder的最新升级版,相比之前的版本有了很大的提升,特别是在编码任务方面的表现令人惊艳。
AI进修生
2024/12/02
2K0
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,编程能力暴增近31%
在 2024 年底,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了最新的混合专家(MoE)语言模型 DeepSeek-V3-Base。不过,目前没有放出详细的模型卡。
机器之心
2025/02/15
1490
超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,编程能力暴增近31%
Windsurf:这款全新免费的 AI IDE 击败了Cursor 吗?超强上下文感知 、AI代理和工作流支持
今天介绍一款最新的,他叫 Windsurf,主要介绍它与Cursor不同的点,并用Bolt + Windsurf构建一个现代事件管理应用程序。
AI进修生
2024/12/02
4.2K0
Windsurf:这款全新免费的 AI IDE 击败了Cursor 吗?超强上下文感知 、AI代理和工作流支持
MicroAgent:这个AI智能体一键写代码并且自动测试!它比 Aider 更好吗?(Ollama)
一般来说,我们目前看到的文本到应用程序软件可以相当不错地生成应用程序,尽管它们大多数有一个问题,那就是生成的代码并不总是可靠的。
AI进修生
2024/12/02
4510
MicroAgent:这个AI智能体一键写代码并且自动测试!它比 Aider 更好吗?(Ollama)
GPT-4o-mini + Qwen2 + ContinueDev:一分钟创建Github Copilot教程(本地、免费)
最近,GPT-4o-mini发布了。他们说它在学术基准测试上超越了GPT-3.5 Turbo和其他小模型,无论是文本智能还是多模态推理。
AI进修生
2024/12/02
3380
GPT-4o-mini + Qwen2 + ContinueDev:一分钟创建Github Copilot教程(本地、免费)
官方测评!OpenAI vs. Gemini vs. Claude!谁才是你的最佳AI编程模型选择?
现在的AI大模型,发展迅速,各种模型层出不穷!在编程上,主要的模型还是OpenAI、Google Gemini 和 Anthropic Claude比较出色!
程序视点
2025/03/28
8420
官方测评!OpenAI vs. Gemini vs. Claude!谁才是你的最佳AI编程模型选择?
Claude 3.5 Sonnet 升级后,很强。用它写代码不知道有多爽。
之前介绍过许多 AI OS 代理,而这次是实力强大的官方实现。虽然基准测试通过率也不是太高,但相比以前的,它排名第一,虽然远低于人类,但未来可期。
AI进修生
2024/12/02
5250
Claude 3.5 Sonnet 升级后,很强。用它写代码不知道有多爽。
ClaudeDev 升级:全面支持 o1 & Gemini,升级你的开发体验!
最近,OpenAI 发布了他们的新 o1 模型,自从发布以来,几乎每个人都在努力使他们的工具与 o1 兼容。现在 Claude Dev 也加入了进来,做了一些很酷的升级。
AI进修生
2024/12/02
1910
ClaudeDev 升级:全面支持 o1 & Gemini,升级你的开发体验!
微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)
然而,我觉得最令人印象深刻的是这个4B参数的Mini模型。尽管体积小巧,但知识储备丰富,因此我最近常用它。微软最近又对这个Mini模型进行了升级,使其性能更上一层楼。他们仍称其为Phi-3 Mini模型,但许多人称其为Phi-3.1,这个名称更加准确。
AI进修生
2024/12/02
1540
微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)
推荐阅读
全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四
610
Deep Seek V2.5:新一代上线!结合编码与通用能力,超越前作
1K0
Aider + DeepSeek + Claude 3.5 Sonnet:一次提示生成应用程序(使用 Ollama)
9940
CodeGeeX4-ALL-9B:新的开源代码模型击败了 DeepSeek Coder V2 和 Qwen-2 ?(全面测试)
6130
VSCode+Aider+Supermaven:打造免费开源的顶级AI开发环境,别再为Cursor花钱了!
1.8K0
Grok-2(经过全面测试):最佳和无限制的模型就在这里?( 击败 Claude-3.5 Sonnet、GPT-4O!?)
8390
Devyan (CrewAI) + DeepSeek-Coder-V2:几秒钟生成一个应用程序(本地、快速、一次提示)
1.2K0
DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源 & 全面测试)
1.2K0
Reflection 70B(已全面测试):这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O?
1280
DeepSeek V3把训练大模型的成本给干下来了
5.1K0
这届出题太难了!新基准让多模态模型集体自闭,GPT-4o都是零分
860
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
2K0
超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,编程能力暴增近31%
1490
Windsurf:这款全新免费的 AI IDE 击败了Cursor 吗?超强上下文感知 、AI代理和工作流支持
4.2K0
MicroAgent:这个AI智能体一键写代码并且自动测试!它比 Aider 更好吗?(Ollama)
4510
GPT-4o-mini + Qwen2 + ContinueDev:一分钟创建Github Copilot教程(本地、免费)
3380
官方测评!OpenAI vs. Gemini vs. Claude!谁才是你的最佳AI编程模型选择?
8420
Claude 3.5 Sonnet 升级后,很强。用它写代码不知道有多爽。
5250
ClaudeDev 升级:全面支持 o1 & Gemini,升级你的开发体验!
1910
微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)
1540
相关推荐
全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档