Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >CodeGeeX4-ALL-9B:新的开源代码模型击败了 DeepSeek Coder V2 和 Qwen-2 ?(全面测试)

CodeGeeX4-ALL-9B:新的开源代码模型击败了 DeepSeek Coder V2 和 Qwen-2 ?(全面测试)

作者头像
AI进修生
发布于 2024-12-02 10:55:27
发布于 2024-12-02 10:55:27
5940
举报
文章被收录于专栏:AI进修生AI进修生

Aitrainee | 公众号:AI进修生

🌟介绍基于 GLM4-9B 的新 CodeGeeX4-ALL-9B 编码模型,该模型据称在编码方面击败了 DeepSeek Coder V2、Qwen2、Llama3 和其他模型,同时体积更小;它还在各种编码任务中击败了 Qwen-2、DeepSeek Coder、Codestral;本文将对其进行测试。

https://github.com/THUDM/CodeGeeX4

Hi,这里是Aitrainee,欢迎阅读本期新文章。

今天我们要介绍一款新模型,名为 CodeGX 4-9B。是的,我知道这个名字有点复杂,所以我们就叫它 CodeG 吧。

这款模型是专门为编程任务训练的,基于之前的 GLM 4-9b 模型,GLM 4-9b 是同一家公司推出的一款很酷的模型。这款新模型只有 90 亿个参数,因此在本地设备上运行非常方便。

官方称这是 CodeGX4 系列最新的开源模型,是一个多语言代码生成模型,持续在 GLM 4-9b 基础上训练,大大提升了代码生成能力。

它支持全面的功能,如代码补全和生成、代码解释器、网络搜索、函数调用、仓库级别代码问答,覆盖软件开发的各种场景。

官方还声称这是目前少于 100 亿参数中最强的代码生成模型,甚至超过了许多更大的通用模型,在推理速度和模型性能之间达到了最佳平衡。确实很酷。

此外,它还支持 128k 的上下文限制,也很不错。接下来我们看看基准测试。在 HumanEval 基准测试中,它超过了 CodeT5、DeepSeek Coder 和 LLaMA 3-70b 等模型,这些模型的参数几乎是它的两倍。

在 MBPP 基准测试中,它稍稍落后于其他模型,但考虑到其规模,表现仍然不错。

在 NCB 基准测试中,表现与 MBPP 基准测试类似,LCB 也是如此,但在人类评估中,它超越了 DeepSeek Coder 33b 模型。Kruxy Val 的测试结果也相似。

我不明白为什么基准测试中没有提到 Qwen 和 DeepSeek Coder V2,这让我对这些基准测试的怀疑越来越大,似乎公司不想让我们知道比它表现更好的模型。

总之,在 BigCode Bench 中,它在同等规模的模型中表现最好,但如果仔细看,DeepSeek Coder V2 的表现更好,虽然其参数略大一点。在 Needle in a Haystack 评估中,这个模型表现也相当不错。

▲ 图片标题CodeGeeX4-ALL-9B 在 BigCodeBench 的 complete 和 instruct 任务中获得 48.9 和 40.4 得分,这是模型中得分最高的少于 200 亿个参数。

▲ 在测试代码推理、理解和执行能力的基准CRUXEval中,CodeGeeX4-ALL-9B凭借其COT(思维链)能力取得了骄人的成绩。

▲ 此外,在“大海捞针”(NIAH)评估中,CodeGeeX4-ALL-9B模型展示了其在高达128K的上下文中检索代码的能力,在所有Python脚本中实现了100%的检索准确率。

该模型在 Hugging Face 上可用,但在 LLaMA 上尚未推出,我认为未来几天应该会推出。还有一个 Hugging Face 的页面,可以用来试用它。

这就是我将用来进行测试的方法,看看它是否如基准测试所说的那样表现出色。我将用这些问题来评估它,和我测试其他模型的方法一样,这些问题从简单的语言任务到编程任务不等。

第一个问题是“与描述高大的植物的单词押韵的数字是什么?”答案应该是“3”,因为它与“tree”押韵,或者“9”,因为它与“vine”押韵。我们发送看看答案是否正确。

好的,答案正确,这是一次通过。

下一个问题是“我有两个苹果,然后我又买了两个,我用其中两个苹果烤了一个派,吃掉了一半派后,我还剩几个苹果?”答案应该是两个。发送看看。好的,答案不正确,这次失败。

下一个问题是“萨莉是一个女孩,她有三个兄弟,每个兄弟都有两个妹妹,萨莉有几个妹妹?”答案应该是一个。我们看看它是否能答对。好的,答案不正确,这次也失败了。

下一个问题是“如果一个正六边形的短对角线是 64,它的长对角线是多少?”答案应该是 73.9。我们看看它是否能答对。好的,答案不正确,这次也失败了。

接下来的问题是关于编程的,这是它的强项。第一个问题是“ 创建一个带有按钮的 HTML 页面,当你点击它时会爆炸出彩纸,你可以使用 CSS 和 JS。”

我们发送提示,看看能否生成代码。好的,生成了代码,我们运行看看。好的,它显示了按钮,但点击后没有任何反应,不知道是什么问题,这次失败了。

下一个问题是“编写一个打印未来 20 个闰年的 Python 函数,只回复函数部分。”我们发送看看。好的,生成了代码,我们运行看看。好的,代码正常工作,打印了年份,这次通过。

下一个问题是“生成蝴蝶的 SVG 代码。”我们发送看看。好的,生成了代码,我们运行看看。好的,这看起来完全不像蝴蝶,倒是有点像小UFO,不管怎样,这次失败。

下一个问题是“编写一个 AI 公司的 HTML 着陆页,这个页面需要现代且简约的界面,并带有动画效果。”我们看看它能生成什么。好的,生成了代码,我们运行看看。好的,虽然没有什么特别之处,但它写出了东西并生成了页面,基于我的善意,这次通过。

最后一个问题是“编写一个在终端上运行的 Python 生命游戏。”我知道这不会工作,但我们还是看看。好的,生成了代码,我们运行看看。好的,不如预期的那样工作。

这是最终的评分图表,我不知道该怎么评价这个模型。

它并没有什么特别之处,只在三个测试中通过,如果不是我在第八个问题上给了善意分数,它的评分会更低。

我不明白为什么要做这个模型,虽然说它是一个编程模型,但它的表现和 53 这样的通用语言模型差不多。我不知道该怎么说,你应该使用 DeepSeek Coder V2 Qwen 2,因为它们的表现真的更好。总之,你可以来群里交流想法。

视频教程

https://www.youtube.com/watch?v=m1lvHFC2jvg

参考链接: [github] https://github.com/THUDM/CodeGeeX4 [hugging face] codegeex4-all-9b

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DeepSeek-Coder-V2.1:最佳编码LLM再度升级!(经过全面测试并击败 Claude,GPT-4o)
DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源 & 全面测试)
AI进修生
2024/12/02
1.6K0
DeepSeek-Coder-V2.1:最佳编码LLM再度升级!(经过全面测试并击败 Claude,GPT-4o)
Mistral NeMo:这是现在最好的开源LLM! (经过全面测试并击败 Qwen2、DeepSeek-V2 及其他)
两个新模型已经推出,第一个是OpenAI GPT-4 Mini,第二个是Mistral NeMo。不过本文不会包括GPT-4 Mini,因为在上一篇文章,其实已经讨论过了:
AI进修生
2024/12/02
7340
Mistral NeMo:这是现在最好的开源LLM! (经过全面测试并击败 Qwen2、DeepSeek-V2 及其他)
微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)
然而,我觉得最令人印象深刻的是这个4B参数的Mini模型。尽管体积小巧,但知识储备丰富,因此我最近常用它。微软最近又对这个Mini模型进行了升级,使其性能更上一层楼。他们仍称其为Phi-3 Mini模型,但许多人称其为Phi-3.1,这个名称更加准确。
AI进修生
2024/12/02
1440
微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
这两天有个新模型引起了不少关注,那就是DeepSeek-Coder-V2。这个模型是DeepSeek-Coder的最新升级版,相比之前的版本有了很大的提升,特别是在编码任务方面的表现令人惊艳。
AI进修生
2024/12/02
2K0
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
Grok-2(经过全面测试):最佳和无限制的模型就在这里?( 击败 Claude-3.5 Sonnet、GPT-4O!?)
你还记得那个被称为 GPT 5 的可疑的 Colum R 模型吗(此前我在Hugging Face PK榜上测试秘密模型的文章)?
AI进修生
2024/12/02
8260
Grok-2(经过全面测试):最佳和无限制的模型就在这里?( 击败 Claude-3.5 Sonnet、GPT-4O!?)
Deep Seek V2.5:新一代上线!结合编码与通用能力,超越前作
最近发布了很多模型,甚至 Deep Seek 也发布了一个新模型,Deep Seek V2.5。Deep Seek是一家提供非常出色的编码和通用开源模型的公司。
AI进修生
2024/12/02
1K0
Deep Seek V2.5:新一代上线!结合编码与通用能力,超越前作
DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源 & 全面测试)
前面发生了一些事情,Gpt4o-mini发布、Windows崩溃,这些我有所关注,但不做多讲
AI进修生
2024/12/02
1.1K0
DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源 & 全面测试)
Phi-3.5(MoE、Mini 和 Vision):微软超强小模型上线!(击败 Llama-3.1、Mistral)
微软在其模型系列中推出了几个新模型,这些模型编号为3.5,此次推出了三个新模型,第一个是Phi 3.5 Vision,接着是Phi 3.5 Mini,最后是Phi 3.5 Mixture of Experts(专家混合模型)。
AI进修生
2024/12/02
3140
Phi-3.5(MoE、Mini 和 Vision):微软超强小模型上线!(击败 Llama-3.1、Mistral)
Llama Coder V2:这款完全免费的 AI Coder 击败了 V0 和 Bolt吗?开源免费,一键部署。
现在有了Qwen 2.5 Coder、Llama 3.3、3.1和DeepSeek V3。DeepSeek V3最强,Together AI上有免费积分可用。
AI进修生
2025/01/10
8060
Llama Coder V2:这款完全免费的 AI Coder 击败了 V0 和 Bolt吗?开源免费,一键部署。
Reflection 70B(已全面测试):这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O?
最近有一款新的Llama 3.1微调模型在网络上引起了关注,据称它比Claude 3.5 Sonet更好,是目前最好的开源模型。而且,这只是70B版本的微调模型,甚至不是405B版本。
AI进修生
2024/12/02
1230
Reflection 70B(已全面测试):这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O?
源代码is all you need!7B代码小模型同尺寸无敌,性能媲美ChatGPT和谷歌Gemini
Hugging Face 技术负责人 Philipp Schmid 表示:“代码自动补全工具,如 GitHub Copilot,已被超过一百万开发者使用,帮助他们的编码速度提高了 55%。看到像 Magicoder 和 OSS-INSTRUCT 这样的开源创新超越了 OpenAI 的 GPT-3.5 和 Google DeepMind 的 Gemini Ultra,真是令人振奋。这些进步不仅展示了人工智能技术的快速发展,也突显了开源社区在推动这一领域创新中的重要角色。”
机器之心
2023/12/20
4040
源代码is all you need!7B代码小模型同尺寸无敌,性能媲美ChatGPT和谷歌Gemini
碾压前辈!Meta 发布“最大、性能最好”的开源 Code Llama 70B,但开发者纷纷喊穷:玩不起
当地时间 1 月 29 日,Meta 发布了 Code Llama 70B,Meta 表示这是“Code Llama 家族中体量最大、性能最好的模型版本”。Code Llama 70B 与先前其他家族模型一样提供三种版本,且均可免费用于研究和商业用途:
深度学习与Python
2024/02/17
1.3K0
碾压前辈!Meta 发布“最大、性能最好”的开源 Code Llama 70B,但开发者纷纷喊穷:玩不起
超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen
中国人工智能初创公司 DeepSeek 于2024年12月26日发布了一种新的超大模型:DeepSeek-V3。
大脸猫不吃鱼
2025/02/05
2000
超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen
使用SLM和本地LLM进行编码:技巧与建议
小型语言模型和本地LLM越来越受到开发者的欢迎。我们列出了最好的模型,并提供了评估技巧。
云云众生s
2024/12/01
1580
2024年开源大模型有哪些?这篇文章告诉你
最近,国内外开源大模型一直受到研究者的关注,但是种类比较繁多,就单单今年开源的大模型就有10+以上。
算法一只狗
2024/07/18
2.3K0
2024年开源大模型有哪些?这篇文章告诉你
开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了
当中国大模型撕开硅谷的防线之后,在预设中总是落后半拍的中国 AI 军团,这次竟完成了一次反向技术输出,引发了全球范围内复现 DeepSeek 的热潮。
机器之心
2025/02/15
3260
开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了
猫头虎分享:Qwen2.5-Coder 系列模型运行与使用教程
大家好,我是猫头虎!今天我们深入探讨阿里通义千问推出的 Qwen2.5-Coder 系列,这是一个强大、丰富且实用的开源代码生成模型系列,尤其是旗舰版 Qwen2.5-Coder-32B-Instruct 被誉为媲美 GPT-4o 的开源代码模型。🎉 下面为大家带来详细的运行和使用教程。
猫头虎
2024/11/18
2K0
猫头虎分享:Qwen2.5-Coder 系列模型运行与使用教程
速度秒掉GPT-4o、22B击败Llama 3 70B,Mistral AI开放首个代码模型
对标 OpenAI 的法国 AI 独角兽 Mistral AI 有了新动作:首个代码大模型 Codestral 诞生了。
机器之心
2024/06/04
1810
速度秒掉GPT-4o、22B击败Llama 3 70B,Mistral AI开放首个代码模型
Aider + DeepSeek + Claude 3.5 Sonnet:一次提示生成应用程序(使用 Ollama)
Maestro + Qwen2 + DeepCoderV2:几秒钟生成一个应用程序(本地、快速、一次提示)
AI进修生
2024/12/02
9630
Aider + DeepSeek +  Claude 3.5 Sonnet:一次提示生成应用程序(使用 Ollama)
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,今夜重燃开源之战
这次,重磅开源的Gemma有2B和7B两种规模,并且采用了与Gemini相同的研究和技术构建。
新智元
2024/02/26
5610
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,今夜重燃开源之战
推荐阅读
DeepSeek-Coder-V2.1:最佳编码LLM再度升级!(经过全面测试并击败 Claude,GPT-4o)
1.6K0
Mistral NeMo:这是现在最好的开源LLM! (经过全面测试并击败 Qwen2、DeepSeek-V2 及其他)
7340
微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)
1440
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
2K0
Grok-2(经过全面测试):最佳和无限制的模型就在这里?( 击败 Claude-3.5 Sonnet、GPT-4O!?)
8260
Deep Seek V2.5:新一代上线!结合编码与通用能力,超越前作
1K0
DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源 & 全面测试)
1.1K0
Phi-3.5(MoE、Mini 和 Vision):微软超强小模型上线!(击败 Llama-3.1、Mistral)
3140
Llama Coder V2:这款完全免费的 AI Coder 击败了 V0 和 Bolt吗?开源免费,一键部署。
8060
Reflection 70B(已全面测试):这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O?
1230
源代码is all you need!7B代码小模型同尺寸无敌,性能媲美ChatGPT和谷歌Gemini
4040
碾压前辈!Meta 发布“最大、性能最好”的开源 Code Llama 70B,但开发者纷纷喊穷:玩不起
1.3K0
超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen
2000
使用SLM和本地LLM进行编码:技巧与建议
1580
2024年开源大模型有哪些?这篇文章告诉你
2.3K0
开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了
3260
猫头虎分享:Qwen2.5-Coder 系列模型运行与使用教程
2K0
速度秒掉GPT-4o、22B击败Llama 3 70B,Mistral AI开放首个代码模型
1810
Aider + DeepSeek + Claude 3.5 Sonnet:一次提示生成应用程序(使用 Ollama)
9630
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,今夜重燃开源之战
5610
相关推荐
DeepSeek-Coder-V2.1:最佳编码LLM再度升级!(经过全面测试并击败 Claude,GPT-4o)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档