Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Mistral NeMo:这是现在最好的开源LLM! (经过全面测试并击败 Qwen2、DeepSeek-V2 及其他)

Mistral NeMo:这是现在最好的开源LLM! (经过全面测试并击败 Qwen2、DeepSeek-V2 及其他)

作者头像
AI进修生
发布于 2024-12-02 11:06:15
发布于 2024-12-02 11:06:15
7450
举报
文章被收录于专栏:AI进修生AI进修生

Aitrainee | 公众号:AI进修生

🌟介绍 Mistral 和 Nvidia 的新型号 Mistral NeMo。这是一个 12B 参数模型,具有 128K 上下文限制,非常好。在我的测试中,它击败了 Qwen-2、DeepSeek-V2、Llama-3 等。

它在编码任务方面甚至更好,并且也非常擅长做文本到应用程序、文本到前端和其他事情。我将对其进行测试,看看它是否真的可以击败其他LLMs,并且我还将告诉你如何使用它。

Hi,这里是Aitrainee,欢迎阅读本期新文章。

两个新模型已经推出,第一个是OpenAI GPT-4 Mini,第二个是Mistral NeMo。不过本文不会包括GPT-4 Mini,因为在上一篇文章,其实已经讨论过了:

新增了四个秘密模型!OpenAI 的 GPT-Mini、Column-R & U、Eureka(全面测试)

大多数人可能没有看过,有关于GPT4o-Mini发布的消息在昨天已经彻底火起来了,而上面这篇文章却发布在三四天前。

所以大家可能更多关注炒作内容:只谈论模型而不做任何测试的。

无论如何,今天我要谈论的是NeMo,这是Mistral推出的新最佳模型。

它是一个最先进的12B模型,具有128k的上下文长度。这个模型是与Nvidia合作构建的,他们说其推理、世界知识和编码准确性在其大小类别中是最先进的。

它还经过量化感知训练,能够进行FP8推理而不失性能。

该模型专为全球多语言应用程序而设计。它经过函数调用训练,具有较大的上下文窗口,并且在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面特别强大。这是将前沿人工智能模型以构成人类文化的所有语言带到每个人手中的新一步。

▲ Mistral NeMo 在多语言基准测试中的表现

他们还说这是Mistral 7B的一个很好的替代品,这也是他们的旧模型。

这个新模型还支持多种语言,并且有一个更高效的分词器,名为Tekken,特别是在压缩源代码方面效率高30%。

他们说Tekken在压缩大约85%的语言文本方面表现更好,这也很酷。

他们还做了一些很好的指令微调,使其在遵循精确指令、推理、处理多轮对话和生成代码方面表现更好。

现在我们来看看基准测试。我知道你们中的一半已经离开文章了,但无论如何,每当我想到公司分享的基准测试中可能有什么问题时,我都会看到一些不一致。

▲ Mistral NeMo 基础模型性能与 Gemma 2 9B 和 Llama 3 8B 的比较。

在hellaswag中,它得分83.5,击败了Llama 3和Gemma 2。在winogrande中,它得分76.8。在naturalquestions中,它得分31.2。在triviaQA中,它得分73.8。在MLU中,它得分68。在openbookQA中,它得分60.6。在commonsenseQA中,它得分70.4。在truthfulQA中,它得分50.3。

所以这些是基准测试分数,我不能对它们说太多,因为这些比较真的很糟糕。我是说,Qwen 2和DeepSeek V2在哪里?至少应该与主要的领先模型进行比较,但他们没有这么做,原因显而易见。

无论如何,这个模型在Apache 2许可下发布,这意味着可以用于商业和个人用途,这显然也很酷。这个模型目前在Hugging Face上可用,但尚未在其他平台上可用,但应该很快会推出。

这个模型可以在Nvidia Nims平台上试用,所以让我们从那里试试。

https://build.nvidia.com/explore/discover

我将使用这些九个问题来测试它。我对其中一些问题做了一些改动,大多数问题是重新结构化或新的,尽管测试的本质是相同的。让我们现在来看看。

第一个问题是:名字以“Leah”结尾的国家的首都是哪里?答案应该是堪培拉。这里是Nemo的答案,

显然是错误的,所以我们标记为失败。

下一个问题是:约翰有三个盒子的铅笔,每个盒子有12支铅笔,约翰总共有多少支铅笔?答案应该是36。这是Nemo的答案,

正确,所以这次成功。

下一个问题是:露西的糖果是麦克的两倍,如果麦克有七块糖果,露西有多少块糖果?答案应该是14。这是Nemo的答案,

正确,所以这次成功。

下一个问题是:如果一个正六边形的短对角线是64,那么它的长对角线是多少?答案应该是73.9。这是Nemo的答案,

不正确,所以这次失败。

下一个问题是:创建一个包含点击按钮时爆炸彩带的HTML页面,你可以使用CSS和JS。发送它并查看是否可以做到。这是代码,预览一下,

看起来很好,功能正常,所以这次成功。

下一个问题是:创建一个Python程序,根据用户输入打印下一个X个闰年。发送并检查。这是代码,

运行它,

功能正常,所以这次成功。

下一个问题是:生成一个方形的SVG代码。发送并检查。这是代码,预览一下,

看起来也很好,所以这次成功。

下一个问题是:为一个AI公司创建一个着陆页,该着陆页应有四个部分:标题、横幅、功能和联系我们,确保页面看起来时尚和现代。发送提示并检查。这是代码,复制并预览,

看起来很酷,所有部分都包括在内,所以这次成功。

最后一个问题是:用Python编写一个在终端上运行的贪吃蛇游戏。发送并检查。这是代码,

运行它,

不工作,所以这次失败。

现在这是最终图表,可以看到它真的很好。

我是说,它比他们为编码发布的Cestal Mamba还要好,甚至比几乎所有其他模型都好,甚至与Qwen和DeepSeek相当。

所以这是一个非常好的模型。我认为它涵盖了几乎所有方面,包括推理和其他一切,应该比GPT-4 Mini模型更受欢迎。

我真的很喜欢这个模型,这是一个新的好模型,所以在Co-pilot场景中看到它会很酷。

希望这篇文章对你有帮助,感谢阅读!

视频教程

https://www.youtube.com/watch?v=yBWj32d_Yeo

参考链接: [1]https://mistral.ai/news/mistral-nemo/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
花了50 美元,测试104个量化大模型大海捞针能力,Qwen3-14B太惊艳了
作者在 H·G·威尔斯的《时间机器》中插入了几段荒谬对话,测试文本长达 1 万词元(约覆盖小说前 5 章内容),并附带简短系统提示要求大模型定位这些荒谬对话并复述。
Ai学习的老章
2025/06/28
420
花了50 美元,测试104个量化大模型大海捞针能力,Qwen3-14B太惊艳了
CodeGeeX4-ALL-9B:新的开源代码模型击败了 DeepSeek Coder V2 和 Qwen-2 ?(全面测试)
这款模型是专门为编程任务训练的,基于之前的 GLM 4-9b 模型,GLM 4-9b 是同一家公司推出的一款很酷的模型。这款新模型只有 90 亿个参数,因此在本地设备上运行非常方便。
AI进修生
2024/12/02
6090
CodeGeeX4-ALL-9B:新的开源代码模型击败了 DeepSeek Coder V2 和 Qwen-2 ?(全面测试)
Grok-2(经过全面测试):最佳和无限制的模型就在这里?( 击败 Claude-3.5 Sonnet、GPT-4O!?)
你还记得那个被称为 GPT 5 的可疑的 Colum R 模型吗(此前我在Hugging Face PK榜上测试秘密模型的文章)?
AI进修生
2024/12/02
8350
Grok-2(经过全面测试):最佳和无限制的模型就在这里?( 击败 Claude-3.5 Sonnet、GPT-4O!?)
DeepSeek-Coder-V2.1:最佳编码LLM再度升级!(经过全面测试并击败 Claude,GPT-4o)
DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源 & 全面测试)
AI进修生
2024/12/02
1.6K0
DeepSeek-Coder-V2.1:最佳编码LLM再度升级!(经过全面测试并击败 Claude,GPT-4o)
花了50 美元,测试104个量化大模型大海捞针能力,Qwen3_14B太惊艳了
作者在 H·G·威尔斯的《时间机器》中插入了几段荒谬对话,测试文本长达 1 万词元(约覆盖小说前 5 章内容),并附带简短系统提示要求大模型定位这些荒谬对话并复述。
Ai学习的老章
2025/06/26
720
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.5K0
深入了解Deepseek模型的最佳三篇论文
清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神
随着OpenAI o1证明了测试时扩展(TTS)可以通过在推理时分配额外算力,大幅增强LLM的推理能力。测试时计算,也成为了当前提升大模型性能的最新范式。
新智元
2025/02/15
1470
清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神
Phi-3.5(MoE、Mini 和 Vision):微软超强小模型上线!(击败 Llama-3.1、Mistral)
微软在其模型系列中推出了几个新模型,这些模型编号为3.5,此次推出了三个新模型,第一个是Phi 3.5 Vision,接着是Phi 3.5 Mini,最后是Phi 3.5 Mixture of Experts(专家混合模型)。
AI进修生
2024/12/02
3260
Phi-3.5(MoE、Mini 和 Vision):微软超强小模型上线!(击败 Llama-3.1、Mistral)
Gemma 3 27B版本超越DeepSeek V3:技术要点分析!
Gemma 3 是 Google 最新的开放权重大型语言模型。它有四种尺寸,分别是 10 亿、40 亿、120 亿 和 270 亿 参数,包含基础(预训练)和指令调优版本。Gemma 3 支持 多模态! 4B亿、12B和 27B参数的模型可以处理 图像 和 文本,而1B参数的模型仅限于文本。
致Great
2025/03/14
1.9K0
Gemma 3 27B版本超越DeepSeek V3:技术要点分析!
微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)
然而,我觉得最令人印象深刻的是这个4B参数的Mini模型。尽管体积小巧,但知识储备丰富,因此我最近常用它。微软最近又对这个Mini模型进行了升级,使其性能更上一层楼。他们仍称其为Phi-3 Mini模型,但许多人称其为Phi-3.1,这个名称更加准确。
AI进修生
2024/12/02
1510
微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
当地时间 4 月 8 日,英伟达宣布推出其最新大语言模型 Llama3.1 Nemotron Ultra 253B。该模型基于 Meta 的 Llama-3.1-405B-Instruct 构建,并利用创新的神经架构搜索(NAS)技术进行了深度优化。其性能超越了最近发布的 Llama4,如 Behemoth、Maverick,并在 Hugging Face 平台上开源,引起 AI 社区广泛关注的同时,也再次“暴击”了 Meta。
深度学习与Python
2025/04/13
1040
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
Deep Seek V2.5:新一代上线!结合编码与通用能力,超越前作
最近发布了很多模型,甚至 Deep Seek 也发布了一个新模型,Deep Seek V2.5。Deep Seek是一家提供非常出色的编码和通用开源模型的公司。
AI进修生
2024/12/02
1K0
Deep Seek V2.5:新一代上线!结合编码与通用能力,超越前作
全新Llama 3.2系列:性能提升明显,但真的是最优选择吗?(已测试)
令人兴奋的消息,Meta发布了Lllam3.2系列模型,当前的基准显示,Llama 3.2 在各种基准测试中表现优于 Claude3.5 Haiku 以及 GPT-4o-mini;加上前几天的Qwen2.5,现在开源的模型正在一步步缩小和闭源模型之间的差距,这很棒。
AI进修生
2024/12/02
7040
全新Llama 3.2系列:性能提升明显,但真的是最优选择吗?(已测试)
DeepSeek-R1:强化学习驱动的LLM推理能力提升
本文主要介绍一种新的训练策略,通过纯强化学习显著提升了LLM的推理能力,主要包括下面几点:
三掌柜
2025/02/06
4000
DeepSeek-R1:强化学习驱动的LLM推理能力提升
DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源 & 全面测试)
前面发生了一些事情,Gpt4o-mini发布、Windows崩溃,这些我有所关注,但不做多讲
AI进修生
2024/12/02
1.2K0
DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源 & 全面测试)
Reflection 70B(已全面测试):这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O?
最近有一款新的Llama 3.1微调模型在网络上引起了关注,据称它比Claude 3.5 Sonet更好,是目前最好的开源模型。而且,这只是70B版本的微调模型,甚至不是405B版本。
AI进修生
2024/12/02
1280
Reflection 70B(已全面测试):这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O?
transformers v4.51.0 震撼发布!DeepSeek-V3、Qwen3 齐登场,AI 领域再迎巨变!
2025年4月6日,HuggingFace 正式发布了 Transformers v4.51.0,本次更新堪称 AI 界的“超级大礼包”!不仅新增了 Meta 的 Llama 4、微软的 Phi4-Multimodal、深度求索的 DeepSeek-V3 以及 Qwen3 四大重量级模型,还优化了多项功能,修复了诸多 Bug,让 AI 开发者们直呼“真香”!
福大大架构师每日一题
2025/04/07
8190
transformers v4.51.0 震撼发布!DeepSeek-V3、Qwen3 齐登场,AI 领域再迎巨变!
马斯克宣布“全球最大AI训练集群”投入使用!苹果、Mistral AI、英伟达、OpenAI加入小模型争霸赛!|AI日报
“人工智能教母”李飞飞创立的公司现估值10亿美元!字节将于明日首次公布视频大模型进展?|AI日报
可信AI进展
2024/07/24
1590
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
这两天有个新模型引起了不少关注,那就是DeepSeek-Coder-V2。这个模型是DeepSeek-Coder的最新升级版,相比之前的版本有了很大的提升,特别是在编码任务方面的表现令人惊艳。
AI进修生
2024/12/02
2K0
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
全面打破GPT-4垄断、DeepSeek打下训练成本...2024年大模型领域进展全复盘
刚刚过去的 2024 年是生成式 AI 大发展的一年,我们见证了 OpenAI Sora 的崛起,大模型服务价格的飞速下降,以及国内开源大模型的奋起直追。这全方位的快速发展让我们对下一波 AI 的新技术大规模应用充满了信心。
机器之心
2025/02/03
2260
全面打破GPT-4垄断、DeepSeek打下训练成本...2024年大模型领域进展全复盘
推荐阅读
花了50 美元,测试104个量化大模型大海捞针能力,Qwen3-14B太惊艳了
420
CodeGeeX4-ALL-9B:新的开源代码模型击败了 DeepSeek Coder V2 和 Qwen-2 ?(全面测试)
6090
Grok-2(经过全面测试):最佳和无限制的模型就在这里?( 击败 Claude-3.5 Sonnet、GPT-4O!?)
8350
DeepSeek-Coder-V2.1:最佳编码LLM再度升级!(经过全面测试并击败 Claude,GPT-4o)
1.6K0
花了50 美元,测试104个量化大模型大海捞针能力,Qwen3_14B太惊艳了
720
深入了解Deepseek模型的最佳三篇论文
1.5K0
清华一作1B暴打405B巨无霸,7B逆袭DeepSeek R1!测试时Scaling封神
1470
Phi-3.5(MoE、Mini 和 Vision):微软超强小模型上线!(击败 Llama-3.1、Mistral)
3260
Gemma 3 27B版本超越DeepSeek V3:技术要点分析!
1.9K0
微软 Phi-3.1 Mini (3.8B):刚刚进行了疯狂升级(击败 Llama-3 和 Qwen2)
1510
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
1040
Deep Seek V2.5:新一代上线!结合编码与通用能力,超越前作
1K0
全新Llama 3.2系列:性能提升明显,但真的是最优选择吗?(已测试)
7040
DeepSeek-R1:强化学习驱动的LLM推理能力提升
4000
DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源 & 全面测试)
1.2K0
Reflection 70B(已全面测试):这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O?
1280
transformers v4.51.0 震撼发布!DeepSeek-V3、Qwen3 齐登场,AI 领域再迎巨变!
8190
马斯克宣布“全球最大AI训练集群”投入使用!苹果、Mistral AI、英伟达、OpenAI加入小模型争霸赛!|AI日报
1590
DeepSeekV2:这个新的开源的模型在多个基准测试中击败了 GPT-4、Claude-3 和 Llama-3!(附代码演示)
2K0
全面打破GPT-4垄断、DeepSeek打下训练成本...2024年大模型领域进展全复盘
2260
相关推荐
花了50 美元,测试104个量化大模型大海捞针能力,Qwen3-14B太惊艳了
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档