Loading [MathJax]/jax/input/TeX/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >Mistral NeMo：这是现在最好的开源LLM！（经过全面测试并击败 Qwen2、DeepSeek-V2 及其他）

Mistral NeMo：这是现在最好的开源LLM！（经过全面测试并击败 Qwen2、DeepSeek-V2 及其他）

作者头像

AI进修生

发布于 2024-12-02 11:06:15

发布于 2024-12-02 11:06:15

7990

举报

文章被收录于专栏：AI进修生AI进修生

Aitrainee | 公众号：AI进修生
🌟介绍 Mistral 和 Nvidia 的新型号 Mistral NeMo。这是一个 12B 参数模型，具有 128K 上下文限制，非常好。在我的测试中，它击败了 Qwen-2、DeepSeek-V2、Llama-3 等。

它在编码任务方面甚至更好，并且也非常擅长做文本到应用程序、文本到前端和其他事情。我将对其进行测试，看看它是否真的可以击败其他LLMs，并且我还将告诉你如何使用它。

Hi，这里是Aitrainee，欢迎阅读本期新文章。

两个新模型已经推出，第一个是OpenAI GPT-4 Mini，第二个是Mistral NeMo。不过本文不会包括GPT-4 Mini，因为在上一篇文章，其实已经讨论过了：

新增了四个秘密模型！OpenAI 的 GPT-Mini、Column-R & U、Eureka（全面测试）

大多数人可能没有看过，有关于GPT4o-Mini发布的消息在昨天已经彻底火起来了，而上面这篇文章却发布在三四天前。

所以大家可能更多关注炒作内容：只谈论模型而不做任何测试的。

无论如何，今天我要谈论的是NeMo，这是Mistral推出的新最佳模型。

它是一个最先进的12B模型，具有128k的上下文长度。这个模型是与Nvidia合作构建的，他们说其推理、世界知识和编码准确性在其大小类别中是最先进的。

它还经过量化感知训练，能够进行FP8推理而不失性能。

该模型专为全球多语言应用程序而设计。它经过函数调用训练，具有较大的上下文窗口，并且在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面特别强大。这是将前沿人工智能模型以构成人类文化的所有语言带到每个人手中的新一步。

▲ Mistral NeMo 在多语言基准测试中的表现

他们还说这是Mistral 7B的一个很好的替代品，这也是他们的旧模型。

这个新模型还支持多种语言，并且有一个更高效的分词器，名为Tekken，特别是在压缩源代码方面效率高30%。

他们说Tekken在压缩大约85%的语言文本方面表现更好，这也很酷。

他们还做了一些很好的指令微调，使其在遵循精确指令、推理、处理多轮对话和生成代码方面表现更好。

现在我们来看看基准测试。我知道你们中的一半已经离开文章了，但无论如何，每当我想到公司分享的基准测试中可能有什么问题时，我都会看到一些不一致。

▲ Mistral NeMo 基础模型性能与 Gemma 2 9B 和 Llama 3 8B 的比较。

在hellaswag中，它得分83.5，击败了Llama 3和Gemma 2。在winogrande中，它得分76.8。在naturalquestions中，它得分31.2。在triviaQA中，它得分73.8。在MLU中，它得分68。在openbookQA中，它得分60.6。在commonsenseQA中，它得分70.4。在truthfulQA中，它得分50.3。

所以这些是基准测试分数，我不能对它们说太多，因为这些比较真的很糟糕。我是说，Qwen 2和DeepSeek V2在哪里？至少应该与主要的领先模型进行比较，但他们没有这么做，原因显而易见。

无论如何，这个模型在Apache 2许可下发布，这意味着可以用于商业和个人用途，这显然也很酷。这个模型目前在Hugging Face上可用，但尚未在其他平台上可用，但应该很快会推出。

这个模型可以在Nvidia Nims平台上试用，所以让我们从那里试试。

https://build.nvidia.com/explore/discover

我将使用这些九个问题来测试它。我对其中一些问题做了一些改动，大多数问题是重新结构化或新的，尽管测试的本质是相同的。让我们现在来看看。

第一个问题是：名字以“Leah”结尾的国家的首都是哪里？答案应该是堪培拉。这里是Nemo的答案，

显然是错误的，所以我们标记为失败。

下一个问题是：约翰有三个盒子的铅笔，每个盒子有12支铅笔，约翰总共有多少支铅笔？答案应该是36。这是Nemo的答案，

正确，所以这次成功。

下一个问题是：露西的糖果是麦克的两倍，如果麦克有七块糖果，露西有多少块糖果？答案应该是14。这是Nemo的答案，

正确，所以这次成功。

下一个问题是：如果一个正六边形的短对角线是64，那么它的长对角线是多少？答案应该是73.9。这是Nemo的答案，

不正确，所以这次失败。

下一个问题是：创建一个包含点击按钮时爆炸彩带的HTML页面，你可以使用CSS和JS。发送它并查看是否可以做到。这是代码，预览一下，

看起来很好，功能正常，所以这次成功。

下一个问题是：创建一个Python程序，根据用户输入打印下一个X个闰年。发送并检查。这是代码，

运行它，

功能正常，所以这次成功。

下一个问题是：生成一个方形的SVG代码。发送并检查。这是代码，预览一下，

看起来也很好，所以这次成功。

下一个问题是：为一个AI公司创建一个着陆页，该着陆页应有四个部分：标题、横幅、功能和联系我们，确保页面看起来时尚和现代。发送提示并检查。这是代码，复制并预览，

看起来很酷，所有部分都包括在内，所以这次成功。

最后一个问题是：用Python编写一个在终端上运行的贪吃蛇游戏。发送并检查。这是代码，

运行它，

不工作，所以这次失败。

现在这是最终图表，可以看到它真的很好。

我是说，它比他们为编码发布的Cestal Mamba还要好，甚至比几乎所有其他模型都好，甚至与Qwen和DeepSeek相当。

所以这是一个非常好的模型。我认为它涵盖了几乎所有方面，包括推理和其他一切，应该比GPT-4 Mini模型更受欢迎。

我真的很喜欢这个模型，这是一个新的好模型，所以在Co-pilot场景中看到它会很酷。

希望这篇文章对你有帮助，感谢阅读！

视频教程

https://www.youtube.com/watch?v=yBWj32d_Yeo

参考链接： [1]https://mistral.ai/news/mistral-nemo/

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-07-19，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

多租户的 4 种常用方案

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

60页PPT全解：DeepSeek系列论文技术要点整理

【深度学习优化算法】08：RMSProp算法

模型算法优化神经网络深度学习

深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现。【GitCode】专栏资源保存在我的GitCode仓库：https://gitcode.com/Morse_Chen/PyTorch_deep_learning。

Francek Chen

2025/07/22

990

【深度学习优化算法】08：RMSProp算法

【深度学习优化算法】09：Adadelta算法

模型算法优化深度学习存储

深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现。【GitCode】专栏资源保存在我的GitCode仓库：https://gitcode.com/Morse_Chen/PyTorch_deep_learning。

Francek Chen

2025/08/02

370

【深度学习优化算法】09：Adadelta算法

【深度学习实验】网络优化与正则化（三）：随机梯度下降的改进——Adam算法详解（Adam≈梯度方向优化Momentum+自适应学习率RMSprop）

深度学习算法网络优化自适应学习

目前，研究人员通过大量实践总结了一些经验方法，以在神经网络的表示能力、复杂度、学习效率和泛化能力之间取得良好的平衡，从而得到良好的网络模型。本系列文章将从网络优化和网络正则化两个方面来介绍如下方法：

Qomolangma

2024/07/30

5840

【深度学习实验】网络优化与正则化（三）：随机梯度下降的改进——Adam算法详解（Adam≈梯度方向优化Momentum+自适应学习率RMSprop）

【深度学习优化算法】10：Adam算法

深度学习基础模型算法优化

深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现。【GitCode】专栏资源保存在我的GitCode仓库：https://gitcode.com/Morse_Chen/PyTorch_deep_learning。

Francek Chen

2025/08/02

1210

【深度学习优化算法】10：Adam算法

【深度学习优化算法】07：AdaGrad算法

优化机器学习深度学习模型算法

深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现。【GitCode】专栏资源保存在我的GitCode仓库：https://gitcode.com/Morse_Chen/PyTorch_deep_learning。

Francek Chen

2025/07/19

1040

【深度学习优化算法】07：AdaGrad算法

动手学深度学习(八) 优化算法进阶

编程算法 pytorch

在 Section 11.4 中，我们提到，目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此，梯度下降也叫作最陡下降（steepest descent）。在每次迭代中，梯度下降根据自变量当前位置，沿着当前位置的梯度更新自变量。然而，如果自变量的迭代方向仅仅取决于自变量当前位置，这可能会带来一些问题。对于noisy gradient,我们需要谨慎的选取学习率和batch size, 来控制梯度方差和收敛的结果。

致Great

2020/02/25

1.4K0

从零开始学Pytorch（十四）之优化算法进阶

编程算法 pytorch

目标函数有关自变量的梯度代表了目标函数在自变量当前位置下降最快的方向。因此，梯度下降也叫作最陡下降（steepest descent）。在每次迭代中，梯度下降根据自变量当前位置，沿着当前位置的梯度更新自变量。然而，如果自变量的迭代方向仅仅取决于自变量当前位置，这可能会带来一些问题。对于noisy gradient,我们需要谨慎的选取学习率和batch size, 来控制梯度方差和收敛的结果。

墨明棋妙27

2022/09/23

6900

【深度学习实验】网络优化与正则化（一）：优化算法：使用动量优化的随机梯度下降算法（Stochastic Gradient Descent with Momentum）

深度学习 gradient 算法网络优化

目前，研究人员通过大量实践总结了一些经验方法，以在神经网络的表示能力、复杂度、学习效率和泛化能力之间取得良好的平衡，从而得到良好的网络模型。本系列文章将从网络优化和网络正则化两个方面来介绍如下方法：

Qomolangma

2024/07/30

4180

【深度学习实验】网络优化与正则化（一）：优化算法：使用动量优化的随机梯度下降算法（Stochastic Gradient Descent with Momentum）

深度学习——优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

深度学习编程算法机器学习

在机器学习、深度学习中使用的优化算法除了常见的梯度下降，还有 Adadelta，Adagrad，RMSProp 等几种优化器，都是什么呢，又该怎么选择呢？在 Sebastian Ruder 的这篇论文中给出了常用优化器的比较，今天来学习一下： https://arxiv.org/pdf/1609.04747.pdf 本文将梳理：每个算法的梯度更新规则和缺点为了应对这个不足而提出的下一个算法超参数的一般设定值几种算法的效果比较选择哪种算法 ---- 0.梯度下降法深入理解以下为个人总结，如有错误

10JQKA

2018/05/09

8.4K0

深度学习——优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）

为了使用torch.optim，你必须构建一个优化对象，那将会保持现有的状态，并且基于计算的来更新参数。

狼啸风云

2020/06/12

1.7K0

【深度学习优化算法】06：动量法

算法优化深度学习变量函数

深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现。【GitCode】专栏资源保存在我的GitCode仓库：https://gitcode.com/Morse_Chen/PyTorch_deep_learning

Francek Chen

2025/07/19

820

【深度学习优化算法】06：动量法

【深度学习优化算法】05：小批量随机梯度下降

算法效率优化深度学习数据

深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现。【GitCode】专栏资源保存在我的GitCode仓库：https://gitcode.com/Morse_Chen/PyTorch_deep_learning。

Francek Chen

2025/07/19

790

【深度学习优化算法】05：小批量随机梯度下降

【深度学习实验】网络优化与正则化（七）：超参数优化方法——网格搜索、随机搜索、贝叶斯优化、动态资源分配、神经架构搜索

网络优化深度学习架构搜索

目前，研究人员通过大量实践总结了一些经验方法，以在神经网络的表示能力、复杂度、学习效率和泛化能力之间取得良好的平衡，从而得到良好的网络模型。本系列文章将从网络优化和网络正则化两个方面来介绍如下方法：

Qomolangma

2024/07/30

1.6K0

【深度学习实验】网络优化与正则化（七）：超参数优化方法——网格搜索、随机搜索、贝叶斯优化、动态资源分配、神经架构搜索

caffe详解之优化算法

编程算法深度学习批量计算

前面我们介绍了卷积神经网络中主流的数据层，卷积层，全连接层，池化层，激活函数层，归一化层，dropout层,softmax层。分析每一层的配置及意义的目的主要是为了便于设计出适合自己的网络。然后根据自己的任务需要定义合适的损失函数。当搭建出自己的网络并确定网络的损失函数后，下一个关键问题便是训练网络，训练网络的前提需要确定优化算法。下面我们针对常见的深度学习优化算法进行梳理：

AI异构

2020/07/29

5340

【干货】深度学习需要了解的四种神经网络优化算法

深度学习神经网络

【导读】近日，Vadim Smolyakov发表了一篇博客，针对当前神经网络的优化算法进行了总结，并利用简单的CNN网络在NMIST数据集上进行实验，探讨不同的优化方法的效果好坏。其中考虑了四种神经网络训练的优化方法：SGD，Nesterov Momentum，RMSProp和Adam，并用TensorFlow进行训练。作者最终得出结果：使用Nesterov Momentum和Adam的SGD产生的结果更好。如果您对神经网络的优化算法还不是很了解，那么相信这篇文章将会给您很好的启发！专知内容组编辑整理。 N

WZEARW

2018/04/12

1.4K0

【干货】深度学习需要了解的四种神经网络优化算法

【深度学习实验】网络优化与正则化（六）：逐层归一化方法——批量归一化、层归一化、权重归一化、局部响应归一化

神经网络深度学习模型网络优化

目前，研究人员通过大量实践总结了一些经验方法，以在神经网络的表示能力、复杂度、学习效率和泛化能力之间取得良好的平衡，从而得到良好的网络模型。本系列文章将从网络优化和网络正则化两个方面来介绍如下方法：

Qomolangma

2024/07/30

7000

【深度学习实验】网络优化与正则化（六）：逐层归一化方法——批量归一化、层归一化、权重归一化、局部响应归一化

深度学习基础知识（七）--- 各种优化方法

编程算法 pytorch 批量计算深度学习

深度学习中，优化算法的目标函数通常是一个基于训练集的损失函数，优化的目标在于降低训练误差。

TeeyoHuang

2020/02/18

1.5K0

深度学习基础知识（七）--- 各种优化方法

深度学习优化器算法详解：梯度更新规则+缺点+如何选择

文 | 不会停的蜗牛 CSDN AI专栏作家在很多机器学习和深度学习的应用中，我们发现用的最多的优化器是 Adam，为什么呢？下面是 TensorFlow 中的优化器 https://www.tensorflow.org/api_guides/python/train 在 keras 中也有 SGD，RMSprop，Adagrad，Adadelta，Adam等： https://keras.io/optimizers/ 我们可以发现除了常见的梯度下降，还有 Adadelta，Adagrad，RMSPr

用户1737318

2018/07/20

1.6K0

AdaGrad | RMSProp | AdaDelta | Adam 概述与对比

神经网络机器学习深度学习人工智能编程算法

最近参考[5]重新回顾了AdaGrad、RMSProp、AdaDelta、Adam几个优化算法的基本思想，在此简单做一下这几个算法的概述和对比。

Minerva

2020/08/17

3.4K0

深度学习中的优化算法与实现

编程算法深度学习批量计算

通过这么长时间的学习，我们应该对于通过深度学习解决问题的大体流程有个宏观的概念了吧？

BBuf

2020/10/10

1.2K0

相关推荐

【深度学习优化算法】08：RMSProp算法

更多 >

LV.6

LYSHARK创始人&CEO

专栏

2

作者相关精选

换一批

目录

它在编码任务方面甚至更好，并且也非常擅长做文本到应用程序、文本到前端和其他事情。我将对其进行测试，看看它是否真的可以击败其他LLMs，并且我还将告诉你如何使用它。

加入讨论

的问答专区 >

北京宏哥擅长4个领域

相关课程

一站式学习中心 >

AI绘画-StableDiffusion图像生成

腾讯混元生图

高性能应用服务

腾讯云向量数据库快速上手训练营

向量数据库