Mistral NeMo：这是现在最好的开源LLM！（经过全面测试并击败 Qwen2、DeepSeek-V2 及其他）

AI进修生

发布于 2024-12-02 11:06:15

7990

Aitrainee | 公众号：AI进修生
🌟介绍 Mistral 和 Nvidia 的新型号 Mistral NeMo。这是一个 12B 参数模型，具有 128K 上下文限制，非常好。在我的测试中，它击败了 Qwen-2、DeepSeek-V2、Llama-3 等。

它在编码任务方面甚至更好，并且也非常擅长做文本到应用程序、文本到前端和其他事情。我将对其进行测试，看看它是否真的可以击败其他LLMs，并且我还将告诉你如何使用它。

Hi，这里是Aitrainee，欢迎阅读本期新文章。

两个新模型已经推出，第一个是OpenAI GPT-4 Mini，第二个是Mistral NeMo。不过本文不会包括GPT-4 Mini，因为在上一篇文章，其实已经讨论过了：

新增了四个秘密模型！OpenAI 的 GPT-Mini、Column-R & U、Eureka（全面测试）

大多数人可能没有看过，有关于GPT4o-Mini发布的消息在昨天已经彻底火起来了，而上面这篇文章却发布在三四天前。

所以大家可能更多关注炒作内容：只谈论模型而不做任何测试的。

无论如何，今天我要谈论的是NeMo，这是Mistral推出的新最佳模型。

它是一个最先进的12B模型，具有128k的上下文长度。这个模型是与Nvidia合作构建的，他们说其推理、世界知识和编码准确性在其大小类别中是最先进的。

它还经过量化感知训练，能够进行FP8推理而不失性能。

该模型专为全球多语言应用程序而设计。它经过函数调用训练，具有较大的上下文窗口，并且在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面特别强大。这是将前沿人工智能模型以构成人类文化的所有语言带到每个人手中的新一步。

▲ Mistral NeMo 在多语言基准测试中的表现

他们还说这是Mistral 7B的一个很好的替代品，这也是他们的旧模型。

这个新模型还支持多种语言，并且有一个更高效的分词器，名为Tekken，特别是在压缩源代码方面效率高30%。

他们说Tekken在压缩大约85%的语言文本方面表现更好，这也很酷。

他们还做了一些很好的指令微调，使其在遵循精确指令、推理、处理多轮对话和生成代码方面表现更好。

现在我们来看看基准测试。我知道你们中的一半已经离开文章了，但无论如何，每当我想到公司分享的基准测试中可能有什么问题时，我都会看到一些不一致。

▲ Mistral NeMo 基础模型性能与 Gemma 2 9B 和 Llama 3 8B 的比较。

在hellaswag中，它得分83.5，击败了Llama 3和Gemma 2。在winogrande中，它得分76.8。在naturalquestions中，它得分31.2。在triviaQA中，它得分73.8。在MLU中，它得分68。在openbookQA中，它得分60.6。在commonsenseQA中，它得分70.4。在truthfulQA中，它得分50.3。

所以这些是基准测试分数，我不能对它们说太多，因为这些比较真的很糟糕。我是说，Qwen 2和DeepSeek V2在哪里？至少应该与主要的领先模型进行比较，但他们没有这么做，原因显而易见。

无论如何，这个模型在Apache 2许可下发布，这意味着可以用于商业和个人用途，这显然也很酷。这个模型目前在Hugging Face上可用，但尚未在其他平台上可用，但应该很快会推出。

这个模型可以在Nvidia Nims平台上试用，所以让我们从那里试试。