近期,以 OpenAI o系列模型、Claude 3.5 Sonnet 和 DeepSeek-R1 等各类大模型为代表的AI技术快速发展,其知识与推理能力得到了广泛认可。然而,许多用户在实际使用中也注意到一个普遍现象:模型有时未能严格遵循输入指令的具体格式要求、字数限制或内容约束,导致输出结果虽内容尚可,却不完全符合输入指令。
这一现象反映出,模型的知识推理能力与其指令遵循能力之间存在表现差异。为精准度量和系统性研究该能力,AGI-Eval 社区现发布由前沿研究团队推出的全新指令遵循评测基准 Meeseeks。
基于 Meeseeks 基准的评测结果显示(排名数据参照轮次 3 ),如下图所示,推理模型 o3-mini (high)凭借绝对优势强势登顶,与另一版本 o3-mini(medium)包揽冠亚军;Claude 3.7 Sonnet 的“思考版”则稳居第三,共同构成本次评测的第一梯队,而DeepSeek-R1在所有模型中排名仅第七,GPT-4o 排名第八。此外DeepSeek-V3 在非推理大模型中处于领先位置,而 Qwen2.5 则展现出参数规模与指令遵循能力并非绝对相关的有趣现象。
△图1 Meeseeks 多轮评测中的准确率图
下面,让我们一同深入了解 Meeseeks 评测标准及其具体发现。
Meeseeks 是一个完全基于真实业务数据构建的,专注于评测大模型指令遵循(Instruction-Following)能力的基准测试。它引入了一种创新的评测视角:只关注模型是否严格按照用户指令(prompt)的要求生成回答,而不评估回答内容本身的知识正确性。为了全面、深入地衡量模型的指令遵循能力,研究人员设计了一套覆盖不同粒度和层面的精细化评测框架。
你可能遇到过这种情况:让模型 “用 50 字介绍北京,别提故宫”,结果它写了 80 字,还顺口夸了句 “故宫雄伟”。这就是典型的 “指令遵循翻车”——不看对错,只看是否按要求来。
Meeseeks 的评测框架从宏观到微观,把这种 “要求” 拆成了三层,像剥洋葱一样细,确保评估的深度与广度。
ROUND1 - 输入 | 评测内容 | |
---|---|---|
指令遵循单项 | 对应能力项 | |
在短视频的评论区,以消费者角度生成32条用户口语化评论和40条用户非口语化评论。每条评论为7个字,不允许出现以下词语: 这个, 好, 坏, 不错, 很, 很棒 | 是否生成了32条用户口语化评论 | 条数约束 |
是否生成了40条用户非口语化评论 | 条数约束 | |
所有评论是否为7个字 | 0~10字、精确 | |
评论是否不重复 | 重复 | |
评论是否不包含以下词语: 这个, 好, 坏, 不错, 很, 很棒 | 关键词 | |
💡 让我们激活多轮模式! | ||
ROUND2 - 输入 (若ROUND1模型输出未满足需求:"所有评论是否为7个字") | ||
你的回答中存在以下问题:所有评论是否为7个字:❌ 存在内容字符数量不匹配此 range [7, 7] [妈妈希望你以后可以一帆风顺]字数为:13请根据这些信息给出你修正后的回答,注意:只输出回答,不要输出额外信息。 | ||
ROUND3 - 输入 ... | ||
... |
△图2 任务案例展示图
本次 Meeseeks 基准评测清晰地揭示了不同模型在指令遵循与自我纠错能力上的显著差异。评测结果显示,RLLMs(推理语言模型)在所有轮次中均展现出压倒性优势,而一些知名大模型的表现则引发了深入思考。
△图3 评测结果对比图
在经过三轮评测后,各模型的最终排名与表现分析如下:
相较于 IF-Eval、Complexbench 等知名的开源指令遵循评测集,Meeseeks 在多个维度上实现了突破,展现出其独特的评测价值。
Meeseeks 通过四个关键特性,构建了其在横向对比中的核心竞争力。
首先是覆盖面更广,其数据源于丰富的真实业务场景,确保了评测的全面性与实用价值。
其次是评测粒度更细,它将单一约束拆解得更为精细,如将“字数遵循”细分为精确值、范围、倍数等多种情况,实现了对模型能力的精准画像。
Before (Complexbench) | After (Meeseeks) |
---|---|
字数遵循 | 精确、范围、倍数、多对象、0~10字、10~50字... |
再者是杜绝主观评测,摒弃了如“以妈妈的口吻”这类模糊指令,所有评测项均为客观可判定标准,保证了结果的一致性。
Before (Complexbench) | After (Meeseeks) | ||
---|---|---|---|
以妈妈的口吻生成10条对于孩子成人礼的祝福 | 是否生成10条祝福 | 以妈妈的口吻生成10条对于孩子成人礼的祝福 | 是否生成10条祝福 |
祝福是否以符合妈妈的口吻 | 祝福是否以符合妈妈的口吻 |
最后是数据难度更高,其测试用例设计更具挑战性,能有效拉开不同模型间的差距。
Example Models | Before(IF-Eval) | After (Meeseeks) |
---|---|---|
Claude-3.5-Sonnet-20241022 | 0.8358 | 0.3275 |
LLama3.1-405B-instruct | 0.8227 | 0.2585 |
DeepSeek-V3-Chat-1226 | 0.7967 | 0.2847 |
Meeseeks 最具突破性的特点:
其一评测更灵活,受模型回答风格/格式影响小,无需限定模型回答特定格式,对不同模型的兼容性更强
其二全新的“多轮模式”,在该模式下,如果模型的第一轮回答未能完全满足所有指令,评测框架会自动生成明确的反馈,指出具体哪个指令项未被满足,并要求模型根据该反馈修正答案。这种模式首次将模型的“自我纠错”能力纳入指令遵循的评测范畴。
为了验证该模式的有效性,研究团队选择了一批具有代表性的推理大模型(RLLMs)和大语言模型(LLMs)进行了评测。如图 1 所示,结果清晰地展示了各模型在不同纠错轮次下的表现。
通过对多轮评测数据的深入分析,研究团队得出以下几点关键发现:
综上所述,面对当前大模型普遍存在的“不听话”痛点,Meeseeks 基准通过其精细化的三级评测框架、对客观性的严格坚守以及革命性的“多轮纠错”模式,把评测结果不仅揭示了顶尖模型在复杂指令面前的真实短板,也验证了模型强大的自我修正潜力,将指令遵循评测带到了全新的维度。这为模型开发者指明了优化方向:除了提升基础能力,更要强化模型理解并执行修正指令的能力。
目前,对于共计11种语言的Meeseeks多语言版本已经在开发末期,多语言 Meeseeks 不仅在保证准确率的基础上适配了不同语言,并基于不同语言的特色内容构建了全新的指令遵循内容,会在不远的将来和大家见面!
AGI-Eval 评测社区将持续致力于高质量评估研究,推动大模型指令遵循能力向更广阔的未来发展。关注我们,检索更多评测内容!
— 完 —
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。