首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >TPS-BENCH:AI智能体复合任务规划能力首测

TPS-BENCH:AI智能体复合任务规划能力首测

作者头像
梯度不陡
发布2026-05-18 20:01:35
发布2026-05-18 20:01:35
1050
举报

AI智能体能熟练调用单个工具,却在真实世界的多任务组合中集体"翻车":有的耗时4分钟调用35次,有的同时发起所有请求直接崩溃。该论文发布首个工具调度基准,揭露大模型"会选不会排"的致命短板,而强化学习竟能让小模型成本暴降95%。

引言

复合任务中AI智能体失败率超35%——该论文通过TPS-Bench首次量化这一困境。200个真实场景任务暴露核心痛点:现有基准完全忽略工具调度能力,迫使模型在效果与效率间做死亡权衡。实测显示,GLM-4.5以217秒代价达成65%成功率,GPT-40虽提速至77秒,完成率却暴跌至45%。更关键的是,仅用100个样本进行RL微调,就能同时提升6% 成功率并缩短14% 耗时。

为什么AI智能体总在"瞎忙活"?

TPS-Bench测试暴露AI智能体在复合任务中"瞎忙活"的症结:依赖识别错误效率低下。GLM-4.5虽以64.72%完成率居首,却采用纯顺序执行,单次查询消耗217.8秒14k tokens;GPT-4o尝试并行调度将耗时压缩至76.84秒,但完成率暴跌至45.08%,无法正确处理子任务间隐式依赖。更严峻的是,Qwen3-32B完成TPS-Bench-Hard仍需8k tokens,而现有评估体系完全忽略token经济性延迟敏感度,导致工具调用冗余成本失控,使智能体陷入低效循环。

TPS-Bench:给AI智能体的"压力测试场"

基于15个MCP服务器提供的141个工具,这项研究推出TPS-Bench——首个专测大语言模型智能体工具规划与调度能力的基准系统。系统构建200个复合任务,覆盖天气、日历等多元场景,并设置TPS-Bench-Easy(最多5个弱关联子任务)与TPS-Bench-Hard(最多50个强依赖子任务)双层难度,精准区分智能体能力层级。评估流程分三步:工具规划(从141个工具中选不超过10个)、任务分解、多轮调用,鼓励并行执行。核心指标包含任务完成率工具选择评分(采用LLM-as-a-judge自动评估),同时追踪token消耗端到端时间调用轮数,全面量化调度效率。

实测数据:效果与效率的残酷权衡

64.72%完成率与217.8秒耗时,揭示了大推理模型在效果与效率间的残酷权衡。该论文显示,GLM-4.5虽以64.72%完成率领先Hard集,却需35次调用;DeepSeek-R1达62.03%完成率,但消耗343秒与8千tokens。调度策略差异显著影响表现:GLM-4.5的串行模式减少错误但效率低下,QwQ-32B因无法识别子任务依赖,完成率仅29.36%。强化学习为效率优化提供新路径——GRPO训练使Qwen3-1.7B完成率提升6%,时间缩短14%,tokens减少54%,表明RL能有效引导模型形成更并行化的执行模式

算账时刻:AI智能体的省钱秘籍

GPT-4o单次任务成本138美元,Qwen3-1.7B仅需4.90美元——近30倍差距直接决定AI智能体的商业可行性。调度策略的选择成为省钱关键:串行调度将GLM-4.5完成率提升至71.8%,却使token消耗增加8.6%、时间成本上涨17%;并行调度虽节省资源,但可能因误判子任务依赖而拉低成功率。工具选择策略影响更为显著,无选择策略输入全部工具schema,token用量暴增至50k以上,远超自我选择的7-8k水平。这项研究表明,小模型+优化调度可实现极致性价比——Qwen3-1.7B经RL训练后,完成率提升6%的同时,输出token减少55%、执行时间缩短14%,揭示了算法智慧与模型尺寸的精妙平衡。

结语

该论文通过TPS-Bench首次系统评估了LLM智能体的工具规划与调度能力,验证了强化学习在优化执行效率上的巨大潜力。仅用少量样本的GRPO训练,就让小模型实现任务完成率与执行速度的双重突破,揭示效率与效果并非不可兼得。当前局限在于训练规模场景复杂度仍显不足,距离工业级部署尚有距离。未来,随着大规模RL训练多语言工具生态的成熟,智能体的调度能力或将成为下一代AI系统的核心竞争力。当AI学会"精打细算"地调用工具,真正的自主智能或将不再遥远。

论文地址:https://arxiv.org/pdf/2511.01527 开源地址:https://github.com/hanwenxu1/mcp-agent

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 梯度不陡 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 为什么AI智能体总在"瞎忙活"?
  • TPS-Bench:给AI智能体的"压力测试场"
  • 实测数据:效果与效率的残酷权衡
  • 算账时刻:AI智能体的省钱秘籍
  • 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档