首页
学习
活动
专区
圈层
工具
发布

斯坦福开源复杂推理AI Agent,融合超10种工具

多知7月26日消息,斯坦福大学在今年上旬开源了一款名为 OctoTools 的 AI Agent。该工具能够结合超过11种不同的工具,以应对复杂的推理任务。

据了解,传统的AI助手通常依赖于单一模型或有限的工具集,很难处理需要多步骤推理、特定领域知识或外部工具集成的复杂任务。例如,当解决视觉谜题时,需要精细图像理解和基于文本的混合推理……

基于此,斯坦福开源了OctoTools,这是一个融合了11种不同工具专用于复杂推理的AI Agent。

研究人员在16个不同的任务(包括MathVista、MMLU-Pro、MedQA和GAIA-Text)上验证了OctoTools的通用性,比GPT-4o的平均准确率提高了9.3%,这使得它能够在数学、科学和医学等复杂场景中轻松完成任务。

目前用户可以通过 OctoTools 更好地解决视觉谜题或进行基于文本的推理,提升工作效率。

OctoTools 技术原理:

工具卡片(Tool Cards):工具卡片是 OctoTools 的核心组件之一,封装了工具的元数据和功能。每个工具卡片定义了工具的输入输出格式、功能描述和调用方式。

规划器(Planner):规划器基于语言模型,负责生成从全局视角的初步计划。根据用户查询和可用工具,制定一个高层次的解决方案路径。

执行器(Executor):执行器将规划器生成的文本指令转换为可执行的命令,运行这些命令获取中间结果。

多步推理过程:基于多步推理逐步解决问题。在每一步中,规划器根据当前上下文生成新的行动指令,执行器执行指令获取结果,然后更新上下文。

论文链接:https://arxiv.org/pdf/2502.11271

代码链接:https://github.com/octotools/octotools

一本书洞察教育行业全貌,《教育科技这一年:教育+AI新纪元》火热销售中从业者必入,点击小程序购买⬇

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O97n-8Yr1s0KlyH4V8hITYzg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券