APIGen-MT:高效生成多轮人机交互数据的两阶段框架
随着人工智能技术的飞速发展,AI代理(Agent)已从简单的聊天机器人发展为能够执行复杂现实任务的系统,例如管理金融交易、安排预约和处理客户服务等。然而,构建真正稳健可靠的AI代理仍面临一个关键挑战:高质量多轮交互数据的稀缺性。本文将深入解析一个创新性的解决方案——APIGen-MT框架,这是一个专为生成高质量多轮人机交互数据而设计的两阶段框架。
在公共预训练语料库中,高质量的代理交互数据极为稀缺。现有的多轮对话数据集往往无法满足复杂任务的需求,特别是在需要精确执行、可靠性和遵循特定领域政策的应用场景中。而手动收集和标注这类数据不仅耗时,而且成本高昂,尤其对于需要专业知识的特定领域应用。
多轮交互涉及复杂的对话动态,包括长期依赖关系的跟踪、缺失信息的请求以及复杂函数调用的执行。直接一次性生成这样的多轮对话数据极具挑战性,因为任何一个中间步骤的错误或幻觉(hallucination)都可能导致整个交互的失败。此外,每轮对话的内容依赖于之前的函数调用及其输出,这使得保持一致性和正确性变得尤为困难。
现有的数据生成方法大多集中在单轮交互上,无法捕捉真实世界中多轮交互的复杂性。一些方法虽然涉及多轮交互,但缺乏真实的人机互动元素,这对于生成真实感强的数据至关重要。
APIGen-MT通过将任务生成过程分为两个明确的阶段,巧妙地解决了上述挑战:
这一阶段旨在生成详细的任务蓝图(blueprint),包括用户意图、可验证的地面真实动作(groundtruth actions)和预期的最终输出。具体步骤如下:
基于第一阶段生成的验证任务配置,这一阶段通过模拟人机交互来生成完整的多轮交互轨迹:
使用 τ-bench 作为测试平台实现了 APIGen-MT 框架。为了生成和验证任务,将每个 τ-bench 域中可用的 API 建模为有向图,其中节点表示 API,边表示 API 之间的依赖关系。利用专门的上下文采样器(包括 API 采样器、策略采样器、域数据采样器、角色采样器和示例采样器)来确保任务的多样性、真实性和扎实性。
实施严格的三阶段验证流程:
另外还引入了反向任务重组技术,该技术利用组合性原理,从更简单、经过独立验证的“构建块”构建复杂任务。在第二阶段,模拟了由 LLM 建模的代理与人类用户之间的多轮交互轨迹。采用拒绝采样,以确保只保留达到任务目标的轨迹。
研究者使用APIGen-MT生成的数据训练了一系列不同架构和规模的模型(xLAM-2-fc-r系列),包括Llama 3.1/3.2和Qwen 2.5,参数规模从1B到70B不等。这些模型在两个流行的代理能力基准测试上进行了评估:τ-bench和BFCL v3。
研究者使用τ-bench提供的API,在零售和航空两个领域中收集数据。统计结果显示:
这些数据充分证明了APIGen-MT框架能有效生成复杂领域中具有严格策略约束的高质量多轮数据。
尽管APIGen-MT取得了显著进展,仍有一些值得进一步探索的方向:
APIGen-MT框架通过其两阶段设计,有效解决了生成高质量多轮人机交互数据的难题。实验结果表明,使用该框架生成的数据训练的模型在多个基准测试中明显优于现有基线模型,且较小的模型也能达到与较大模型相媲美的性能。这一创新框架不仅为AI代理的训练提供了宝贵的数据资源,也为未来更可靠、高效和具备强大能力的AI代理系统的发展铺平了道路。
随着人工智能向着更智能、更自主的方向发展,像APIGen-MT这样的技术将在推动AI代理能力进步方面发挥越来越重要的作用,为各行各业的智能自动化带来更多可能性。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有