最近大家都在聊AI,尤其大模型。但说句大实话,大模型当下的能力,那真是离不开大量人类智能(Human Intelligence) 的投入,特别是在 Agent(智能体)领域,这一点体现得淋漓尽致。在我看来,高质量的数据和有效的评价体系,真的真的真的太重要了! 现在顶会也有很多很多做数据集工作的,未来一段时间应该会火
【个人观察💡】 构建数据和Benchmark(评估基准)这活儿,看着简单,但实际操作起来简直是难上加难!想当年在学校,还是现在工作,一直在给这些 Agent “当牛做马”..
咱们就拿三种最有代表性的 Agent 来聊聊它们的成熟度吧,按我个人经验排个序:编码 Agent > Web Agent > GUI Agent。
--
再来看看 Web Agent,各家大厂也相继推出了不少这类智能体,比如最近的一些 Deep Research 智能体。它们在完成一些简单的、通用性任务上表现还行,但一旦遇到复杂的多步骤长链操作,或者需要特定领域知识(domain knowledge) 的任务,Web Agent 的水平基本也就只能到实习生级别了。
比如,让它生成一份专业的行业研究报告,表面上看可能逻辑完整、篇幅足够,但你仔细一看,就会发现各种“幻觉”(胡编乱造)、信息冗余、内容空洞等问题。这时候,如何评价这份报告的质量,就真的需要专业人士的知识来对齐了。毕竟,Deep Research 考验的是信息搜索、总结提炼、内容生成等一系列综合能力。
【我的看法✍️】 目前 Web Agent 领域,高质量的数据和能够全面衡量其复杂能力的 Benchmark,都还挺稀缺的。这正是其发展亟需突破的关键点。
--
无论是哪种 Agent,当下主流的技术方案无外乎两种:
但无论是哪种方案,都离不开高质量的数据和有效的 Benchmark(评估基准)。
【我的思考🤔】 所以你看,AI智能体发展到现在,最核心的瓶颈,依然在于我们到底能提供多少“高质量的人工智能”——也就是多少来自人类专家经验、标注、反馈沉淀下来的数据和评价标准。这决定了AI能走多远,能有多“智能”。
--
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。