首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >人工智能:有多少人工,才能有多少智能?

人工智能:有多少人工,才能有多少智能?

原创
作者头像
程序元元
发布2025-06-21 13:20:57
发布2025-06-21 13:20:57
710
举报
文章被收录于专栏:aiai

最近大家都在聊AI,尤其大模型。但说句大实话,大模型当下的能力,那真是离不开大量人类智能(Human Intelligence) 的投入,特别是在 Agent(智能体)领域,这一点体现得淋漓尽致。在我看来,高质量的数据和有效的评价体系,真的真的真的太重要了! 现在顶会也有很多很多做数据集工作的,未来一段时间应该会火

【个人观察💡】 构建数据和Benchmark(评估基准)这活儿,看着简单,但实际操作起来简直是难上加难!想当年在学校,还是现在工作,一直在给这些 Agent “当牛做马”..

咱们就拿三种最有代表性的 Agent 来聊聊它们的成熟度吧,按我个人经验排个序:编码 Agent > Web Agent > GUI Agent

--

🌐 Web Agent:挑战真实世界的复杂性

再来看看 Web Agent,各家大厂也相继推出了不少这类智能体,比如最近的一些 Deep Research 智能体。它们在完成一些简单的、通用性任务上表现还行,但一旦遇到复杂的多步骤长链操作,或者需要特定领域知识(domain knowledge) 的任务,Web Agent 的水平基本也就只能到实习生级别了。

比如,让它生成一份专业的行业研究报告,表面上看可能逻辑完整、篇幅足够,但你仔细一看,就会发现各种“幻觉”(胡编乱造)、信息冗余、内容空洞等问题。这时候,如何评价这份报告的质量,就真的需要专业人士的知识来对齐了。毕竟,Deep Research 考验的是信息搜索、总结提炼、内容生成等一系列综合能力。

【我的看法✍️】 目前 Web Agent 领域,高质量的数据和能够全面衡量其复杂能力的 Benchmark,都还挺稀缺的。这正是其发展亟需突破的关键点。

--

核心挑战:高质量数据与有效Benchmark不可或缺

无论是哪种 Agent,当下主流的技术方案无外乎两种:

  1. 基于基础模型搭建 Workflow(工作流)并结合模型推理: 这种方式通过编排大模型的调用顺序和逻辑来完成任务。
  2. 直接对模型进行微调(Model Tuning): 让模型更好地适应特定任务和数据。

但无论是哪种方案,都离不开高质量的数据和有效的 Benchmark(评估基准)

  • 好的 Workflow 设计,需要有数据和 Benchmark 去不断地对齐和优化
  • 要微调模型,那就更不用说了,数据是它的“食粮”。
  • 强化学习(RL)也特别贴合 Agent 的场景,因为它通过奖励机制来驱动模型学习。但这些 奖励函数(Reward Function)的设计,同样也离不开好的 Benchmark 来评测和引导,否则模型可能学不到你想要的东西。

【我的思考🤔】 所以你看,AI智能体发展到现在,最核心的瓶颈,依然在于我们到底能提供多少“高质量的人工智能”——也就是多少来自人类专家经验、标注、反馈沉淀下来的数据和评价标准。这决定了AI能走多远,能有多“智能”。

--

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 🌐 Web Agent:挑战真实世界的复杂性
  • 核心挑战:高质量数据与有效Benchmark不可或缺
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档