全球AI技术的竞争已经进入下半场!由此带来的是AI技术范式的转变,“从聊天到做事”,驱动范式转变的底层动力是“代码能力,智能体和多模态”技术的日渐成熟。未来AI的竞争,不仅是在算力,数据,模型规模,更核心的是在新架构的革新,自主学习,以及克服语言模型根本性缺陷。本文通过对 AGI NEXT 文稿的再理解,感受前沿技术带来震撼的同时,也理清未来AI技术发展的脉络。
1)AI技术范式的转变-从聊天到做事 2)驱动范式转变的三驾马车-“代码能力,智能体和多模态” 3)未来AI技术竞争的出路在哪里?
微信关注“AI老马啊” —【获取资源】&【进群交流】
聊天技术范式下是以自然语言交互为核心,聚焦于实现人机间流畅、准确的对话响应,本质是基于海量数据和模型拟合,完成信息的理解、生成与传递的技术范式。
举例:
主要解决的问题:
核心解决 “信息交互与应答” 需求,包括:问答解惑、情感陪伴、内容生成、知识科普、简单对话式助手等场景。本质是在封闭或半封闭信息域内,高效匹配用户的语言表达意图,并返回符合预期的文本结果。
唐杰教授认为:也许在DeepSeek这种范式下,把这种Chat时代基本上差不多算是解决了,也就是说我们做的再好,也许在Chat的问题上可能做到最后跟DeepSeek差不多,或许我们在上面再个性化一点,变成有情感的Chat,或者再复杂一点。但是总的来讲,这个范式可能基本上到这快到头了,剩下更多的反而是工程和技术上的问题。
下面的内容,也许你会找到自己的答案。
“做事”的技术范式下,是以 “任务闭环落地” 为核心,打破纯文本交互边界,充分利用工具、环境、数据资源,能自主规划、执行、反馈并优化真实世界的任务。
主要解决的问题:
针对聊天范式无法覆盖的复杂场景,解决任务拆解、工具调用、动态调整、结果验证等问题,本质是让 AI 作为 “执行者”,在开放动态的真实环境中,将用户需求转化为实际行动,并自主执行得到结果,而非仅提供文本建议。
所以,唐杰教授认为:从前沿技术研究的角度,聊天已经被解决,光靠堆数据,堆算力已经到了天花板。要在战略层面进行取舍,从聊得更好到做的更多进行转变。
训练 AI 写代码本质上就是学习逻辑和推理能力的过程。代码作为结构化语言,能倒逼模型建立步骤化思维、因果判断能力,是从 “文本生成” 跨越到 “任务执行” 的核心基础。
AI 写代码的缺陷:
从理论上的代码生成,如片段式函数、基础语法实现,到实际上的工程化代码交付,中间仍存在巨大鸿沟,包括代码可读性、兼容性、鲁棒性不足,无法适配复杂项目架构,缺乏工程化思维。
举例:
用 AI 生成《植物大战僵尸》简易版代码,虽能实现核心玩法框架,但运行中频繁出现 bug,如僵尸路径错乱、植物攻击判定失效、界面卡顿崩溃等,无法达到可交付的产品级标准。
目标:
让 AI 具备完整软件工程能力,不仅能独立撰写符合规范的代码,还能自主调试排障、优化性能、适配项目需求,实现从 “代码生成” 到 “工程交付” 的闭环。
AI 的代码能力还在自我迭代进化的路上~
做事和聊天的本质区别:
聊天范式仅提供信息输出,需用户自行转化为操作;而智能体可基于收集到,用户需求、环境数据、工具反馈等信息,自主拆解任务、调用资源、执行操作并反馈结果,实现 “需求输入 - 任务落地” 的全闭环。
举例:
Kimi 智能体模型,可联动文档、浏览器、本地文件等工具,完成 “提取文档关键信息 + 补充网络最新数据 + 生成分析报告” 的连贯任务,体现了智能体的核心特质。
目前智能体仍面临场景适配难题,异常情况处理能力薄弱,比如任务执行中弹出的权限申请弹窗、验证码验证、页面加载异常等非预期场景,均会导致智能体识别中断,无法持续推进任务。
应对方式:
目标:
打造能自主履职的 “数字员工”,具备任务规划、资源调度、动态调整的能力,替代人工完成重复性、流程化或复杂协同类任务。
感官统合:
多模态赋予 AI 视觉、听觉等人类基础感知能力。打破纯文本交互的局限,让 AI 能理解真实世界的图像、音频、视频等多元信息,为落地真实场景奠定基础。唐杰教授称之为—“感官统合”,2025 年被行业定义为 “多模态适应年”,技术聚焦于解决跨模态对齐、融合后的能力稳定性问题,逐步实现从 “能感知” 到 “精准感知 + 协同推理” 的突破。
核心问题:模型降智
多模态融合过程中普遍存在 “降智” 现象,即单一模态,文本或者图像任务中模型表现优异,但融合多模态信息后,易出现理解偏差、推理能力下降,如结合图像和文本生成描述时,出现内容不匹配、逻辑断裂等问题。
可行的解决方向:
强化跨模态细粒度对齐,优化多模态数据集质量,采用“先分后合”融合策略,引入对齐验证与迭代闭环等方式。
小结: 代码能力是 AI 做事的 “逻辑基石”,智能体是 AI 做事的 “执行载体”,多模态是 AI 做事的 “感知入口”,三者共同构成从聊天范式向做事范式转变的核心驱动力,缺一不可。
中国 AI 行业看似呈现百花齐放的态势,商业化落地速度快、应用场景丰富,整体保持飞速进步,但从核心技术壁垒、长期竞争力来看,与美国的差距非但没有缩小,反而持续扩大。
两个原因:
原因1:开源的榜单并不能反映全貌
导致国内行业陷入 “以开源榜单为标杆” 的认知误区,误将开源领域的局部优势等同于整体实力,忽视了闭源赛道的核心差距。所谓的 “假想敌”并非真实技术战场的全貌。
原因2:算力规模和战略分配的差距
一方在主动开辟技术 “无人区”,构建下一代 AI 的核心壁垒;另一方仍在现有赛道内被动追赶,难以形成颠覆性竞争力。
杨植麟提到,“全球诞生领先 AI 公司的概率中,中国仅占 20%,头部话语权仍由美国企业主导。“
所以,在现有聊天范式下,单纯依靠堆数据、堆算力、扩大模型规模的路径已走到尽头,无法突破核心差距!那未来出路在哪里?
Transformer 架构核心缺陷:
自注意力机制的计算复杂度与输入序列长度呈平方级 O (N²) 增长,不仅导致长文本处理时算力消耗激增、推理速度下降,还从本质上限制了输入序列的长度上限,无法适配真实场景中大规模上下文的需求。
比如,处理百万级 token 的长文档时,传统 Transformer 模型会因算力过载无法高效运算,即便精简序列也会丢失关键信息;
革新引擎—线性注意力:
线性注意力机制,通过重构注意力计算逻辑,如基于稀疏注意力、滑动窗口注意力、核函数近似等,在保证模型性能不显著下降的前提下,线性注意力机制可将复杂度降至 O (N),在保留长上下文语义的同时,大幅提升运算效率,适配大篇幅内容处理与复杂任务拆解场景,为 AI 高效处理复杂真实任务提供架构支撑。
自主学习定义:
区别于传统大模型依赖人类投喂的静态标注数据进行离线训练,自主学习强调 AI 像人类一样,通过与动态环境、工具、用户进行实时交互,在 “尝试执行任务 — 获取反馈— 修正策略 — 再次尝试” 的循环中持续迭代优化,形成 “互动 - 反馈 - 学习” 的闭环自适应能力。
从被动喂养到主动觅食:
传统模型如同等待人类投喂食物(静态数据)的幼崽,能力边界受限于投喂内容;自主学习模型则像具备独立觅食能力的个体,可主动探索环境、获取资源、修正行为,能力提升不依赖人工干预,能快速适配真实世界的动态变化。
目标:
打破静态数据依赖,解决真实场景中数据稀缺、环境多变、任务复杂等问题,让 AI 在落地过程中持续进化,逐步具备自主应对未知问题的能力。
当前所有主流大模型的核心原理均基于 “共现频率”,即通过学习文本中词汇、短语的共现概率来拟合语义和逻辑,这种近似原理存在三大根本性缺陷:
未来可行出路:
AI 竞争的下半场,已从 “聊天范式的性能比拼” 转向 “做事范式的核心能力竞争”,本质是新架构(如线性注意力)、新范式(如自主学习)、AI 底层理论(突破共现频率局限)的深层竞争,而非单纯的算力、数据堆砌。
最后引用张钹院士,令人深思的问题作为结尾。
“人类本身存在认知偏差、伦理瑕疵、信息误差等不完美特质,而当前大模型的对齐目标多为人类反馈,即对齐人类的不完美,这从根源上限制了模型的上限,也会继承人类的缺陷?!”。
回答: AI 发展最难的事情并非通过技术手段约束机器行为,而是建立完善的治理体系,约束、规范创造和使用 AI 的人 —— 只有明确人类在 AI 研发、应用中的责任边界、伦理准则、行为规范,才能让 AI 在安全可控的前提下,真正服务于真实世界。
那你的回答那?欢迎在评论区给出你的回答。