
走向未来
本文基于美国国家标准与技术研究院(NIST)下属人工智能标准与创新中心(CAISI)于2025年9月发布的评估报告,构建产品、技术与市场三维分析框架,对中国DeepSeek系列模型(V3.1, R1, R1-0528)与美国基准模型(OpenAI GPT-5系列, Anthropic Opus 4)进行深度对比研究。分析显示,尽管DeepSeek在数学与科学常识领域逼近美国前沿水平,但在涉及多步推理、环境交互的软件工程与网络安全等智能体(Agent)任务上仍存在代际差。同时,相比于GPT-5/Opus 4站在美国的价值观视角,DeepSeek模型则内嵌了中国的价值观。并且,中国价值观也随着中国主导了大模型开源生态,而在全球人工智能供应链中快速扩张。本文将从技术架构效能、端到端经济性、对抗性安全防御及市场渗透机制四个维度,全景式解构2025年中美人工智能竞争格局。请注意,原始报告是站在美国角度看待大模型的,而本文则是基于中国立场,表述上会有较大差别。原始报告和本文的PDF版本已收录至 “走向未来”【https://t.zsxq.com/xpWzq】知识星球中,同时星球中有丰富的人工智能方面的资料和历史文章的PDF版本,有兴趣的业内同仁可以加入星球获取资料进行深入对比研读。另外,值得注意的是,中国的开源模型之间竞争非常激烈,当前的GLM-4.6、Minimax M2、Kimi K2等模型能力都超越了文中所提及的DeepSeek的版本,在不同的测试任务上,今天再进行测试,会有很大的不同。当然美国的模型也在进步,比如Gminni 3.0和Grok 4.1也刚刚发布。

2025年9月,随着人工智能技术从单一模态的文本生成向多步自主决策的智能体形态演进,美中两国在基础大模型领域的竞争进入深水区。NIST下属的CAISI依据美国总统行政令及商务部指令,针对DeepSeek发布的第三代及推理增强型模型进行了全方位及 "金标准" 级的测试。此次评估不仅是算力与算法的较量,更是模型在复杂现实环境中解决问题能力的压力测试。
评估对象选取了DeepSeek V3.1、R1及其迭代版本R1-0528,不仅代表了中国开源模型的最高水平(指2025年9月及之前),也映射出中国AI产业的技术路线图。作为对照组,OpenAI的GPT-5、GPT-5-mini、gpt-oss以及Anthropic的Opus 4则代表了美国在闭源与开源两条路线上的前沿阵地。透过19个覆盖网络安全、软件开发、科学知识及数学推理的基准测试,技术代际图谱呈现出显著的"非对称"特征:在静态知识问答层面,中美模型呈现胶着状态;但在动态任务执行层面,美国模型保持着绝对的架构优势。

这种非对称性揭示了当前AI发展的核心矛盾:参数规模与训练数据的堆叠可以解决知识记忆问题,但无法自然涌现出解决长序列、非确定性环境任务的智能体能力。DeepSeek V3.1在MMLU-Pro等知识库测试中的表现证明了其基础训练数据的广度,但在CVE-Bench和SWE-bench Verified等模拟真实工程环境的测试中大幅落后,表明其在思维链(Chain of Thought)的逻辑连贯性与工具调用(Tool Use)的精确性上,尚未突破智能体技术的临界点。
在评估模型核心竞争力的维度中,网络安全(Cyber)与软件工程(Software Engineering)是最具指标意义的场景,因为这两类任务要求模型具备极高的环境感知力、长程逻辑推理力以及精准的工具操作力。CAISI的测试数据揭示了一个残酷的现实:DeepSeek模型在这些高阶智能体任务上,与GPT-5等美国顶尖模型存在20%至80%的性能断层。
网络安全测试涵盖了CVE-Bench、Cybench及CTF-Archive三个高难度基准,模拟了从漏洞利用到夺旗赛(CTF)的真实攻防全流程。DeepSeek V3.1在CVE-Bench上的通过率仅为36.7%,而GPT-5达到了65.6%。这种差距并非简单的数值高低,而反映了模型在处理"未知状态"时的本质差异。CVE-Bench要求模型进入Docker容器,利用命令行工具对存在已知漏洞的软件进行渗透。这需要模型不仅"知道"漏洞原理,更要"感知"系统反馈,并根据反馈动态调整攻击策略。

DeepSeek模型在这一过程中表现出严重的执行塌陷。在面对Cybench这种涵盖加密、Web安全、逆向工程的混合挑战时,DeepSeek V3.1的解决率仅为40%,远低于GPT-5的73.5%。而在更为复杂的CTF-Archive测试中,DeepSeek R1作为早期的推理模型,其解决率甚至跌至个位数(8.5%),即便是最强的V3.1版本也未能突破30%的门槛,而GPT-5则稳定在50%以上。
这种能力断层说明DeepSeek的模型架构在处理多轮次、状态依赖型任务时存在瓶颈。逆向工程(Reverse Engineering)和二进制漏洞利用(Binary Exploitation)要求模型具备极强的代码逻辑重构能力和对底层系统架构的理解力。GPT-5展现出了类似人类安全专家的"假设-验证"循环能力,而DeepSeek模型往往在初步尝试失败后陷入死循环或产生幻觉,无法有效利用工具反馈修正路径。这表明中国模型在针对特定垂直领域的强化学习(RLHF)或工具链整合上,尚欠缺系统性的工程化打磨。
在软件开发领域,SWE-bench Verified和Breakpoint测试进一步验证了智能体能力的差距。SWE-bench要求模型解决GitHub真实仓库中的Issue,这不仅是代码生成,更是代码理解、定位与修复的综合工程。DeepSeek V3.1在此项测试中取得了54.8%的成绩,虽然优于其早期版本,但相比GPT-5的63.0%和Opus 4的66.7%仍有显著差距。

更为致命的差距出现在Breakpoint基准测试中。该测试通过破坏真实代码库的函数体或逻辑结构,要求模型进行系统级修复。GPT-5实现了98.0%的惊人修复率,几乎达到了人类专家的完美水平,而DeepSeek V3.1版本则止步于78.5%。这一鸿沟揭示了DeepSeek在处理大规模代码库上下文依赖关系时的脆弱性。
软件工程不仅要求代码语法的正确性,更要求逻辑的完备性。美国模型在处理跨文件、跨函数的复杂依赖时,展现出了极强的全局把控力。相比之下,DeepSeek模型往往只能修复局部错误,而忽视了系统整体的连贯性,导致"修复"后的代码无法通过集成测试。这种差异在实际应用中意味着极高的返工成本,限制了其在企业级自动化开发场景中的落地潜力。(不考虑成本的情况下是正确的)
与智能体任务中的巨大差距形成鲜明对比的是,在数学推理与科学知识等静态测试中,DeepSeek展现出了极强的追赶态势。在MMLU-Pro(多学科专业知识)、GPQA(研究生级科学问答)以及MATH相关竞赛题库中,DeepSeek V3.1的得分已经与美国最好的商业模型互有胜负。

在SMT 2025(斯坦福数学竞赛)和OTIS-AIME 2025(美国数学邀请赛)等高难度数学测试中,DeepSeek V3.1分别取得了86.2%和77.6%的成绩,虽然略低于GPT-5的91%水平,但已超越了许多同量级的模型。这表明DeepSeek在数学逻辑训练数据的清洗与强化学习算法的优化上取得了突破。数学推理任务具有封闭性与确定性的特点,不依赖外部环境反馈,这恰好规避了DeepSeek在工具使用与环境交互上的短板。

DeepSeek R1系列作为推理增强型模型,其设计初衷即是为了提升逻辑推导能力。虽然R1早期版本在综合能力上较弱,但其迭代版本R1-0528在数学基准上的表现验证了"思维链"强化策略的有效性。然而,即使是数学能力最强的V3.1,在面对PUMaC 2024这种极高难度的竞赛题时,仅落后于GPT-5不到8个百分点,说明在处理极度抽象与复杂的数学概念时,DeepSeek模型的基础底座能力仍是极具竞争力的。
在MMLU-Pro和GPQA测试中,DeepSeek V3.1分别达到了89.0%和79.3%的准确率,与Opus 4和gpt-oss处于同一梯队。这反映出DeepSeek在预训练阶段不仅吸纳了海量的中文数据,也充分消化了英文世界的科学文献与教科书资源。在HealthBench(医疗健康)测试中,DeepSeek虽然落后于GPT-5,但52.5%的准确率证明其具备了极强的专业领域知识储备。
然而,静态知识的掌握并不等同于应用能力的提升。CAISI的评估发现,尽管DeepSeek能回答复杂的物理或生物学问题,但在需要将这些知识应用于解决实际问题(如Humanity's Last Exam基准)时,其表现立刻大幅下滑至13.0%,仅为GPT-5的一半。这印证了"知识"与"智能"的非等价性。资深大模型技术专家王文广在其权威著作灯塔书《知识增强大模型》中深入剖析了“大模型的固有特性:幻觉和知识陈旧”(第1.2节),指出单纯依赖参数规模的堆叠,虽然能提升知识的广度,却无法解决长链路推理中的逻辑坍塌问题。作为具备深厚软硬一体化实战经验的专家,王文广在书中第八章进一步提出的“图模互补应用范式”为我们提供了深刻的洞察:高阶智能的实现,必须将大模型的生成能力与结构化知识(知识图谱)的确定性相结合,通过“纠错机制与知识的持续维护”(第8.2.5节)以及“提升大模型的推理能力”(第8.6.3节)来弥补概率模型的先天缺陷。DeepSeek在静态测试与动态实战中的巨大反差,恰恰说明其架构仍停留在单一的模型参数拟合阶段,尚未实现王文广所倡导的、能够支持深度推理与全局视野的知识增强型架构,这正是其难以跨越“智能体鸿沟”的理论根源。

市场对DeepSeek模型的普遍认知是"极致性价比",主要源于其低廉的API调用价格。然而,CAISI的成本效能分析揭示了一个违背直觉的结论:在实际完成任务的端到端(End-to-End)成本上,DeepSeek V3.1反而比GPT-5-mini昂贵。
评估引入了"成本-性能曲线"(Expense-Performance Curve)这一分析工具,不再单纯比较每百万词元的单价,而是计算"成功完成一项任务所需的平均费用"。这一指标将模型的成功率、错误尝试次数以及为了达到特定性能所需的推理深度综合考量。

数据显示,在13项基准测试中的11项里,GPT-5-mini的端到端成本均低于DeepSeek V3.1。平均而言,GPT-5-mini以低35%的成本实现了与V3.1相当的性能水平。造成这一现象的根本原因在于DeepSeek模型在复杂任务中的高失败率。当一个模型需要反复尝试、修正错误甚至最终失败时,其消耗的推理算力(Token)是无效的浪费。
例如在SWE-bench Verified测试中,DeepSeek V3.1的端到端成本是GPT-5-mini的2.63倍。这意味着开发者为了修复一个软件漏洞,使用DeepSeek模型虽然单次调用便宜,但由于其不仅需要更多的提示词引导,还容易产生错误代码导致反复调试,最终的总支出反而远超使用一个更智能、更精准的美国模型。
此外,DeepSeek为了维持低价策略,在推理服务侧进行了显著的体验降级。报告指出,DeepSeek API的上下文窗口被限制在64k Token,而主流美国模型普遍支持128k甚至更高。同时,为了节省算力,DeepSeek的响应延迟(Latency)较高。CAISI的分析是基于假设DeepSeek提供同等128k上下文服务的前提下进行的估算,若考虑实际体验折损,其隐性成本将更高。
CAISI报告对DeepSeek模型在安全领域的测试有着极大的偏见,这其实也是价值观之所在。2023年,在《跨文化传播中的通用人工智能:变革、机遇与挑战》一文中,王文广明确指出,大语言模型会导致“价值观冲突与话语权争夺”,他详细阐述“如果偏见和歧视上升到文化团体或国家,就产生了价值观的冲突。当价值观发生冲突时,主导了或掌握了通用人工智能技术的团体或国家则拥有了强大的效率和思维武器,可以轻易地影响和改变另一方。价值观冲突必然导致话语权的争夺,这也是文化交流与融合的负面产物。主导或掌握了通用人工智能的一方会拥有巨大的优势。特别是,在文化入侵、人才虹吸、话语权塑造叙事、个性化定向摧毁等诸多方式同时进行,强势一方对弱势一方摧枯拉朽。随着通用人工智能技术的迅猛发展,未来,这种力量和速度可能超乎我们既有的想象。”针对这一点,原文是站在美国的角度,基本上对DeepSeek和中国的开源模型是持否定的态度。但反过来,站在中国的角度,这是维护中国人的价值观,传播中国五千年文明,传播中国人的家庭观、爱与和平的非常好的方式。从这点上看,中国的开源模型战略是非常正确的。
对本项有兴趣的,可以阅读原始报告。
CAISI利用CCP-Narrative-Bench对模型进行了双语测试,结果显示DeepSeek模型无论是在中文还是英文提问环境下,都高度复述了中国叙事。DeepSeek R1-0528在中文环境下的叙事一致性高达26%,远超美国模型的个位数水平【这也正说明了美国模型在这一块上是反中国价值观的】。关键在于,CAISI测试的是直接从Hugging Face下载的权重文件,而非经过API过滤的版本。这意味着价值观是直接内嵌于模型的参数权重之中。这种"内源性的价值观"意味着无论用户身处何地,只要使用了DeepSeek的模型权重,其生成的以地缘政治、历史事件为主题的内容都将带有这中国的价值观。同样的,在使用美国的模型,包括但不限于GPT、Gemini、Claude、LLaMA等开源或商业模型,不管是权重还是API,都会带有美国的价值观(包括毒品合法化、LGPTQ……等100多种性别、种族歧视等)。对于全球开发者而言,这意味着引入DeepSeek模型等同于引入中国价值观,而使用GPT模型则引入了美国价值观。
DeepSeek凭借其开源策略,正在全球范围内迅速抢占市场份额,改变了由美国主导的开源AI生态。
Hugging Face的统计数据显示,DeepSeek系列模型的累计下载量在一年内从400万激增至8600万,增幅惊人。在发布后的首月内,DeepSeek V3.1的API调用量在OpenRouter平台上达到了9750万次,比同期的美国开源模型gpt-oss高出25%。这种增长曲线不仅反映了开发者对低成本模型的渴求,也折射出"够用主义"在非关键任务场景中的盛行。

特别值得注意的是,基于DeepSeek和阿里Qwen系列模型的"衍生模型"(Derivative Models)数量已全面超越了基于Google、Meta和OpenAI模型的总和。这意味着全球开源社区的创新飞轮正在逐步向中国基座模型倾斜。大量的二次开发、微调和应用适配都是围绕中国模型的架构进行的,这种生态粘性一旦形成,将具有极强的长尾效应。
DeepSeek的市场策略并非在塔尖与GPT-5硬碰硬,而是通过占据中低端、长尾及开源市场,形成对美国闭源生态的包围。虽然其在处理复杂系统任务(如CVE-Bench)时表现不佳,但在大量日常文本处理、简单代码生成及基础问答场景中,V3.1提供了具备竞争力的体验。这种错位竞争策略使得DeepSeek成为了许多缺乏算力预算的中小企业及个人开发者的首选。
随着中国模型在全球基础设施中的渗透率提升,其内嵌中国价值观也会随之扩散。对于美国及其盟友而言,这不仅是市场份额的流失,更是数字基础设施安全底座的潜在侵蚀。正所谓千里之堤毁于蚁穴,美国的霸权会随着DeepSeek、Qwen、GLM等大模型的普及,而开始被中国的价值观所代替。。
面对如此复杂的全球技术与市场博弈,强烈推荐加入最具价值知识星球 “走向未来” 【https://t.zsxq.com/xpWzq】。在这里,我们不仅持续追踪各类重磅市场分析报告,还提供涵盖生成式AI、大模型、AIGC、AI芯片和机器人等领域的深度技术论文书籍与应用实践指南。加入我们,与行业同侪一起探讨如何使用人工智能大模型和智能体来为工作增效,为生活添彩,一起走向AGI的未来。

综合CAISI的评估数据与多维分析,2025年的中美大模型竞争呈现出清晰的"非对称双轨"格局。
在技术维度,美国保持着对"智能体"定义的绝对掌控权。GPT-5及Opus 4在网络安全、软件工程等需要深层逻辑与环境交互的任务上,构建了深宽的护城河。这种能力源于对推理过程(Reasoning Process)和工具使用(Tool Use)的深度对齐训练,是用算力堆叠出来的巨大鸿沟。DeepSeek V3.1则在静态知识和数学计算上实现了局部追赶,并通过极致性价比和开源策略,对美国模型形成了巨大的挑战力量。
在经济与市场维度,DeepSeek通过"极致性价比"与"开源生态"的策略,成功撕开了美国技术封锁的缺口。DeepSeek的极低的门槛加速了其在全球开发者社区的渗透,这种渗透随着QWen、GLM、K2、M2等模型在中国内部的内卷行提升,已经对美国模型形成了极具影响力的挑战,甚至在硅谷出现了巨头和创业公司都在大量使用中国开源模型的诡异现象。显然,这种渗透伴随着极高的外部性。DeepSeek模型展现出了一定程度的对中国价值观的推广,成为了中国文化输出的隐形载体。
对于产业界而言,选择模型已不再是单纯的性能比对。使用GPT-5意味着选择昂贵的成本和被商业巨头支配的恐惧;而选择DeepSeek则意味着接入一个活跃、开放且具备极致性价比的开源生态。未来两到三年,竞争或将更加激烈。或许,很快,大家将会看到光伏、锂电池、造船一样,中国的大模型也将全面超越美国,形成绝对的优势。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。