全文概览
在ChatGPT引发的AI浪潮下,我们所熟知的数据中心正经历一场“板块构造式”的重塑。它不再是简单的应用托管地,而是转变为以GPU为核心、能够以工业规模将能源和信息转化为智能的“AI工厂”。这种转变意味着什么?它要求基础设施从传统的CPU中心系统,彻底翻转为极致并行、高带宽、超低延迟的网络结构。
作为技术从业者,你是否已经意识到这场堆栈翻转的深度? 传统的应用中心模式正在衰落,取而代之的是通过API交付成果的“服务即软件”(SaSo)模式。AI工厂如何将原始数据转化为可信赖的智能输出?企业应该自建工厂还是通过API消费服务?以太网和InfiniBand的竞争格局将如何演变?本文将深入解析AI工厂的参考架构、关键技术支柱以及数万亿美元的市场机会,帮助你理解这场由加速计算驱动的革命。
阅读收获
👉 划线高亮 观点批注
深度解析 作者:David Vellante, David Floyer, Bob Laliberte, Scott Hebner and Paul Nashawaty[1]
我们所熟知的数据中心正在被重塑为“AI工厂”——一个经过电力和数据优化的工厂,能够以工业规模将能源和信息转化为智能。
技术堆栈正在从以通用中央处理器(CPU)为中心的系统,转向以图形处理器(GPU)为中心的加速计算,这种计算针对并行操作进行了优化,并专为人工智能而构建。网络结构对于这一转变至关重要,其支持元素包括解耦存储、受控数据平面,以及从以应用为中心的操作转向智能的、智能体驱动的控制平面,该平面负责编排模型、工具和流程工作流。简而言之,对通用计算的投资正迅速转向极致并行、纵向扩展/横向扩展/跨域扩展的网络,以及专为大规模AI吞吐量而构建的自动化数据治理。
在本期深度解析中,我们将深入探讨AI工厂的关键方面。在本研究报告中,我们将:
TheCUBE Research将AI工厂定义为专用于AI生产的系统。它的作用是通过自动化、端到端的流程,将原始数据转化为多功能的AI输出——例如,文本、图像、代码、视频和代币。这些流程整合了数据管道、模型训练、推理、部署、监控和持续改进,从而以大规模生产智能。

在定义中,我们强调“多功能输出”,因为工厂涵盖了多种模态,而不仅仅是代币生成。输出是智能,我们希望这个定义能够反映更广泛、经得起时间考验的成果。我们定义的范围超越了硬件,涵盖了编排AI优化工作负载的技术框架和实践者设计的流程。
简而言之,AI工厂是大型的、专业的计算工厂,旨在持续创造智能,并在循环中内置质量和安全门。
下图展示了AI工厂如何将原始数据转化为智能的流程。可以想象成电力流入、数据流经系统、成果流出。

工作负载是AI特定的,运行在加速的、大规模并行的基础设施上。流程遵循自动化过程:AI管道 → 训练/实验(You Only Look Once[2] 及其他) → 推理 → 部署 → 监控 → 持续改进。目前,这通过TensorFlow、PyTorch、容器和标准容器构建,但这些原语将从最终用户甚至开发者那里被抽象出来。
我们的观点是,大多数企业不会自行建立这些工厂,除非他们打算成为运营商,竞争代币和其他AI收入。相反,他们将消费由OpenAI、Anthropic PBC、其他AI实验室和云服务商等公司构建的应用程序编程接口(API)和软件。投资回报将体现在各种行业用例中,如上所示,包括:大型语言模型训练、计算机视觉、低延迟的实时欺诈检测、推荐引擎、医疗决策支持等。价值在于实时输出,而这由底层机制所实现。
关键要点: 工厂架构是复杂的。如今,每个AI工厂都是一个定制系统,这种情况可能会永久持续。我们目前的想法是,企业AI将通过API和连接器访问大型AI工厂,并由一个软件层来隐藏底层原语和工具的复杂性。
我们相信,这种基础设施支持着业务的深刻变革,即软件即服务(SaaS)的模式演变为**服务即软件(SaSo)[3]**,这意味着智能体驱动的服务将在有限的人工干预下(仍有人类参与循环)交付,以实现巨大的生产力提升。
举例来说,想象一个由AI驱动的自主金融顾问。在这种服务即软件模式中,客户只需将其财务数据和目标直接输入给智能体。该智能体立即使用机器学习分析数据,结合实时市场变化、税法变更和客户的风险状况,完全自主地生成并执行投资决策或财务计划。
除非客户需要额外的人工建议,否则人类顾问将从流程中移除。一个重要的细微差别是,客户支付的不是软件本身,而只是为交付的成果付费——例如,优化的投资组合回报或成功管理的退休基金。
关键要点: 这改变了财富管理业务的运营方式。在所有行业中,都有数千个例子将受到这些变化的影响。
该场景现阶段只能在内部测试使用,一旦涉及到真金白银,Agent决策的可信机制,当前尚不具备条件,风险和后果LLM无法承担。
下图旨在描绘基础设施和软件领域正在发生的板块构造式转变。在ChatGPT发布之后,重心从以应用为中心的数据中心转移到制造智能的AI工厂。

|876x493
传统堆栈是自上而下构建的,先有应用,然后开发基础设施来支持应用。未来,基础设施和软件将更具柔韧性,能够支持专为特定目的构建但更具可塑性的流程流。可以想象成流程乐高积木,它们不是静态和刚性的,而是可以近乎实时地开发以适应特定的业务目标。
堆栈的每一层都在重建,以制造智能,而不仅仅是托管应用程序。
以下几点简要描述了我们在堆栈中看到的一些变化:
关键要点: 大多数企业不一定会端到端地构建这些工厂;他们将通过API消费其服务,同时将结果集成到现有的信息技术中。(企业侧的数据堆栈该如何构建?这一层显然无法直接外包出去)无论如何,我们相信堆栈正在从以应用为中心的成本中心,翻转为通过API访问的智能工厂——企业接入以获取成果的独立工厂。
下图将网络分解为三个维度——纵向扩展、横向扩展和跨域扩展——因为AI工厂在每一层都离不开带宽、确定性和低延迟。

关键要点: 纵向扩展支持最高性能,横向扩展提供弹性,跨域扩展实现区域AI工厂。它们共同构成了分布式AI的骨干,在可容忍的延迟范围内连接计算、数据和智能体。
该图总结了我们(与ZK Research合作完成)关于AI工作负载网络结构的调查,并与Bob Laliberte的上述分析相吻合。这场网络结构辩论[7]在网络社区中被广泛讨论,但我们认为这是一个“和”而不是“或”的讨论。

上面的数据显示,59%的组织倾向于将以太网用于AI,而38% 倾向于InfiniBand。理由是以太网已经支撑了大多数环境(46% 表示它用于网络的其余部分),团队拥有相关技能(44%),并且云服务商将其标准化(43%)。InfiniBand占据了性能高地,因为近60% 的采用者引用了“更好的性能”——它通常与集群GPU系统捆绑在一起。它也是高性能计算环境的主要组成部分。但随着AI优化的实现(例如RoCE v2、EVPN/VXLAN、丰富的遥测技术)和新芯片将确定性和吞吐量推高,以太网正在缩小性能差距。
关键点:
关键要点: 我们认为以太网将主导企业AI数据中心,而InfiniBand将继续存在于绝对性能高于一切的领域。
下面的预测(2025年春季更新)量化了正在进行的建设,包括建筑基础设施、电力、冷却、计算、存储、网络和核心系统软件。

如需更深入的分析,读者可以参考之前的深度解析,其中包含此数据的详细信息和进一步的细分,包括本地/企业和云的划分[8]。
多年来,数据中心建设支出一直徘徊在2000亿美元左右。在2024年,它从2220亿美元跃升至3500亿美元(同比增长58%),并在我们的预测中设定了新的轨迹。该模型显示:
堆栈翻转现在在超大规模云服务商、新云服务商和AI实验室的损益表中清晰可见。资本支出(CapEx)主要集中在GPU系统和高带宽网络上,解耦存储所占的百分比低于传统数据中心支出,并包括电力/冷却。传统的通用设备正急剧让位于加速计算。
关键要点: 我们相信AI工厂正在将传统数据中心模式从稳定的成本中心转变为增长引擎,加速计算将在未来十年及更长时间内推动这一曲线。
下表描绘了到2030年AI工厂产生的收入。它与之前的资本支出图表形成了鲜明对比,后者显示到2030年支出接近1万亿美元,而AI工厂产生的收入略低于5000亿美元——这并不意外,但数字巨大,差距也很大。

收入并非来自销售基础模型,而是来自通过工厂API构建的软件。前提是工厂暴露连接,让供应商能够打包成果并按使用量计费。
关键要点:收入滞后于资本支出,但加速流向那些将工厂API转化为可重复、以成果为中心的软件的参与者。US领先,CN激增,而先发者——尤其是OpenAI——受益于企业AI,如果他们能建立可持续的模型,多个实验室仍有发展空间。
下表隔离了US公司从AI工厂获得的全球收入。它具有方向性;“其他”和CN的长尾最终可能会更大。我们目前对CN和世界其他地区的贡献没有很好的可见性和信心进行预测,这可能非常可观,并可能使这些数字增加3%到50%或更多。

我们相信企业对企业(B2B)将赢得胜利。消费者/专业消费者开启了这一切,但未来的资金流来自企业API和服务。论点是,随着生产转移到AI工厂,传统数据中心将衰落;企业IT将通过API消费智能(许多企业不会运营工厂),因此暴露可靠、受控接口的供应商将抓住支出。这种观点假设OpenAI(及其同行)发展出可行的企业模式——将聊天机器人和编码的早期吸引力转化为企业可信赖的、可计费的服务。
政府贡献了可观的金额,但增长较慢;采购周期和先前的限制(例如,广泛禁止ChatGPT)延迟了采用。政策仍将塑造市场,其中安全、数据驻留、出口规则很重要,但到本十年末,企业将为大部分收入提供资金。信任仍然是一个限制因素,因为企业在将专有数据发送到第三方工厂之前将要求控制。
关键要点: 在我们看来,真正的资金在于企业AI:API优先,服务其次,B2B将超过消费者,而公共政策将设定防护措施。
下表来自theCUBE Research的智能体AI未来指数[10],显示了企业在未来18个月内将优先考虑的互操作性。论点是生成式AI是一个门户——就像浏览器之于互联网一样——但价值是通过后端的AI工厂流动的。

前提是如果AI工厂是开放的,它们就能更容易地扩展——但社区对此观点存在分歧。
一方面,历史表明,“浏览器大战”在开放协议标准化互联网时结束了。同样,生成式AI的前端(ChatGPT、Claude、Gemini、Grok)必须通过开放模型、协议和API,以便智能能够被广泛消费和集成。
企业不希望碎片化或锁定;他们想要安全、确定性和可移植性。调查数据显示,59% 的受访者优先考虑开放模型/协议/API;58% 优先考虑可扩展适配器/连接器;55% 优先考虑智能体集成/协作;52% 优先考虑可组合工作流(任何智能体);52% 优先考虑通用语义层(N=625)。
另一方面,由于每个AI工厂的建设都是一个“雪花”,需要高度定制化,反驳观点认为,AI工厂堆栈的事实标准甚至专有元素可能会成为可行甚至获胜的方案。在许多方面,英伟达代表了这场辩论的缩影。一方面,其专有硬件和软件套件推动了这个AI新时代。与此同时,该公司也接受了以太网等开放标准,并开源了其在AI、机器人、数据科学图形等领域的许多创新。
总的来说,我们的观点是,标准就像智能管道的“电网”——电路、断路器和调节器——使智能体通信和智能体控制平面变得实用。供应商(英伟达、Advanced Micro Devices Inc.、英特尔公司等)正在采取措施,但正如所示,大多数AI工厂只是半开放的——并存在碎片化的风险,就像云一样。正如Scott Hebner所说:“95%的健康加上5%的鼠药仍然会杀死你;我们倡导行业全力投入开放。”
关键要点: 我们的观点是,IT浪潮的历史是由事实标准赢得开局的,而开放的法定标准被证明是生态系统飞轮的加速器。对于AI工厂要大规模交付服务即软件,我们相信开放标准将有助于智能安全可靠地流经智能体、应用程序和企业。但起点必然需要专有创新和垂直整合来证明投资回报率。
之前的调查显示企业需要开放模型、协议和标准。这反映了当今IT的工作方式。相反的观点是,大多数实践者和用户看到的层将被OpenAI及其同行,以及可能的云服务商等软件领导者/创新者抽象化——他们将通过隐藏复杂性来竞争。
一个合理的论点是,客户端暴露的体验将趋同于API和托管服务,从而隐藏底层机制。这在开发者服务中已经有所体现,其中更丰富的原语、更紧密的集成和有主见的默认设置被捆绑到一个产品中。可能的前景是:
尽管如此,提供商通过治理和透明度赢得企业信任,而开放标准支持这种精神。从时间上看,我们认为抽象层必须在2027-2028年实现,届时我们的预测要求OpenAI的运行率达到400亿至500亿美元,服务范围成为一个“固化的顶层”。
关键要点: 开放标准很重要,但可见的接口可能是简单的API。在我们看来,一个成功的策略是用安全、受控的抽象层来包装工业AI工厂,企业无需接触底层机制即可采用。
本节阐述了AI工厂如何改变日常软件工作——开发者构建什么、平台如何运行以及安全驻留在何处。

加速计算正在重置对延迟和规模的期望。专用GPU/张量处理单元(TPU)/现场可编程门阵列(FPGA)正在推动2025年达到约1578亿美元的同比增长约46.8%,从而实现实时分析、AI驱动的决策和大规模模拟。这种性能伴随着应用现代化。随着企业重新架构到云原生模式,与平台重构和持续集成/持续部署(CI/CD)相关的服务将从2024年的约198亿美元扩展到2029年的约396亿美元。
运营模式也随之转变。平台工程的重点从“交付基础设施”转向“交付开发者体验”。我们的研究表明,与内部管理的资产相比,共同管理的平台将47% 的开发者时间解放出来用于创新,而内部管理仅为38%,这得益于内部开发者门户、自助服务环境、基础设施即代码、容器和可观察性。安全是持续的,而不是障碍。突出的开发安全运营(DevSecOps) 趋势是:左移测试、AI辅助检测/响应和**零信任**[11]。这些推动了一个市场,预计到2030年将达到约417亿美元(复合年增长率约30.8%)。人机协作仍然是一个关键的设计点。
所有这一切都导向了服务即软件——智能体驱动的、以流程为中心的应用程序,它们运行在受控平台上,并通过成果而非功能实现货币化。赢家将减少摩擦(更少的粘合代码),暴露安全的自助服务,并在速度加快的同时保持审计师和站点可靠性工程师(SRE)的完整性。
建议
关键要点: 我们相信加速、现代化、平台工程和DevSecOps的融合是AI工厂的运营行为——也是通往服务即软件的实用路径。
企业技术研究(Enterprise Technology Research)的散点图将支出动能(净得分) 放在Y轴上,将已安装渗透率/重叠度放在X轴上,涵盖了约1800名受访者,涉及所有行业。这是一个跨生态系统的快照——而不是单一类别的划分。

右上角挤满了超大规模云服务商和领先的AI平台——微软、AWS、谷歌、OpenAI——以及其他存在感较低的AI实验室(Anthropic、Meta等)。英伟达以强劲的动能位居榜首,反映了其在加速计算中的核心作用。网络(Arista Networks Inc.、Cisco Systems Inc.、Juniper Networks Inc.)、半导体(AMD、英特尔、Broadcom Inc.)、基础设施原始设备制造商(HPE、戴尔)和“新云服务商”(CoreWeave Inc.、Lambda Labs Inc.等)构成了这个群体,Oracle Corp. 在AI中扮演着更突出的角色。我们还将公共部门(US政府) 和CN(包括其政府和主要的AI参与者)标记为结构性需求驱动因素和政策制定者,并注意到能源公司(未显示)的作用正在扩大,因为容量和电力成为限制性资源。
传达的信息不仅仅是谁热门;它关乎企业计划在哪里购买,因为他们将继续增强自己的数据中心,实现高度并行化(为英伟达等提供支持),但最重要的合作伙伴将是(1)暴露工厂能力的API提供商和(2)将这些API打包成成果的软件供应商。这才是支出转化为利润的地方。
关键要点: 我们的观点是,AI工厂创造了一个数万亿美元的机会,但价值分叉:卖水和卖铲者赢得建设,而API + 软件提供商通过将制造的智能转化为业务成果来赢得经常性收入。
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
原文标题:AI factories: Data centers of the future[12]
Notice:Human's prompt, Datasets by Gemini-2.0-flash-thinking
---【本文完】---
👇阅读原文,独立站提前更新🚀(测试中)🧪