AI账单上涨与成本治理技术

原创

用户11764306

发布于 2026-05-20 11:17:21

2240

为何你的AI账单在上涨（即使Token单价变得更便宜）📉💸

AI实验的终结：应对CFO新的ROI要求

为何这已成为一个高管层问题

为何AI支出不再仅仅是IT预算问题？AI已经跨越了一个门槛，各部门的总支出需要资本配置纪律，而不仅仅是软件采购审查。现在每个职能部门都有理由进行AI投资，必须有人决定哪些请求值得持续资助。这一决定落在了首席财务官（CFO）身上，这意味着将AI提案描述为功能请求的技术领导者，将输给那些能够展示可衡量业务成果的同行。

“Token经济学”和“Token最大化”在实践中究竟意味着什么？

Token经济学仅仅是AI使用的实用经济学：提示词、自动化工作流和后台代理如何转化为实际支出，以及这些支出是否产生价值。Token最大化是一种新兴习惯，因为Token感觉便宜，或者高消耗工作流看起来更高效，从而促使人们通过AI推送更多工作。这种本能可能是理性的，但它带来了治理问题，因为组织需要一种方法来区分生产性消耗和浪费性消耗，而大多数组织尚未建立这种能力。

为何Token价格持续下跌，AI账单却在攀升？

更低的单价鼓励了更多消费，而不是更少。随着Token变得更便宜，团队构建更雄心勃勃的系统：更多自动化、更多上下文、持续在后台运行的代理。任何单一查询的边际成本感觉微不足道，因此消费会膨胀到填满任何可用预算。那些只专注于谈判降低单价而忽视其系统设计方式的组织，会发现无论怎样他们的总账单都在攀升。

为何CFO的审查现在变得如此严格？

广泛的实验阶段即将结束。许多组织已以某种形式部署了AI，但很少有人相信这些部署产生了切实的价值。一旦这一差距变得明显，财务团队就不再视AI为学习练习，而是开始要求持续投资的证据。资金逻辑从支持大量定义松散的投资组合，转变为将资源集中在少数具有明确回报案例的工作流上。

领导者应真正治理什么

正确的控制单位是什么：席位、团队、供应商还是工作流？

最有用的治理单位是单个应用程序或工作流，而不是软件席位或部门预算。AI成本由使用模式产生，而不是由谁持有许可证决定。一个自动化工作流可以悄悄消耗比数十个人类用户加起来还多的Token。在工作流层面进行预算，可以清楚地看到哪些用例在扩展，哪些超出预算，哪些应该重新设计或关闭。

支出上限何时有效，何时适得其反？

上限在防止低价值使用中无节制的增长时有效，特别是当没人能解释支出从何而来时。当上限压制了最有成效的工作时，就会适得其反。如果你消耗最高的团队同时也是表现最好的团队，那么一刀切的上限就是一种伪装成财务纪律的对绩效的征税。正确的顺序是：先衡量结果，再决定控制点在哪里。

当供应商提出基于结果的定价时，领导者应实际问什么？

基于结果的定价听起来很有吸引力，因为它似乎使供应商的激励与业务结果保持一致。但这种一致性并非自动实现。它完全取决于结果如何定义、成功如何验证，以及当系统产生技术上触发收费但实际上并未创造价值的结果时会发生什么。领导者应问：谁定义什么是有效结果？争议如何处理？供应商是否有动机以偏离客户实际目标的方式最大化可计费事件？

为何不同的AI定价模型需要不同的治理方法？

并非所有AI支出行为都一样。订阅定价带来可预测性，但可能掩盖固定费用内的浪费。基于使用量的定价使活动可见，但会产生不稳定的账单。基于结果的定价听起来更利于业务，但它可能掩盖验证计费结果是否正确、完整且有价值所需的运营工作。向“席位+消费”模式的转变增加了另一个复杂性：买家可能会续签熟悉的按席位合同，同时还要承担行为截然不同的使用费、积分、代理操作或结果费。领导者需要与价值如何宣称、成本如何产生以及性能如何可能失败相匹配的治理。否则，他们可能会在优化旧定价模型的同时，其真实风险已经转移到了别处。

席位不再是产品。它越来越只是预付费消费的外壳。

可见性：其他一切的前提

当前最重要的治理缺口是什么？

归因。大多数组织无法回答一个基本问题：哪个团队、工作流或代理消耗了多少Token，以及该消耗支持什么业务结果？没有这种可见性，所有其他治理机制——无论是上限、成本分摊还是ROI阈值——都在信息不完整的情况下运作。解决归因问题是其他一切的前提。

良好的可见性基础设施究竟是什么样？

这意味着需要专门的仪表板，近乎实时地展示每个工作流和每个代理的消耗，而不是在月末收到无法将成本追溯到具体决策或团队的发票。某机构扩展了其内部的Engineering 360仪表板，用于在工作流和团队层面跟踪AI使用情况，这表明当标准报告无法让领导者清楚了解Token消耗、代理活动和采用模式时，公司通常需要定制的可见性工具。这是一个早期投资于定制可观测性会带来回报的领域，而不是等待供应商生态系统赶上。

Token消耗如何成为生产力信号而不仅仅是成本指标？

高Token消耗和高质输出往往是相关的。在设置任何控制措施之前，将Token支出与实际业务结果（成交的交易、解决的问题、交付的代码、防止的客户流失）联系起来。一旦有了这幅图景，就在高相关性的工作流上投入更多，并仔细审查其余部分。跳过这一步直接设定支出上限的组织，可能会首先惩罚他们最高效的团队。

行之有效的实用治理机制

我们现在能采取的最具操作性的治理步骤是什么？

为每个应用程序设置Token预算，并配有自动告警阈值，并要求任何新AI功能在上线前进行成本影响评估。将这种审查纳入冲刺计划，而不是作为财务团队的事后考虑。这将财务纪律嵌入到开发过程中，而不是在成本已经上升之后才强行附加。

什么是FinOps实践，为何它们对AI很重要？

FinOps是通过工程、财务和业务团队之间的协作，将财务责任引入技术支出的实践。应用于AI，这意味着在项目启动前预测Token需求，为竞争性用例设置ROI批准关卡，并实施成本分摊，让业务部门承担自身消费的实际成本。尤其是成本分摊机制，能创造真正的激励，促使团队扪心自问其使用是否合理。

如果你消耗最高的团队同时也是表现最好的团队，那么一刀切的支出上限就是一种伪装成财务纪律的对绩效的征税。

基础设施选择应如何纳入AI成本治理？

不要再从成本角度将所有AI工作负载视为等同。公有某中心是实验和突发能力的正确选择，因为灵活性证明了其溢价的合理性。可预测、高容量的推理工作负载更适合私有或本地基础设施，在这些环境中，固定成本随着时间的推移优于消费定价。将所有工作默认为公有某中心会吸收溢价，随着工作负载的扩展，这种溢价会显著增加。

采购与组织风险

我们的供应商合同仍然是按席位计费的。这是问题吗？

是的。按席位定价已不能清晰地映射到AI系统产生成本的方式。在许多AI密集型产品中，席位正成为包含基础使用量的外壳，而不是总成本的可靠代理。每一个提示词、自动化工作流和后台代理都可能消耗Token，无论有多少人获得了许可，这会产生按席位预算无法预测的发票波动。推动混合模式，将可预测的基础费用与超过约定阈值的使用量定价相结合，并内置明确的价格上限、数量承诺、报告权限和超额条款。

当席位变成消费捆绑包时，什么发生了变化？

许可证仍然重要，因为它控制访问权限，但它不再能告诉你足够多的成本信息。两个拥有相同席位数量的团队可能产生截然不同的账单，如果一个团队将AI用于偶尔起草文案，而另一个团队则在客户支持、软件开发或安全工作流中运行上下文密集型代理。因此，采购团队需要协商包含的使用量、超额费率、使用量报告以及对意外消费的合同限制。采购问题从“有多少人需要访问权限？”转变为“我们授权了多少机器工作？”

代理式AI的治理成熟度差距是什么？

代理式AI指的是那些自主采取一系列行动的系统，而不是响应单个提示词。这在经济上很重要，因为代理本质上不是基于席位的用户。它执行任务、调用工具、消耗Token，并可能在人类离开后继续工作。研究表明，计划部署代理式AI的组织中，只有约五分之一拥有成熟的治理模式。如果没有明确的责任结构和绩效指标，组织就会积累从业者所谓的“内容债务”，即需要人工修复的AI生成输出，这会侵蚀进一步投资的ROI基础。在规模化之前构建治理，远比问题出现后再补救要便宜得多。

我们应该如何构建AI成本治理以引起董事会层面的关注？

将其构建为竞争风险，而不是预算管理问题。不受管理的AI消费会以复合的方式侵蚀利润率，而那些良好治理其AI经济学的组织将比不这样做的组织拥有结构性的成本优势。Token正成为一种真实的运营输入，对于那些打算认真规模化AI的组织来说，以与能源采购或资本支出相同的严谨性对待Token并非可选项。

🎗️某机构IPO🎗️

某机构本周即将上市，对于这家我早期就开始关注的AI基础设施公司来说，这是一个里程碑。我首次遇到其CEO是在2018年初，当时该机构尚未发布其首批处理器，公司仍主要专注于AI训练。在其第一代芯片问世后，该团队最早的一次演讲是在2019年我共同主持的一次会议上。这次IPO现在尤其有趣，因为该机构越来越关注推理——即运行已训练的AI模型以产生答案、代码、图像或其他输出的工作。随着越来越多的企业将AI投入生产，以及推理模型在生成响应时（不仅仅是在训练期间）使用更多计算资源，这一转变意义重大。对于我们这些构建、购买或使用AI应用程序的人来说，出现另一个强大的、注重速度的替代方案是个好消息。FINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

FinOps