
很多企业做 AI Coding 交流,反复听到同一个问题:
"我们用了 AI Coding,但到底算成功还是失败?"
试点团队说成功——代码生成率 40%,交付速度提升 30%。
其他团队说失败——跨团队推不动,资产复用率不到 10%。
财务说不知道——ROI 算不清,预算每个季度都要重新解释。
答案不在感觉里。答案在成熟度里。
让你不再靠感觉说"做得好不好",而是靠指标说"我们在第几级"。
维度 | 内容 |
|---|---|
5 个等级 | L1 个人探索 → L2 企业试点 → L3 全面使用 → L4 量化驱动 → L5 研发范式 |
6 大支柱 | P1 意图规范 / P2 上下文记忆 / P3 人机协作 / P4 质量安全 / P5 效能回报 / P6 组织文化 |
30 道自评题 | 6 支柱 × 5 题 = 30 题,每题 5 个选项对应 L1-L5 |
为什么是 5 级?因为 AI Coding 的成熟过程中有 4 个清晰的质变点:
通过 5 个真实场景(脱敏),让你快速对号入座。
场景:
某制造企业,3 个工程师自费用 Cursor 写代码,产出了 5 个工具脚本。
公司 IT 不知道,合规没审批,费用自己承担。
有人离职后,没人知道这些脚本怎么用。
判定:L1 · 个人探索
一句话定义:组织看不见,使用在发生。
场景:
某金融机构,1 个试点团队用 Spec Coding,交付速度提升 30%,代码生成率 40%。
产出初版 AGENTS.md 和 3 个团队 SKILL。
但其他团队说"等你们试成了我们再说",18 个月没推进。
ROI 说不清,预算每季度重新解释。
判定:L2 · 企业试点
一句话定义:试点团队顺手,但跨团队推不动。
关键提醒:L2 是最容易"卡住"的等级。试点团队数据好看,但跨团队推不动,18 个月原地踏步很常见。
场景:
某头部科技公司,SKILL Hub 完成三层治理(团队/项目/个人)。
新员工入职第一周学 AGENTS 与 SKILL Hub。
PR-Spec 关联率 75%,AI 代码评审通过率 85%。
四项指标有稳定的周报与月报。
判定:L3 · 全面使用
一句话定义:能力长进组织的骨头,不再依赖某几个人。
关键提醒:L3 的核心标志是"能力长进组织的骨头"——新员工入职第一周就能产出合格代码,不依赖老员工。
场景:
某互联网企业,DORA 四项 + AI 专属六项连续采集 12 周。
月度评审会上,数据显示"SKILL 调用率高但拒审率也高"。
原计划"加大推广力度"被推翻,改为"先优化 SKILL 质量"。
飞轮机制跑通:使用的人越多,贡献的人越多。
判定:L4 · 量化驱动
一句话定义:决策从经验转向数据,指标真的改变决策。
关键提醒:L4 最硬的判定标志不是采了多少指标,而是指标是否真的改变了决策。
场景:
某公司开源核心 AGENTS 模板与 SKILL Hub 脚手架。
GitHub Star 1500+,3 家独立企业成功复现。
受邀在 QCon 大会分享,术语被同行引用。
新入行的公司把他们的规范当作参考起点。
判定:L5 · 研发范式
一句话定义:方法论被外部引用,组织正在定义最佳实践。
关键提醒:能走到 L5 的组织不以"做得更好"为目标,以**"可被复制"**为目标。
等级 | 名称 | 一句话定义 | 核心标志 | 常见卡点 |
|---|---|---|---|---|
L1 | 个人探索 | 组织看不见,使用在发生 | 个别工程师自费使用 | 无合规无资产 |
L2 | 企业试点 | 试点团队顺手,跨团队推不动 | 1-3 个团队有预算有资产 | 跨团队孤岛(最长 18 个月) |
L3 | 全面使用 | 能力长进组织的骨头 | 新员工第一周上手 | 指标驱动决策 |
L4 | 量化驱动 | 决策从经验转向数据 | 数据真的改变决策 | 外部复现 |
L5 | 研发范式 | 方法论被外部引用 | 被当作参考起点 | 耐心 |
支柱 | 编号 | 核心问题 | 颜色 |
|---|---|---|---|
P1 意图规范 | Q1-Q5 | 需求是否可追溯? | 🔵 #3a7bd5 |
P2 上下文记忆 | Q6-Q10 | AI 是否懂你的代码库? | 🟢 #4a8c5d |
P3 人机协作 | Q11-Q15 | 人与 AI 如何分工? | 🟠 #e08a3c |
P4 质量安全 | Q16-Q20 | AI 生成的代码安全吗? | 🔴 #b4534a |
P5 效能回报 | Q21-Q25 | ROI 怎么算? | 🔴 #c62828 |
P6 组织文化 | Q26-Q30 | 能力是否沉淀? | 🟣 #8e5ba6 |
Q1:你们是否有统一的 Spec 模板?
Q2:Spec 是否有版本号管理?
Q3:Spec 字段之间是否一致性对齐?
Q4:PR 是否要求关联 Spec 字段?
Q5:Spec 评审是否有架构师参与?
Q6:是否有 AGENTS.md / Rules 管理?
Q7:企业知识库是否版本化管理?
Q8:长会话上下文是否有锚定机制?
Q9:RAG 是否按语义切片?
Q10:AI 修改决策是否可追溯?
Q11:协作模式是否按任务类型选择?
Q12:Agent 编排是否有治理?
Q13:Harness 工程是否到位?
Q14:敏感操作是否有审批 + 回滚?
Q15:CLI 集成是否生产化?
Q16:是否有 AI 坏味道扫描?
Q17:AI Code Review 链是否多级?
Q18:幻觉引用是否有机制拦截?
Q19:测试是否有"假绿"检测?
Q20:合规是否前置而非事后审查?
Q21:是否有引入 AI 前的基线数据?
Q22:采纳率是否看"后续返工"?
Q23:ROI 是否可量化?
Q24:指标是否"三条腿"走路?
Q25:度量是否驱动决策?
Q26:Skill 是否中台化?
Q27:培训是否沉淀为 Skill?
Q28:架构师是否参与 AI 规范制定?
Q29:合规/法务是否同步上车?
Q30:是否有"人机混编"正式编制?
总分计算:30 题 × 4 分 = 满分 120 分
等级映射:
短板限制规则(防止"偏科"):
示例:
某企业总分 68 分(应 L3),但 P4(质量安全)仅 3 分 → 降为 L2
某企业总分 80 分(应 L4),但 P5(效能回报)仅 5 分 → 降为 L2
知道"在哪一级"只是第一步,关键是下一步做什么。
成熟的标志不是"我们用 AI 写了很多代码",而是"新员工入职第一周就能产出合格代码"。
代码生成率 40% 不代表成功。交付速度提升 30% 不代表成功。
真正的成熟度指标只有一个:能力是否长进组织,而不是绑定在几个人手里。
如果当前阶段评级不高,不重要,更重要的是找到晋级下一阶段的路径。
《企业级AI Coding成熟度模型》PDF已开源至GitHub
https://github.com/lvzhaobo/mumu-coding/
