
本文主要内容包括以下几个部分:
1.主数据的识别与界定——我们在大量项目当中发现,主数据项目在推进过程中,最容易出现的问题就是“范围蔓延”。
2.主数据管理体系的设计——我们总结了一个“四定”的框架:定岗责、定标准、定流程、定平台,覆盖了从组织到技术的完整链条。
3.实战技巧的分享——讲数据清洗怎么做、和业务系统的差异怎么对比、分发监控怎么建,以及最后很多同学头疼的——项目价值怎么说清楚。
4.案例分享——会用一个制造业的真实案例,把前面这些内容串起来,看看在实际项目当中是怎么落地的。

主数据的识别与界定
1.1主数据在整个数据体系里处于什么位置?

我们画了一个数据分层的金字塔,从底到顶分别是:参考数据、主数据、业务数据、报表数据,再到顶层的挖掘数据。这个金字塔有一个非常重要的规律:大多数数据问题,如果你一直往根上追,最终都会追到主数据和参考数据这一层。 因为主数据它是数字化转型的基础底座。
这里还有一点要提醒大家:哪怕你做的项目名字叫“主数据项目”,也千万不要忽略参考数据的建设。 因为主数据会直接使用参考数据,比如人员主数据里有“性别”字段,性别就是一个参考数据。如果参考数据没管好,主数据也会出问题。
1.2主数据和其他数据的关系
我们在实际工作中,经常会遇到几个概念容易混淆,简单区分一下:
如何判断一类数据是不是主数据?我们总结了四个维度:
第一,共享性。 这类数据,是否在两个及以上的系统之间共享使用?如果只是某一个部门内部用,基本上就不是我们说的主数据。
第二,唯一性。 这类数据,在全局视角下是否具备唯一性?比如一个供应商,在整个集团范围内应该有且只有一个唯一标识。
第三,有效性。 这类数据,是否有实际业务使用意义,而且是经常被使用的?不是说创建了就放在那儿,真正的主数据应该在日常业务中频繁被引用。
第四,稳定性。 这类数据,是否长期相对稳定?频繁变化的数据,管理成本很高,也不适合作为主数据来管理。
思考题:价格信息,有没有可能作为主数据? 大家直觉上可能会说:不是,因为价格不稳定。确实,大部分情况下,价格信息因为波动频繁,不符合稳定性要求,所以结论是“否”。 但我说它“有可能”是主数据。举个场景:如果你是一个手机厂商,每到618、双十一大促,你需要把折扣后的价格同步到抖音、京东、淘宝多个渠道,这个时候,这个活动期间的价格信息——它是跨系统共享的、在活动周期内是相对稳定的、也是经常被使用的。那它是不是就具备了主数据的特征? 所以这个例子告诉我们:主数据的四个维度判断,不是死板的公式,一定要结合具体业务场景来看,同一类数据,在不同企业里的结论可能是不一样的。
方法论讲清楚了,但在落地的时候,我们还需要把“稳定性”“唯一性”这些模糊概念量化下来。
根据我们的实践经验,建议大家参考以下几条量化标准:
大家可能觉得有点奇怪,为什么要强调“大于6个字段”?我们在识别主数据的时候,有个容易踩的坑——把参考数据误认为是主数据。 参考数据是什么?就是一组枚举值,比如性别、民族、审批状态这类。它们的字段通常很少,一般就是ID、上级ID、名称、排序、备注、状态,差不多六个左右。如果你识别出来的“主数据”,属性字段就这么几个,那它很可能其实是一类参考数据,而不是真正的主数据。所以我们用“大于6个字段”作为一个参考分界线,字段够丰富,能全面描述一个业务实体,这才更像主数据。
有了认定标准,还需要有一个正式的认定流程。这个流程的价值在于——防止主数据范围任意蔓延。
认定流程大概是这样的:由需求部门发起认定申请 → 由主数据管理部门按照认定标准进行评审 → 判断是否符合主数据条件 → 如果符合,再判断是否需要纳入主数据管理平台。
这里有个关键分叉:认定是主数据,不等于一定要放到主数据管理平台里做系统化管理。有些主数据可能只是以数据标准的形式下发,作为规范文件存在;有些才需要进平台,做模型建设、数据清洗、系统集成。这两条路不一样,要根据实际需求来决策。
识别完了“类别”,我们还需要识别“属性”——也就是某一类主数据里,哪些字段应该纳入主数据管理。方法论是一样的,用相同的四个维度来判断每一个属性字段:它是不是唯一的?是不是稳定的?是不是需要在多系统共享?是不是有实际的使用价值?
举个例子,供应商主数据:
确定了属性字段之后,我们还要给每个字段制定属性标准,包括:业务标准(业务含义、业务规则、业务描述)、技术标准(数据类型、数据格式、长度、取值范围、来源系统)、管理标准(责任主体、安全等级)。这套标准是后续进行质量管理的基础。
做完类别识别和属性识别,我们强烈建议在项目早期就把责任矩阵建立起来。
责任矩阵也叫CUT矩阵:
举个例子:人员主数据,在HR系统中负责创建(C),在MDM主数据平台负责中转(T),在ERP、OA等各业务系统中使用(U)。
这张矩阵有多重要?当你后续去做源头数据接入、主数据分发的时候,链路就会非常清晰——数据从哪来,流向哪里,谁负责,一目了然。建议项目启动阶段就把这件事做完,不要等到系统实现阶段才补。

主数据管理体系设计
在进入“四定”的具体讲解之前,有一件事要先想清楚——我们的主数据应用模式是什么?因为不同规模、不同业态的企业,管理复杂度完全不一样。一个单工厂的制造企业,和一个有多个业务板块的多元化集团,主数据管理的方式根本不能套用同一个模板。
我们总结了三种应用模式:

第一种:集中式应用。
所有主数据统一在MDM系统里创建、维护,再由MDM系统分发给各业务系统。这种模式数据一致性高,管理相对简单,适合组织结构比较简单、决策权集中的企业。缺点也很明显——如果下面业务板块差异很大,比如零售、制造、旅游、物业都在一个集团里,那各业务板块对主数据的要求可能差异很大,集中式就会越来越难适配。
第二种:联邦式应用。
这种模式下,集团统一制定标准,下发给各业务单元;各业务单元在这个标准框架内,保留一定程度的自治权,可以根据自身业务特性做细化管理。集团管“共性”,单元管“个性”,两级甚至三级协同。这种方式能更好兼顾不同业态的主数据管理需求,但系统复杂性也会增加。
第三种:分析式应用。
这种模式把主数据的清洗和统一工作后置,放在数据分析侧来做。比如在做报表的时候,才去统一产品维度、部门维度。这种方式短期内能快速解决某类分析问题,但本质上是“治标不治本”。它没有从源头控制数据质量,长期来看清洗规则的维护成本非常高。
思考题:一个集团下面有两个业务板块,A板块有100条主数据,B板块有200条主数据。站在集团层面,应该管理多少条主数据?? 答案是A和B的并集去重,而不是相加。有些主数据两个板块都有,在集团层面应该合并成一条。属性字段呢?答案是并集——集团层面要把A和B所有可能的属性字段都包含进来,因为不同板块有自己特有的属性,集团模型要能容纳所有可能性。
主数据管理的组织架构,通常分为三层:
决策层(主数据管理委员会):负责主数据管理战略的顶层决策,促进整个组织达成共识,批准预算和资源,仲裁跨部门的分歧和冲突。这个层面一般由公司高层领导参与,没有高层的支持,主数据项目很难推进。
管理层(主数据领导小组/管理办公室):负责具体工作的设计和日常管理,制定主数据管理实施计划,负责主数据管理系统的日常运营,收集和报告主数据管理的评价结果,对标准、政策、流程的实施总体负责。
执行层(主数据工作小组):这里有一个实践建议——执行层的工作小组,建议按照主数据的类别来划分,而不是按照技术和业务来划分。比如设立“客商主数据工作小组”“物料主数据工作小组”,每个小组里有对应的业务责任人和IT技术支持。这样的好处是什么?每一类主数据都有明确的负责人,出了问题找谁不含糊;同时业务和技术在一个小组里协作,沟通效率更高。
有一点特别要说明:如果企业做的是一个大型综合性数据治理项目,主数据只是其中一部分,那主数据管理委员会就不需要单独成立了,把主数据工作组融入数据治理委员会下面即可,避免组织层级过于复杂。
定标准,说白了就是——我们要管的这类数据,到底长什么样、叫什么名字、按什么规则填,全组织统一说法。这件事如果没做好,你会发现明明是同一个供应商,在采购系统里叫“某某有限公司”,在财务系统里叫“某某有限责任公司”,看起来是两家,其实是一家。这就是标准缺失的后果。
主数据的标准,通常包含三个层面:
第一,分类标准。
就是这类主数据,怎么分类?比如客商,可以分国内客户和国外客户,每类对应不同的管理规则和属性。
分类这件事很多团队会犯两个极端错误:一个是分得太粗,什么东西都往一个框里塞,结果找起来乱、归属不清;另一个是分得太细,层级七八层,大家都不知道该往哪归,最后随便填。
几个实操建议:
第二,编码标准。
编码是每条主数据的唯一身份ID,这是主数据管理的地基。编码一旦定了,轻易不能改。设计编码有四个基本原则:
常见的编码方式有三种。顺序码,就是直接流水号,简单粗暴,制造业用得最多,好处是调整物料分类不影响编码,灵活;层次码,编码本身能反映分类结构,适合需要按层级汇总分析的场景,但缺点是分类一调整编码可能要重建,不够灵活;组合码,是前两种的折中,前段体现类别属性,后段是唯一流水,实际项目里用得最多。
举个组合码的例子,项目主数据:前两位代表项目类型(内部/外部/特殊),中间两位代表年份(比如25代表2025年),后四位是顺序流水码。这样的编码,一看就知道是什么类型什么年份的项目,又保证了每条记录全局唯一。

第三,属性标准。
属性标准,管的是每个字段的规范定义——这个字段业务上什么意思、技术上什么格式、从哪个系统来、谁负责维护、安全等级是什么。
这个工作要业务人员和技术人员一起做。技术人员负责技术标准(数据类型、长度、格式、值域范围),业务人员负责业务规则(这个字段的业务含义、填写规范、允许值),最后还可以扩展安全属性(这个字段是公开的还是限制级的),形成一套完整的属性档案。
流程这件事,很多团队觉得好做——画几张流程图不就完了。但我们在项目里发现,流程设计得好不好,直接决定了主数据项目能不能长期运转,而不是上线即废。我们总结了四大核心流程,缺一不可:
第一,标准管理流程。
主数据的标准,不是凭空设计出来就一劳永逸的,它有自己的生命周期:标准确立 → 标准变更 → 标准评审 → 标准发布。每一步都要有规矩。比如标准想改,不能悄悄改,得提申请、走审批;标准发布了,要有培训通知,让相关人员知道。
第二,数据管理流程。
这是主数据本身的生命周期流程,每条主数据从出生到退役,每一步都要有据可查:申请 → 审核 → 录入 → 维护 → 启用/停用
特别要说的是审核这个环节,要分级审核——业务部门审一遍(这个数据合不合业务逻辑),数据管理部门再审一遍(格式、完整性、合规性),两道关都过了才能入库。一道关都不设,数据质量根本守不住。
第三,集成流程。
主数据建好了是要用的,要给业务系统用。集成流程管的就是这件事:数据怎么进来,怎么出去。
你得想清楚:源头系统是主动推过来,还是主数据平台定时去拉?分发到下游是推送还是等下游来拉取?是实时同步还是定时同步?这些不规划清楚,上线之后就会出现“数据给下游了但下游说没收到”“下游收到了但是晚了两天”这类扯皮。
第四,质量流程。
这是四大流程里最容易被忽视、但最后悔没做的一个。
很多企业做了主数据,用了一两年回头一看,数据质量又回到了以前的状态。为什么?因为没有质量闭环。说人话就是:数据质量出问题了,发现不了;发现了,不知道找谁改;改了,也不知道有没有真的改好。这就是没有质量流程的代价。
主数据的质量问题,说白了两类:
第一类,主数据本身就有问题。 空值、格式乱、值不在允许范围内。这类问题,大部分可以通过在录入环节加校验规则来拦截,源头管好了,后面就省很多事。
第二类,分发出去之后被动过手脚。 这个更隐蔽。主数据分发给业务系统了,但业务系统可能悄悄改了几条,或者自己新增了几条,不受主数据平台管控。等你汇聚到数仓做分析,维度还是对不上。
解决方法有两个:一是从权限上管控,限制或关闭业务系统修改主数据核心字段的入口,要改就得通过主数据平台走流程;二是建立定期一致性校验,主数据平台和各业务系统之间定期比对,发现不一致的马上要求整改,形成闭环。
定平台,管的是技术层面的问题——我们需要什么工具来把前面三定落地。没有工具,再好的标准和流程都是一堆文档,靠人执行根本守不住。

不管你是采购成熟的商业平台,还是自研,核心功能必须包含这些:

主数据实战技巧
数据清洗是主数据建设过程中工作量最大、也最考验团队经验的环节。我们以客户档案的清洗为例,整体流程是这样的:确定范围 → 质量检查 → 数据转换 → 数据整改 → 业务确认 → 初始化到模型
有几个关键点要特别讲:
一是自动化能做的,尽量自动化。比如供应商资质证书是否过期、企业注册资金有没有变化,这类信息可以通过调用外部接口或者API来自动核查,不需要人工一条一条去查。能自动检查出来的问题,直接自动整改,整改完标注,业务确认后放行。
二是缺失数据的处理。对于空值,先做专项检查,能补充的由业务部门补充;暂时无法处理的,可以先给一个约定的“指定值”,然后在项目推进会上专项讨论如何处置。切忌为了让数据“看起来完整”而随意填写,这样会产生虚假数据,危害更大。
三是重复数据的识别。这里要特别注意,主数据的重复往往不是简单的“完全相同才算重复”。有些重复非常隐蔽:比如“某某有限公司”和“某某有限责任公司”,字面不同,但可能是同一个实体;又比如字段里多了个空格,或者全角半角的差异。我们建议引入相似度判断机制,对于相似度超过50%的数据,自动标记出来请业务部门二次确认。确认是同一个实体的,合并;确认是不同实体的,加入白名单,不再标记。
主数据清洗完之后,接下来有一步工作非常重要,但很多团队会跳过——与各业务系统进行差异对比。
为什么要做这个?因为主数据最终是要分发给业务系统使用的。如果业务系统里原来的数据结构、数据内容和我们建立的主数据标准不一致,业务系统就需要做调整。与其等到上线的时候出问题,不如在建设阶段就把差异摸清楚。

差异对比分三个维度:
对比完成后,形成差异清单,推动业务系统配合整改。这里提醒一点:不仅是数据层面的调整,还需要业务系统配合做流程改造——比如以后创建新主数据,需要向主数据平台提申请,而不是在业务系统里自己新建,这就涉及接口开发和流程对接。
分发这件事,看起来简单,但如果没有规划好,后续会很乱。建议制作一张主数据分发一览表,明确以下信息:
主数据类型 | 源头系统 | 接入方式 | 传输方式 | 频率 | 消费系统 | 分发方式 | 频率 |
|---|---|---|---|---|---|---|---|
人员主数据 | HR系统 | 接口 | 推送 | 实时 | OA/ERP/门户 | 推送 | 实时/定时 |
推送还是拉取、实时还是定时,这些不是随意决定的,要根据业务实时性需求和系统性能承载来综合判断。分发频率过高会给平台带来压力,分发频率过低又可能导致下游系统数据滞后。
主数据系统上线不是终点,如何保证它长期稳定运行、数据质量持续保持,才是真正的难点。我们建议建立六个维度的监控体系:
(1)主数据分布监控: 数据总量、分地区、分行业的分布情况,以及增长趋势。
(2)主数据使用监控: 谁在调用?调用频率如何?哪些接口调用失败了?哪些主数据是热点?
(3) 主数据安全监控: 有没有越权访问?有没有频繁修改等异常行为?操作日志要完整留存。
(4) 主数据质量监控: 完整性(必填字段有没有空值)、准确性(格式和值域是否符合标准)、一致性(上下游系统是否对齐)、唯一性(有没有重复数据)。
(5)主数据时效性监控: 从源系统到目标系统的同步延迟有多长?实时同步的成功率是多少?
(6)系统运维监控: CPU、内存使用率、并发处理能力、系统可用性等基础运维指标。
最后一个实战技巧,是项目价值的评估与汇报。无论是乙方向甲方汇报,还是IT部门向业务和管理层汇报,都需要说清楚:我们做了这些事情,到底值多少钱、带来了什么变化。

我们建议从四个维度来评估:
管理收益:
业务收益:
IT收益:
合规收益:
在做价值汇报的时候,建议除了用这些指标框架,还可以按照业务主题维度来讲价值:
比如供应链主题——通过供应商主数据建设,集团实现了集中采购,优化了供应商管理,降低了库存成本;物料主题——统一物料编码之后,采购效率提升了多少、库存周转率提升了多少;产品主题——通过产品主数据标准化,支持了市场分析和竞争力提升。
具体指标的量化,建议项目启动前先采集基准数据,项目上线后再进行对比,这样的数字才有说服力。
最后说一个实操小建议:这些指标不是让你全部都用,而是根据汇报对象来选。 向业务领导汇报,重点讲业务收益,多少人工时间省下来了,多少次报表错误避免了;向CIO或技术管理层汇报,重点讲IT收益和合规收益;向最高决策层汇报,管理收益和合规收益往往更有分量。选对了受众,同样的数字说服力会差很多。

案例分享
最后分享一个我们做过的制造业主数据建设案例,我们通过系统的主数据识别和认定,最终圈定了六大核心主题域、28个细分主题的建设范围:
这28个主题是怎么确定的?就是通过我们第一章讲的认定标准,一类一类梳理出来的。有些数据看起来像主数据,但按标准一验证,其实不符合条件;也有些数据一开始被忽略了,后来发现确实是全集团共用的核心数据,补充进来。
项目实施分五个阶段:
物料主数据是这个案例里最核心的主题, 物料按照大类分成五个:产品相关物料、工程物料、备件及运营物资、服务采购、IT采购。每个大类下再细分中类、小类,层级控制在三级以内,这样既有足够的分类颗粒度,又不至于太复杂。

编码结构采用8位组合码:第1位是新能源标识,第2位是大类,第3位是中类,第4位是小类,后4位是流水号。举个例子,新能源AB桩的编码是7PAB0001——看到7就知道是新能源类,P是大类标识,AB代表AB桩这个中小类,0001是第一条流水。
通过这个案例的主数据建设,我们可以总结出几类典型的业务价值:
说实话,今天分享的这些——识别方法、四定框架、实战技巧、误区警示,很多都是我们团队在项目里一个坑一个坑趟出来的。有些弯路本来可以不走,希望今天的分享能帮大家少走一些。
主数据这件事,说难不难,说容易也不容易,关键是把它当成一件正经事来做,别等到数据乱成一锅粥再去救火。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。