大数据时代大家可能会关注很多大数据分析的算法,比如决策树、回归分析、聚类、关联规则、神经网络方法、数据挖掘等等。我们今天不谈算法,先从一个灵魂拷问开始:作为大数据的基础,你们企业的数据质量情况还好吗?
据行业调查报告结论,由于数据质量问题,即使是数据科学家也要花80%的时间来清理和准备大数据。再强大的平台,也无法管理混乱的数据。大家应该都懂得garbage-in garbage-out(缩写:GIGO)的道理,再好的算法没有数据质量作为保障也是无价值的。数据不对,何以大数据?
今天深蓝君结合实际经验及思考,来和大家探讨一下数据质量提升的一些关键。畅想一下随着技术进步,现在和将来可能的各种应对方案。为了尽量让文章简单易懂,我们今天会以和每个人都息息相关的人力资源信息数据为例,并结合大家在公司生活中可能会遇到的一些场景来进行叙述。
== 人力资源的数据问题 ==
对于人力资源管理中常用的与人有关的信息,深蓝君按照种类区分例举如下:
即使是这些看上去很简单的数据,在公司中也会不同程度地存在各种错误的情况,以下简单例举一些在不同公司中看到的错误案例及影响:
姓名错误:中国文化博大精深,有些相似汉字容易发生混淆出错的情况,比如已、己、巳。姓名出错会导致公司在为个人进行个税申报时发生错误,
银行信息错误:账号出现差错等情况,会导致每月发工资时,汇款被银行退回,影响员工及时收到工资。
工资错误:显而易见这是影响度很大的错误,不仅会有少发工资的情况,有些企业还有发生过发双份工资的情况,大家是否都很期待这种双份工资或者工资多一个零的错误?
离职信息错误:员工离开公司但是信息没有被及时更新,可能还可以拿好几个月的工资哦。
性别错误:有女同事由于在公司系统里的性别为男,导致无法在休假功能中请产假的情况。
父母子女的年龄错误:员工自行在系统中错误输入了父母子女的生日年份,导致在系统中产生18岁以下的父母和70岁以上的子女,影响企业为员工家属进行保险的操作。
参考如下的图,大家是否会觉得数据错误有时会导致一种精神分裂感?
其实在不同公司中,多少都会存在一些类似的奇葩数据错误。如果有哪家公司的负责人告诉我这家公司所有的数据都是百分百准确的,那么对不起,我的回答是这家公司的数据质量管理一定不那么到位,一定有必然存在的错误没有被发现。公司在用心管理数据以后就再也不会有百分百准确这个结论,即使是能够到达6西格玛的精益管理,在一百万个机会里,也有3.4个瑕疵而不是百分百没问题。
== 数据错误产生原因 ==
纵观各种错误,我们可以依据错误数据产生的时间点,将问题划分为数据输入问题和数据更新问题。
数据输入问题:
公司的数据输入来源基本都是由人借助于系统媒介来相互传递最后进入系统的。例如:员工填写纸质表格给HR, HR填写电子表格给服务中心数据录入员, 由数据录入员最终录入到系统。
我们要坚信,人脑不是电脑,只要是人就会有出错的可能性,每增加一次人工的操作,就会增加一次输入错误的机会。
数据更新问题:
数据是流动的,比如员工搬家、换电话、银行卡变更、获得了新的资格认证等等。如何确保这些信息是能够及时反映到最新的系统中呢?这又是一个棘手的问题,大家可以自问一下现在你们公司里是否能确保通过系统里的信息及时联系到每一位员工?
== 企业数据质量提升方案 ==
接下来深蓝君来分享一下如何通过系统、人工、流程来防范数据错误的思考:
系统控制
为什么把系统控制放在第一条?因为深蓝君觉得能让机器做的事情就绝对不要让人去做。我们来看看哪些数据错误防范工作是可以利用系统功能和科技来解决的。
1.系统规则:最简单的是把一些规则例如身份证和生日性别的比较、家属关系和年龄之间的对比、级别和工资之间的比较利用系统的自动检查机制在输入的时候就进行校验,发现问题及时报警。
2.自动采集:能否利用技术让机器自动采集相关的数据来取代人工录入,比如是否有可能通过指纹门禁,人脸识别,手机定位等来自动为员工进行无感打卡?这样就能尽量减少人为操作产生错误的可能性。
3.自动核查与提醒:由于数据来源广泛,有的数据来源并不是自己的系统,而是通过其他的途径传递过来的。也有的不是因为数据错误而是因为根本没没有数据输入。这个时候我们就可以利用例如机器人流程自动化的技术来对数据进行自动核查并反馈给相应的数据负责人。例如当我们发现员工没有主动维护自己的银行账号时可以自动发出提醒邮件给员工。
人工控制:
虽然在数据质量控制这块我们希望尽量减少人工控制,但是在技术和流程不完美的前提下减少人为出错还是必须的。可以通过如下几种方式来进行:
1.自查(self review):提供核查表(checklist)给所有涉及到数据录入的人员,提醒按照核查表进行自查。
2.互查(peer review):每个人都有盲点,因此可以让另一个人来进行检查,容易发现盲点错误。
3.统一数据核查及修正:人工进行数据报表的核查或者差异比较(例如、本月工资和上月工资的比对,以此发现异常情况)。
流程控制:
1.流程设计、减少浪费:我们要从流程设计上考虑是否有可能简化,减少数据不必要的传递步骤,从而减少出错的可能性。例如可以让员工自行在系统中输入,由HR依据员工提交的身份证明来审核的方式来控制数据质量。这样在减少了数据传递环节的同时,又有核查步骤来进一步确保质量。
2.闭环设计、提升动力:如果维护数据对员工来说不会有直接的影响,自然员工就不会有特别高的优先度来及时维护和更新数据。需要考虑设计在什么场景中员工会实际用到此数据。例如:假设某些福利是定期快递到员工家里并发手机提醒,那员工在换电话号码及家庭住址时就容易主动记得去系统中更新信息。
3. 错误分析、持续改进:通过系统的数据核查,我们可以进一步分析发现是在流程哪些步骤中产生的问题,并进行相应的持续改进。
4. 流程审查、确保执行:有时问题的产生是因为流程没有被严格执行而导致的。因此可以定期审查流程设计及执行情况。例如通过核查数据检查及修正的历史结果来确保流程是被正常执行的。
5.容错管理、降低风险:就像之前提到的数据不可能百分之百准确,所以企业在后续的流程中要考虑实际可能发生的错误并有相应的容错机制来应对错误数据。
==进行时:数据中心化 ==
深蓝君的另外一个思考是其实很多的人力资源管理数据是因为数据冗余问题造成的。读者们可以想一想,从小到大我们填过多少次个人信息的线上和线下表格,每次都是姓名、性别、电话号码、家庭住址、毕业院校等等等等。这些都是事实存在的信息为什么需要我们无数次填写?每多填写一次就会制造出一次填写错误的机会,每多填写一次就会制造多一次在信息变化时需要额外的更新。
如何来解决数据冗余的问题呢? 其实周遭的变化已经给了我们一些启示。目前在中国我们可以看到一些通过数据中心化来为企业减负、减少数据冗余、解决数据问题的做法。
例如今年中国个税改革的六项专项扣除,就是由纳税个人通过个人所得税申报APP填写个人信息,各企业通过税务系统下载员工的专项扣除金额来进行操作。员工即使更换公司也不用再填写一遍。同时税务系统只提供金额下载,对于员工的家庭成员个人信息等不提供下载,这也从授权的角度保证了个人的隐私。这就是通过数据中心化从公司系统到社会系统转变的很好示例。
现在机场安检、住宿酒店到处都刷脸其实也是数据集中化的一种体现,只要你刷下脸都可以和后台的公安系统链接来通过背后的那些数据来验证你的身份,很多不必要的过程或者纸质表格将来肯定也都不需要了。
== 将来时:去中心化的区块链==
我们从以上案例可以看到通过数据中心化已经可以解决部分冗余数据的问题,那数据中心化还会遇到什么挑战吗?
数据中心化最大的挑战就是很难有机构或者系统可以有能力和授权去收集所有的数据。就个人的数据来说,个人、家庭、教育、社保、医疗、纳税、银行、保险、通信等等这些信息,是很难有一个机构可以整合的,一是数据量为天文数字,二是也没有任何一个机构能够有如此大的授权来为如此庞大的天文数字而负责,牵涉面实在是太广了。
因此此时我们可以想到这个网红词 - "区块链"。区块链本质上是分布式数据存储、是一个去中心化的数据库、通过加密算法来确保数据存储和传输、及数据不可篡改的技术。深蓝君畅想,将来我们可以通过区块链的方式来解决数据冗余和质量的问题,请看下图:
将来只要有了完备的区块链技术,可以通过谁产生谁存储的原则,在数据的源头做一次性存储并负责将来的修改。比如我到电信公司去修改我的电话号码,那么就只在电信公司的系统中维护我的最新电话号码。我的学历信息被存储在毕业学校的系统中。
通过授权和安全技术,每一个企业/个人或者政府机关都可以被授权获取特定的数据。由于通过区块链技术是可以确保数据被维护机构背书而且不可篡改的,因此不管我们到哪里,办什么事情,只要刷个脸,所有的数据就都有了。
以后进入任何一家公司也都不需要再填写个人信息、学历和工作经历了,因为公司可以有授权通过区块链随时获取每个人的不可篡改的各种最新信息。
今天深蓝君的思考和分享就到这里。在通往成熟区块链的道路上一定会有很多技术和非技术的问题需要解决,但是相信政府、公司、学校等各路人士和专家也都在做着各种研究和尝试。我们也已经有听到有公司正在尝试通过区块链来解决人员信息存储的解决方案。让我们共同关注和努力,期望一个既安全又便捷的大数据时代的到来。
读者们在阅读此文后如有些许共鸣,也请支持深蓝君原创,点个“在看”、转发朋友圈行业群里与更多的朋友们群主们分享交流。金主们也欢迎打赏!您的支持是我持续原创的动力!
今后深蓝君也将继续从不同的角度来分享管理和数字化的话题与干货。如有兴趣请持续关注公众号!已经关注的也可以把深蓝信息公众号【设为星标】避免错过最新推送
如果有问题与建议想与深蓝君交流的话,可以在关注深蓝信息个人公众号后,后台留言或者回复 “DEEPBLUEINFO”,通过公众号的信息提示加深蓝君个人微信相互交流学习。
自然界与领导力的思考往期分享
管理思考杂谈
项目管理系列往期分享
运营管理与数字化相关往期分享
如对您有帮助请点“在看”与更多人分享!
领取专属 10元无门槛券
私享最新 技术干货