引言
随着大数据及AI时代的到来,数据安全和数据资产管理已经成为了企业和组织面临的重要挑战,国家金融监督管理局对数据分类分级的相关要求进行明确和强化,如何在数据价值释放的同时保障数据安全已成为企业的当务之急。本文结合腾讯云大数据WeData(一站式大数据开发治理平台)探索数据分类分级在某金融客户的应用实践和落地过程。
名词解释
数据资产,可以被定义为组织或个人拥有的具有价值的数据资源。它们可以包括各种类型的数据,如客户信息、销售数据、市场趋势、产品规格、研究报告等。本文中提到数据资产,主要是基于数据库表为基础的,且对个人或者组织有价值的数据。
WeData是腾讯云推出的一站式数据开发治理平台,包含数据集成、开发、测试、运维的全链路DataOps数据开发能力,以及数据建模、数据质量、数据安全、数据资产等一系列数据治理和数据运营能力,帮助企业在数据构建和应用的过程中实现降本增效,数据价值最大化。本文中所提及的数据安全能力是WeData联合腾讯云鼎安全实验室共同打造的数据安全治理能力,以WeData产品赋能客户,提供敏感数据发现与分类分级、数据安全风险评估、数据安全策略及管控闭环、数据安全风险监测和告警等功能。
面临的挑战
全球数据安全形势严峻,各国广泛推出管制法规。国家金融监督管理局对数据分类分级的相关要求进行明确和强化,目前已出台《金融数据安全 数据安全分级指南》(JR/T 0197—2020)(下称“《金融数据分级指南》”)及《证券期货业数据分类分级指引》(JR/T 0158—2018)(下称“《证券期货数据分级指引》”)、《个人金融信息保护技术规范》(JR/T 0171 —2020)等行业标准,为企业的数据分类分级工作提供了重要参考。
企业现状及传统解决方案的局限性:
数据安全防护孤岛:
数据黑箱化
无差异化管理/防护
方案厚重实施周期长
那么如何落地数据安全分级分类并解决以上问题呢?本文我们结合腾讯内部经验和腾讯云服务的客户经验,通过在金融行业客户使用WeData的案例,来详细解析WeData数据安全分级分类实践应用。在腾讯内部,90+腾讯业务接入实践,海量数据助力持续运营提升…
图一
数据分类分级在银行客户落地实践
背景
我国在 2021 年发布了《中华人民共和国数据安全法》和《中华人民共和国个人信息保护法》两大法律,将数据安全提升到了新的高度。随着监管机构发布银行保险机构的安全管理办法,以及人民银行发布《中国人民银行业务领域数据安全管理办法(征求意见稿)》,对银行业数据安全提出了非常高的要求。
在此背景下,该银行客户需要完成数据分级分类以便后续准确识别需要重点保护的高敏感数据,以满足监管要求并确保数据安全。
平台核心能力架构:
图二
项目建设思路:
在整个数据安全分类分级建设过程,分为两个步骤实现:
第一步:建立数据资产化全局视图:
WeData平台提供了数据资产管理能力,以此实现数据资产化及统一视图展示,其中的关键步骤包括:
图三、资产地图:统一数据资产视图
第二步:实施敏感数据分类分级:
在完成智能分类分级之前,为了能够精确识别敏感数据,需要配置敏感数据识别模板,该模板涵盖了数据安全分类分级,数据识别规则等内容。各个国家和不同行业都有不同的分类分级标准,WeData中内置了国内金融行业分类分级模板的模板配置,如:GB/T 35273-2020《信息安全技术个人信息安全规范》、参考 JR∕T 0171-2020《个人金融信息保护技术规范》、参考 JR∕T 0197-2020《金融数据安全数据安全分级指南》等,也支持自定义配置分类分级模板。
参考国家法律法规、金融行业标准和客户自身数据资产现状来建立数据安全标签体系。
图四、WeData内置模板,参考 JR∕T 0197-2020《金融数据安全数据安全分级指南》
如上所示,准备好分类分级规则模板后,下一步就是进行敏感数据识别。通过敏感识别引擎,根据不同标准的分类分级模板进行数据资产的扫描和自动分类分级打标。
图五
通过敏感识别与平台元数据和数据资产结合,我们可以获得以数据资产视角展示敏感数据分布结果,包括:
敏感数据分布大盘:
图六
敏感数据资产目录:
图七
针对统一存储的数据资产进行敏感数据分类分级和识别,即可从全局获得数据的全貌,为后续的数据安全治理打下基础。以上过程通过WeData平台自动完成,这个过程中有哪些需要关注的点呢?我们总结出以下几点:
1、数据识别规则:
图八
2、数据识别高性能要求:
3、数据识别类型支持:
通过结构化引擎和非结构化引擎支持不同业务各类数据类型:
4、数据识别高准确率:
图九、基于AI的智能化敏感数据及风险识别
另外,因一些原因,还需要人工打标和复核,如:首先,进行人工打标,向智能打标模型提供训练集,进行训练;然后,智能打标模型生成打标结果;最后,再进行人工复核,随着准确率提升,人工复核不再进行大批量、全部的复核,而是仅做小部分抽样的人工复核。最终,打标结果有两个方向,一个是结果直接上架提供给各个数据平台使用;另一方面,将人工复核发现的错误反馈给模型进行优化,实现循环优化。
图十
打标流程包括人工打标、智能打标模型训练和人工复核,形成最终打标结果。自动化打标识别准确率达到是95%,经过人工确认后达到100%。
高效及高准确率的数据识别与分类分级引擎确保了在大数据下可持续的自动定期获取和更新敏感数据数据,为数据安全后续打下了坚实基础,如帮助客户使用分类分级结果对银行敏感信息进行脱敏保护,比如根据保护措施要求,对客户余额加密,身份证掩盖等等,并在智能分类分级平台识别出全行的敏感字段数量和位置,一旦查询或展示这些数据,保护措施就能直接落地。
最后,依托平台轻量化和免改造的特性,基于安全能力,高性能,高稳定性,数据安全管控性能损耗控制在5%以内,不造成业务性能瓶颈。一键部署,简化配置运维管理工作。
应用程序和数据库不需要改造即可完成数据安全能力的接入,部署速度快,扩展能力强。
图十一
全行最终实现21个数据库实例,共计86个库的敏感数据安全治理工作,满足了监管要求。
总结
数据安全分类分级是数据安全管理的重要前提和基础,结合WeData开展数据安全分类分级的探索与实践,主要在以下方面开展工作:
一是形成全行统一的数据资产安全视图,更加清晰、全面的掌握数据分布,对全行应用数据做到心中有数;实现数据分布持续更新保鲜,将分类分级融入数据全生命周期,随业务增量数据的变化实现智能数据分级分类;
二是构建了高效协同的分类分级体系,全面开展行内应用的数据分类分级打标,结合线上化、自动化能力,节约大量的人工成本,大幅提高了工作效率,有效落实了数据安全监管要求。
关注腾讯云大数据公众号