大数据安全及数据脱敏
在如今这个海量数据捕获、处理、分析和共享的时代,数据安全无疑是首当其冲要考虑的绝对事项,但数据安全有体系、概念杂、内容多,这里面首先要重视的就是个人信息的保障——数据脱敏。2017年,欧盟颁布了GDPR(General Data Protection Regulation ),这项条例意味着欧盟对个人信息保护及其监管达到了前所未有的高度,可称的上史上最严格的数据保护条例,具体内容可以阅读相关参考文献。虽然GDPR仅适用于欧盟内的对个人数据管理与使用的企业,但对于我国大数据保护管理而言也称得上是充分借鉴,况且2017年我们国内也有一些企业变卖用户个人隐私信息触及了法律红线,所以用户隐私和敏感信息必须小心接触。
大数据时代背景下使用户行为数据的收集和分析成为可能,但数据分析结果显然会引发人们对用户隐私问题的担忧;
数据脱敏是指对某些数据的敏感信息进行隐藏、规则变形和加密,从而实现隐私数据的可靠保护;
在大数据领域,数据脱敏隶属于大数据安全的哪个范畴?可从示意图中粗略理解:大数据安全范畴主要包括外围防范管理和内部数据处理两个维度的相互贯穿、层级相扣。
外围防御和审计:涉及到系统环境、网络链路、链路安全等以抵御外界不安全因素的发生,并结合时间点对安全性操作和日志管理进行审计;
入侵检测病毒防范:抵御口令入侵、黑客木马、电子邮件、节点攻击、网络监听、安全漏洞、端口扫描等本地和远程攻击方式,规避DDoS攻击;
用户认证接入控制:制定访问控制策略,实行用户认证机制和鉴权管理,确保大数据系统的数据访问和传输安全;
数据加密/解密:有效地利用算法和密钥等技术手段,利用技术手段把重要的数据变为乱码(加密)传送,到达目的地后再用相同或不同的手段还原(解密);
去隐私化:对数据敏感信息进行脱敏和去隐私化,也是最贴近原始数据源的第一道关卡,是大数据安全管控的重要手段;
敏感信息:大数据安全管理范畴的重点对象,通常来讲包括个人敏感信息、业务敏感信息等;
所以数据脱敏重要围绕在本图的白色圆圈区域,针对数据脱敏当然也是有原则和方法的,具体如下:数据脱敏原则:
应用大量的安全措施,对未授权访问进行动态数据脱敏,包括加密、隐藏、阻止、审计和提醒,保障数据的安全性; 基于屏幕、表、行、列和单元格等访问级别,对最终用户和 IT人员进行限制,控制数据脱敏流程; 为任意格式的敏感数据创建数据脱敏算法,包括替换、随机化、时滞和取消,极大提高持续数据脱敏的可行性; 根据应用安全规则,仅向需要看到数据的人员提供业务关键型信息,对不同级别的人员设置不同级别的访问权限; 数据脱敏方法:
针对客户资料、业务内容、用户行为等各类敏感信息采取隐藏、规则设置,实现数据脱敏和规则变形; 通过加密手段使数据变得“模糊化”,数据处理中始终保持加密状态;
显然,个人隐私及数据内容如何保护已成为了重要问题。提供对外部行业客户最有价值的客户资料信息、位置信息、消费行为、交往圈、终端使用等数据及标签等,首先要制定数据管理及开放标准,将数据进行合适的脱敏转换,确保信息安全,并制定隐私保护策略;
个人隐私数据可以包括PII(Personal Identifiable Information)、个人相关信息和个人属性标签。
PII:属于资料类直接隐私数据,明确标识了一个人的身份信息。包括用户姓名、手机号、身份证号、电子邮箱、住址、工作单位等;这类数据必须直接进行加密以保障安全,同时不得共享给任何机构。
个人相关信息:用户的邮编、年龄、性别、生日、公司、职业等信息。这类信息虽然不能直接标识一个用户,但是把这些条件组合在一起,还是有相当的隐私风险的;
所以这类信息可以进行K-匿名算法。如年龄泛化成“30-40岁,从而使得数据”模糊化“。
个人属性标签:如用户的位置信息,通话交往圈信息等。这类信息虽然不存在较大隐私风险,但仍然记录着用户行为轨迹的大致定位,所以这类信息(如位置信息)也仍然需要使用泛化概念加以保障。
当然,除了这些虚头巴脑的阐述外,数据脱敏当然还是要依赖于技术手段,从而让大数据安全得以落地。
领取专属 10元无门槛券
私享最新 技术干货