Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何保护数据平台的隐私数据?

如何保护数据平台的隐私数据?

作者头像
ThoughtWorks
发布于 2023-09-18 09:52:21
发布于 2023-09-18 09:52:21
7200
举报
文章被收录于专栏:ThoughtWorksThoughtWorks

前言

去年12月20日,某知名汽车品牌发生了数据泄露事件,而且泄露的数据包含用户个人隐私数据,也包含了公司的运营销售信息等商业机密数据。泄露的个人隐私信息将用户暴露于短信、电话骚扰甚至电信诈骗的危害之下,同时也造成了用户对企业的信任危机,企业也将会面临监管的调查。

而在不久之前的12月13号,“通信行程卡”小程序下线后,各大通信运营商随即发布了删除相关数据的通告。通信行程码中保存了个人身份信息和个人行程信息等敏感隐私数据。如果因为该数据的泄露,很可能会导致一些电信诈骗案件出现,对个人危害极大。业务下线后,运营商通过删除了个人信息来保护广大市民的敏感信息。

随着信息安全攻击的频繁发生,任何企业都面临潜在数据泄露安全事件的风险。通过一些简单的隐私数据保护措施,可以降低发生数据泄露事件的可能性,或者在发生数据泄露事件时,减少其危害性。

本文先简要介绍一下隐私数据保护基本知识,然后再介绍在数据平台中不同场景下应用对应的数据保护措施。

为什么需要保护隐私数据?

处理个人数据的私密和安全非常重要,原因有两个。一是遵守数据隐私法律和规定。在大多数国家和地区,都有严格的法律保护个人隐私。这些法律规定了如何收集、使用和储存个人数据,并规定了违反这些规定的后果。负责处理个人数据有助于遵守这些法律和规定,避免违反法律的后果。另一个原因是数据泄露事件会给企业带来严重的信任危机和经济成本。数据泄露会导致客户和利益相关者的信任危机,并可能导致昂贵的罚款和法律程序。

什么是隐私数据?

第一类隐私数据是PII。PII(Personally Identifiable Information)是指与个人身份相关的信息。这些信息包括姓名、电话号码、邮箱地址、社会安全号码、银行账号信息等,这些信息可以直接或结合其他信息用于识别某个特定个人。

第二类隐私数据是与个人相关的信息,但不属于PII。这包括个人的兴趣爱好、性格、活动和信仰、个人的行程信息、健康信息等。

第三类隐私数据是个人、企业或组织的专有且保密的信息。通常,与商业性质有关或与合同有关的数据被认为是敏感的,泄露这类数据往往会影响商业运营或面临法律风险。

如何识别隐私数据?

对于数据工程团队,一般来说没有统一的敏感信息的标准。不同的地区,不同的行业有不同的规定和法律。不同的公司对隐私数据的定义都不一样。在企业内,一般需要遵守数据治理团队、数据隐私团队或者企业安全团队建立的数据安全框架和安全策略。

此外我们还可以基于一些隐私扫描工具来检测数据中可能存在的隐私风险,比如微软开源的Microsoft Presidio。甚至云厂商们都不断推出隐私数据保护相关的安全产品来识别隐私数据的合规性风险。

怎么保护隐私数据?

对于保护隐私数据的关键技术有数据脱敏、匿名化,此外还有隐私计算和数据合成。

处理隐私数据时需要考虑两个基本的要求:

  1. 数据保密性:需要保证潜在的数据泄露事件发生后,攻击者无法获取到敏感信息。
  2. 数据可用性:保证被处理后的数据,仍然保持某些统计特性或者业务含义,在某些业务场景中是可用的。

这两个指标是矛盾的,我们需要根据实际的业务需求和安全需求来调节和平衡。

数据脱敏 (Data Masking)

数据脱敏,也叫假名化(Pseudonymous),通过用虚假信息替换PII信息或者对敏感信息进行加密来实现对隐私数据的。大部分脱敏技术处理过后数据不可逆,即没办法还原成原文。

数据脱敏

方法

描述

示例

屏蔽(Masking)

屏蔽部分数据,如电话、身份证号码中间部分位数

17728391023 → 177xxxx1023

哈希(Hashing

将输入映射为固定长度的字符串

john@thoughtworks.com → ajdsifojwoiefahodsjoaijd

FPE加密(Format-Preserving Encryption)

明文和密文格式不变

1990-01-03 → 2dwa-42-14

唯一替换

使用替换表对敏感数据进行1对1替换

1 → a, 2 → b

加密(Encryption)

通过密码学算法对数据信息进行加密

18623413242 -> U2FsdGVkX1/QEA+22HEm08QrrrV8YqLhBi1joQhNgmo=

常见数据脱敏方法

脱敏后的数据不再包含PII信息但是仍然属于个人信息的范畴,受大部分数据安全保护法律法规保护。某些场景下,攻击者可以通过结合外部数据来确定个人。例如当我们能把某位职员的公司信息和职位信息和脱敏后的个人数据结合在一起,那么几乎可以确认这个人的身份。

与外部关联数据结合后,数据脱敏后仍不是完全安全

匿名化(Anonymous)

数据匿名通过完全消除PII信息来保护数据的隐私。数据匿名化的目的是使数据集中的个人身份信息不能被确定,从而使数据更加安全。匿名化的数据通常不再属于个人信息的范畴,因此也不受大部分个人数据保护相关的法律法规的限制。

常见的匿名化的技术方法有

  1. 数据删除:从数据中删除某些字段,以此来消除数据中的个人身份信息。
  2. 数据随机化:对数据进行随机处理,以此来消除数据中的个人身份信息。
  3. 数据泛化、K匿名:将数据中的个人身份信息替换为区间值来保护个人隐私,同时也能保留一些数据价值。

数据匿名化

数据匿名化的好处有:

  • 更安全地保护个人隐私数据数据泄漏发生后对个人造成的危害性是较小的
  • 更安全地进行数据协作和共享
  • 没有了法律法规上对个人信息数据使用的限制

匿名化后的数据带来数据安全的同时也会降低数据质量和数据可用性。匿名化的数据也不是绝对安全的。

其他技术

除了最基本的隐私数据处理技术外,还有一些在快速发展的隐私数据保护技术。

隐私计算是一种技术,旨在保护数据的隐私和安全,同时允许在不泄露原始数据的情况下进行数据处理和分析。它通过在受信任的执行环境中进行数据处理来实现这一目的,以便在数据处理完成后将结果返回给请求方。

合成数据是人为生成的数据,而不是由真实世界事件产生的数据。它通常使用算法生成,可用于验证数学模型和训练机器学习模型。合成数据可以帮助保护原始数据的隐私,因为它不是真实的个人信息。

数据平台隐私数据保护实践

数据平台隐私数据保护架构

数据平台接收上游数据源中各种数据,其中包括大量的用户和雇员的个人信息,以及公司运营、财务等机密信息。同时,数据平台中会有数据工程师、数据分析师和数据科学家使用这些数据。作为企业数据集中采集、处理和共享的平台,数据泄露发生的风险和危害程度都很高。

因此,数据平台和数据仓库承担着隐私数据保护的重要责任。为了降低在数据平台中发生数据泄露的可能性和危害性,数据平台需要应用数据脱敏、数据加密等隐私数据保护技术。架构上,数据在数据平台中生命周期中的不同阶段会采取数据脱敏、数据加密等方式来构建端到端内建隐私数据保护的企业数据管道。

在基础设施上:

  • 业务平台和数据平台均使用了HashiCorp Vault作为安全管理和访问密钥的基础设施

在数据源上:

  • RDS中的数据一般依赖于上游业务系统的数据保护措施,数据平台很难进行预先干预。
  • 数据平台运维的对象存储AWS S3 Buckets,一般会让上游业务系统放入文件级别加密后的文件。对于非技术用户采用AWS KMS对S3 Buckets进行数据加密。

在数据仓库中:

  • 数据集成工具支持对行级别的加密和数据脱敏等操作,对于PII信息数据需要脱敏后或者加密后存储到数据仓库中。加密和数据脱敏所需要的加密密钥和密码学算法的参数,数据集成工具会从Vault的KV Secret Engine进行读取。
  • 数据仓库内部通过创建Masking Policy来实现动态数据脱敏。针对不同角色的查询操作员进行不同程度的数据遮蔽。
  • 当下游的业务系统需要PII数据支持时,我们会在数据导出时对PII字段进行解密,再通过密码学算法使用数据平台的私钥和下游数据消费方的公钥对解密后的数据进行字段级别或者文件级别的加密,再写入到数据仓库应用层的数据集市中或者AWS S3 Buckets的文件中。

数据平台隐私数据保护架构

数据脱敏(Data Masking):避免暴露敏感信息

数据脱敏的目的是避免暴露敏感信息给大部分数据消费方

在数据平台中,数据脱敏主要有两种实现方式:

  • 静态脱敏:通过数据脱敏技术,将生产数据脱敏后导出到目标的存储中,被存储的数据已经改变了信息内容。
  • 动态脱敏:通过准确地解析SQL语句匹配脱敏条件,在匹配成功后,改写查询语句或者返回数据,将脱敏后的数据返回。

静态脱敏实现方式主要是在数据管道中内建数据脱敏。我们可以在数据集成工具中内建脱敏功能,使数据在进入数据仓库后就已经是脱敏数据。动态脱敏主要基于数据库系统或者云数据仓库的RBAC机制和内建的数据脱敏功能,通过针对特定操作角色和数据列创建脱敏规则,在数据被查询时,执行引擎会根据查询上下文来决定返回的数据是源文本还是脱敏后的值。

动态脱敏更为灵活,能轻松应对数据安全需求的变化,但需要数据库查询引擎支持。静态脱敏实现上更为简单,但当数据安全需求变化时,我们通常也需要完全重建数据仓库相关数据模型。

例如在Snowflake云数据仓库中,我们可以设立如下规则对email列进行动态脱敏。当数据仓库用户角色为数据分析师的时候返回源文本,而其他角色查询返回完全屏蔽的值。

数据加密(Data Encryption):安全数据分享

与数据脱敏不同,数据加密的主要目标是共享数据给授权过的可信方

处理加密时需要考虑的问题:

  1. 如何管理加密密钥,如何保证密钥安全地和其他系统集成?
  2. 多个实体之间安全地共享加密密钥?

对于问题1,我们选择了开源的密钥管理系统HashiCorp Vault。Hashicorp Vault是一个用于管理和保护机密信息的工具。它允许用户存储,管理和控制对机密信息的访问。机密信息可以是密码,API密钥,证书或其他敏感信息。Vault可以很好地和Kubernetes结合,我们可以安全地在应用Pod启动时将机密信息注入到Pod中。此外,Vault还可以动态生成或者定期刷新数据库凭证,避免数据库密码泄露风险。

对于问题2,我们选择了AES-256-GCM作为数据加密的算法同时使用ECDH算法来交换两个实体的公钥来创建共享AES-256-GCM的加密密钥,来保证加密密钥的安全性。

ECDH图示

ECDH(Elliptic Curve Diffie–Hellman Key Exchange)算法过程如下图:

  1. Alice和Bob通过ECC算法创建各自的公私钥对,需采用相同的椭圆曲线。
  2. Alice和Bob互相交换公钥。
  3. Alice计算加密密钥 = Bob公钥 * Alice私钥
  4. Bob计算加密密钥 = Alice公钥 * Bob私钥
  5. Alice和Bob的加密密钥是相等的,Alice加密的数据,Bob也能解密。

使用OpenSSL命令行工具实现该过程。

端到端隐私数据加密解密过程如下:

  1. PII隐私数据加密后进入数据仓库,加密密钥是数据平台自己维护的密钥,从Vault中读取
  2. 数据仓库中存在的是密文数据,下游数据需要PII信息时,使用特定下游数据使用方的公钥和数据平台私钥生成共享加密密钥对数据文件进行加密,这样只有该下游数据使用方才能解密数据。
  3. 下游去访问或者接收到加密后的数据文件后,再用数据平台的公钥和该系统的私钥生成共享加密密钥对数据文件进行解密。当下游数据使用方无需给数据平台共享数据时,我们可以在加密文件时,运行时生成一组新的公私钥对,在数据文件中嵌入公钥和相关密码学参数。这样只要双方保持一致的加解密协议,下游在确保隐私数据的获取和使用的同时,数据平台方人员也不能解密数据文件,进一步减少了数据泄露的风险。

数据管道中加密过程

业务系统中解密过程

数据哈希(Data Hashing):跨数据域隐私数据关联

有些场景期望与外部数据域的数据进行数据融合和数据共享时,通常需要通过个人隐私信息或者其他敏感信息将双方数据域的数据关联在一起。同时在数据传输、处理和存储的过程中不期望暴露隐私信息。此时,我们可以利用数据哈希的特性来实现跨数据域的隐私数据关联。

跨数据域隐私数据关联

图中场景存在三个数据域,数据平台所属公司B,母公司A和合作公司C,其隐私数据关联过程如下

  1. 母公司A选择哈希算法Hashing(H1)和盐值SaltA计算得到ID信息的哈希值ID_NUMBER_A_HASHED,提供给数据平台。
  2. 合作公司C选择哈希算法Hashing(H1)和盐值SaltC计算得到ID信息的哈希值ID_NUMBER_C_HASHED,提供给数据平台。
  3. 数据平台公司B为了完全考虑,先对ID_NUMBER进行加密。
  4. 经过数据管道接入数据时,数据平台先对ID_NUMBER进行解密,再根据不同公司的哈希算法和盐值分别计算出对应的相等的哈希值。
  5. 在数据进入数据平台之前,再次采用不同的哈希算法进行一次哈希,将得到的哈希值存入数据仓库中。避免数据平台和数据域中采用相同哈希算法导致可能存在的哈希字典攻击。
  6. 数据仓库里就可以通过不同数据域隐私信息的哈希值进行数据关联,获取来源于各个数据域的共享数据(Payload)。

总结

  1. 个人隐私数据受到法律法规的保护,企业越来越关注对个人隐私数据的处理。数据平台数据仓库作为数据的集中式采集处理场所也应该提高对个人隐私数据处理的关注度。
  2. 保护隐私数据的关键技术主要有数据脱敏、匿名化和加密技术。此外,隐私计算和合成数据等技术也值得关注和实践。
  3. 在数据平台隐私数据保护实践中,数据脱敏用于避免暴露隐私数据给大部分数据消费者,数据加密技术用于分享隐私数据给可信方,最后数据哈希技术用于跨数据域的隐私数据关联场景。此外我们还需要如Vault等的安全基础设施,并且需要将Vault集成到数据采集、传输和处理的系统中。

参考资料

  • Pseudonymization vs anonymization: differences under the GDPR - Statice
  • Practical Cryptography
  • “Practical Data Privacy” -Katharine Jarmul
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-31 21:00,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ThoughtWorks洞见 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
保护敏感数据的艺术:数据安全指南
多年来,工程和技术迅速转型,生成和处理了大量需要保护的数据,因为网络攻击和违规的风险很高。为了保护企业数据,组织必须采取主动的数据安全方法,了解保护数据的最佳实践,并使用必要的工具和平台来实现数据安全。
小阑本阑
2023/10/13
7440
保护敏感数据的艺术:数据安全指南
Pandas高级数据处理:数据安全与隐私保护
在当今的数据驱动时代,数据安全和隐私保护已成为每个数据科学家和分析师必须重视的问题。无论是个人用户信息、企业敏感数据还是医疗记录,确保这些数据的安全性和隐私性不仅是一项法律义务,也是对用户的尊重和信任的体现。Pandas作为Python中广泛使用的数据分析库,提供了强大的功能来处理和分析数据。然而,在使用Pandas进行数据处理时,如何确保数据的安全性和隐私性同样至关重要。
Jimaks
2025/02/11
4070
分片重加密实现区块链可分享型隐私
我们习惯把数据都存储在各种云服务器上,带来方便的同时也存在很多数据隐私泄露的隐患,绝大多数的云服务供应商并不完全值得信任,他们完全可以在未经用户允许的情况下擅自泄露用户的数据,用户甚至毫不知情。
用户7358413
2020/05/24
1K0
​隐私保护:图像与视频隐私保护技术的发展
随着数字时代的到来,图像和视频数据的获取与传播变得异常容易。然而,这也带来了隐私泄露的风险,尤其是在公共场合或通过社交媒体分享的图像和视频。隐私保护技术的发展,旨在确保个人隐私在数字世界中的安全。本文将探讨图像与视频隐私保护技术的发展历程,包括关键技术、应用实例以及未来的发展方向。
二一年冬末
2024/04/29
1.1K0
【RSA2019创新沙盒】Duality:基于同态加密的数据分析和隐私保护方案
Duality Technologies成立于2016年,总部位于美国马萨诸塞州剑桥市,由著名的密码专家和数据科学家联合创立。公司致力于研究大数据/云环境下的数据安全与隐私保护技术,为企业组织提供了一个安全的数字协作平台,目前在美国和以色列开展业务。目前获得了由Team8领导的400万美元投资。2019年入选RSA大会的创新沙盒前十强,成为两家入选的数据安全公司之一(另一家是Wirewheel公司)。
绿盟科技研究通讯
2019/12/11
1.7K0
【RSA2019创新沙盒】Duality:基于同态加密的数据分析和隐私保护方案
Java - 深入理解加密解密和签名算法
Java应用接口安全性问题可能来源于多个方面,包括但不限于数据加密、身份验证、访问控制、输入验证等。下面我会对这些问题进行详细分析,并提供相应的解决方案和最佳实践。
小小工匠
2024/05/25
5650
Java - 深入理解加密解密和签名算法
密码技术在个人信息合规中的应用与落地
随着信息技术的高速发展,作为保障信息安全的重要手段,密码技术已经逐渐渗透到我们信息生活的方方面面,无论是浏览网页、即时通讯聊天,还是银行转账和智能家居等等,都涉及了密码技术的使用。2021年11月《个人信息保护法》(以下简称《个保法》)正式实施,《个保法》第五十一条明确要求个人信息处理者采取加密等安全技术措施,确保确保个人信息处理活动符合法律、行政法规的规定,并防止未经授权的访问以及个人信息泄露、篡改、丢失。事实上,密码技术除了在个人信息的传输与存储等环节作为安全保障措施外,也是个人信息去标识化/匿名化的有效方式。
FB客服
2022/02/25
1.2K0
密码技术在个人信息合规中的应用与落地
保护个人隐私数据很重要 !!!
今晚回顾了一下2018年科技界关于数据泄露而引发的个人隐私问题,特别是互联网产业大佬们的一些言论,让我对于中国用户的隐私数据有一种被过度使用的担忧,如果你也遇到了如下的几个问题,那么说明你的个人数据已经被卖了,哪里还有隐私可言。
icepy
2019/06/24
2K0
保护个人隐私数据很重要 !!!
PHP 加密与解密
在现代 Web 应用中,数据安全是至关重要的,尤其是处理用户的敏感信息时,如密码、个人身份信息、信用卡号等。为了保护这些敏感数据不被黑客窃取或篡改,我们常常需要使用加密技术对数据进行保护。PHP 作为一种广泛使用的服务器端脚本语言,也提供了多种加密和解密的方法,帮助开发者实现数据的安全保护。
繁依Fanyi
2025/02/06
7100
一文透析腾讯云如何为企业构建「数据全生命周期保护」
伴随数据成为企业的核心资产,数据安全已经成为所有企业在产业互联网时代必须直面的挑战。
腾讯安全
2019/12/26
1.9K0
一文透析腾讯云如何为企业构建「数据全生命周期保护」
关于密码存储这件事儿
在当今数字化时代,密码的安全性至关重要。不正确的密码存储方法可能导致用户数据泄露、账户被盗或系统遭受恶意攻击。因此,采用最佳实践和安全的技术方案来存储密码是至关重要的。
用户1107783
2024/03/18
3220
关于密码存储这件事儿
一款数据加密共享与签名方案
最近在研究区块链的时候关注了一下加密技术,小有心得,于是设计了一款数据加密共享与签名的方案,希望能够为做电子合同,数据存证,数据共享的朋友有所帮助吧。
深蓝studyzy
2022/06/16
4840
一款数据加密共享与签名方案
“零隐私”时代下 数字身份如何破局
“身份”这个词在人类社会中有着重要的意义。在百度百科上,它被诠释为人的出身和社会地位。也有人会将“身份”这个词拓展,将它的意义覆盖到到出身、阶层、职业、地位、状态等等。但不变的是,“身份”一直是在从不同的维度去证明,“我是谁”。
微位科技
2019/04/15
6280
“零隐私”时代下 数字身份如何破局
保护用户PII数据的8项数据匿名化技术
在当今数据驱动的市场中,数据为企业带来了更多的力量和机会。但正所谓“权力越大,责任越大。”随着越来越多的个人信息被组织收集和分析,保护个人隐私和防止滥用或未经授权访问个人数据的需求也随之而来。
FB客服
2023/08/08
1.1K0
保护用户PII数据的8项数据匿名化技术
【大数据安全】大数据安全的挑战与对策&基础设施安全
大数据安全是指在大数据环境下,为了保护数据不被非法获取、篡改或破坏,确保数据的安全性、完整性和可用性的一系列措施和技术。
Francek Chen
2025/01/22
4090
【大数据安全】大数据安全的挑战与对策&基础设施安全
加解密算法分析与应用场景
在日常开发中,无论是使用何种编程语言,我们都会遇到加解密的需求。例如,为了保护接口数据安全,我们需要对数据进行加密传输;在HTTPS协议中,通过非对称加密传输客户端私钥,然后双方使用该私钥进行对称加密通信;使用MD5算法进行文件一致性校验等。然而,面对众多的加解密方案,我们往往不清楚何时使用哪种方法。本文将为您梳理当前主流的加解密技术,并对算法进行科普性说明,但不涉及具体算法分析。根据日常应用场景,加解密技术大致可分为以下四类:
不惑
2024/05/13
7190
加解密算法分析与应用场景
Web安全系列——敏感信息泄露与加密机制
数字化时代,越来越多的数据正在被传输到Web应用程序中,这其中不乏个人或机构的敏感信息。
windealli
2023/10/13
1.4K0
Web安全系列——敏感信息泄露与加密机制
从滴滴出行下架看数据平台的隐私数据问题
7月4日晚,一则震惊互联网的消息在各媒体平台传播。这则消息是关于"滴滴出行"app的通告,由国家互联网信息办公室颁布,大意是“滴滴出行”App存在严重违法违规收集使用个人信息问题,依据相关法律规定,通知应用商店下架“滴滴出行”App,要求滴滴出行科技有限公司严格按照法律要求,参照国家有关标准,认真整改存在的问题。不久之前,《网络安全法》以及《个人信息处理法案》的重要补充——《数据安全法》于6月10日颁布。该法案9月1日开始正式实施,作为安全相关的法律,《数据安全法》规范的是数据处理活动中的数据安全,通过保障数据安全,来促进数据的进一步开发和利用,保护个人,组织的合法权益,维护国家主权及安全。数字经济蓬勃发展的今天,《网络安全法》将在其中扮演越来越重要的角色,防范国家数据安全风险,维护国家安全,保障公共利益。在进入正式问题讨论之前,我们先分析一下为什么数据安全会成为当下最重要的安全问题。主要是由于以下两点:
ThoughtWorks
2021/07/27
6950
【大数据安全】数据管理安全&安全分析&隐私保护
数据溯源技术对大数据平台中的明细数据、汇总数据使用后中各项数据的产生来源、处理、传播和消亡进行历史追踪。 大数据平台数据溯源的原则:
Francek Chen
2025/01/22
7330
【大数据安全】数据管理安全&安全分析&隐私保护
安全如何为数据库选择最佳加密方法
介绍 加密是对消息或信息进行编码以便只有授权方可以看到它的过程。加密已经进行了几个世纪。例如,在第二次世界大战中,盟军使用不成文的纳瓦霍语发送加密代码,日本人无法解码。
埃文科技
2022/05/23
7920
推荐阅读
相关推荐
保护敏感数据的艺术:数据安全指南
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档