问题提出
通常人们关心的多为内容的安全,而信息的元数据被认为是不那么重要的。用户也通常不会在意对元数据的保护。一些厂商甚至会去收集用户的元数据,并告知用户,这不会侵犯他们的个人隐私。文章中讨论了元数据到底会不会侵犯一个人的隐私,以及该怎么保护这些元数据。
文章结构
第一部分
作者以推特数据为实验数据,通过构造不同的特征,并且用了三种不同的机器学习算法通过这些特征识别用户,来验证保护元数据的重要性。
第二部分
作者通过两种方法来混淆,隐藏元数据,然后重新进行检测,用来验证元数据能否被保护。
检测模型
用户集合每一个用户,都可以被一组特征标识.所以可以认为,有M个用户,每一个用户都可以被唯一的特征锁标识,所以我们的目标就是在特征集合中识别出具体的用户。所以最后的识别公式为识别的结果为:本文认为,每一个用户都会有一组唯一的特征,所以可以根据这组特征来识别不同的用户。
元数据保护模型
本文采用了两种方法混淆元数据,一种是:,另一种是:。文章主要使用了data anonymization的方式进行对元数据的混淆和检测。
data anonymization
数据匿名化是由其中列的值被分为不同的类别的过程中,并且每个读取是通过其相应的类别的索引代替。
data randomization
数据随机化是根据一些预定函数改变每列中的数据点的子集的值的技术。简单的来讲,对于每一个账户,又会有一个用户创建时间(ACT),这个时间会的形式是年:月:日:时:分:秒,例如:2001:3:20:12:21:30。通过数据匿名的方式,这个时间会变成:2001年三月份。
实验数据
通过Twitter Streaming Public API (Twitter, Inc. 2018) 随机的选取了条数据,涵盖了个用户,但是最后的使用的用户集仅采用了发过的推文多于的用户:位用户。
实验步骤
用户识别特征选取
对于一个账户而言,元数据的特征有很多。每一个账户的元数据包含了144个字段,这些字段提供的信息包括很多。所选择的特征是那些描述用户帐户并且不受用户直接控制的特征,但被排除的帐户ID除外,因为它被用作每个观察的基本事实(标签),最后选择出的单个特征如下表。
文章中选择的特征包括:单一特征和不同的特征组合,在这些特征中有静态特征和动态特征。
算法选择
文章选择了三种机器学习算法:随机森林,K邻近,逻辑回归。随机森林选择了信息熵作为节点分割标准,K邻近选择欧氏距离作为具体计算方式。逻辑回归选择了每个分类器的内部参数的优化是作为现场最佳实践和实验结果的组合进行的,其中我们使用scikit-learn提供的交叉验证通过将相同的特征或者特征组分别用这三种方法去训练,然后验证准确率。
结果
通过上一步证明,得到结论:元数据可以标识用户身份,并将扰乱元数据后,个人身份依然可以被识别出来。
single feature combination 随着增加的用户
Figure1
每个用户观察的推文数量
Figure2
单一属性的熵
Table3
动态属性
table4 5
动静混合-特征
table6 table7 table8
机器学习比较
figure3,4,5
多特征结果
figure6 7 8
混淆后的检测
figure9 / 10 / 11
讨论问题
本文提出的观点可以用于不同社交系统间的使用;
动态特征到底对用户识别的贡献有多大影响;例如用户的粉丝是否真的可以作为用于区分用户身份的特征;
data anonymization 方式的扰乱数据,会创造出新的元数据,索引表。
领取专属 10元无门槛券
私享最新 技术干货