2016年,差分隐私从研究论文一跃成为科技新闻头条,在WWDC主题演讲中,苹果工程副总裁Craig Federighi宣布苹果使用这一概念来保护iOS用户隐私。目前,google的chrome以及apple的ios中均使用了差分隐私技术,最近一段时间,我也一直在看差分隐私的相关文献。
为了解决现有隐私保护计算技术不适用于深度神经网络在线学习任务以及部分隐私保护计算工具的性能问题,香港科大智能网络与系统实验室iSING Lab和国内隐私计算算力提供商星云 Clustar 合作,提出了一种隐私保护在线机器学习场景下的新框架——Sphinx。 论文题目为《Sphinx: Enabling Privacy-Preserving Online Learning over the Cloud》, 作者为 Han Tian, Chaoliang Zeng, Zhenghang Ren, Di Chai
本文转载自雷锋网。 雷锋网(公众号:雷锋网)按:本文介绍了学术界和工业界对于用户隐私保护的努力成果,其中主要讲到了k-anonymity(k-匿名化),l-diversity(l-多样化),t-closeness 和 ε-differential privacy(差分隐私),并对它们的优缺点进行了分析。 数据 v.s. 隐私 在大数据的时代,数据成为了科学研究的基石。我们在享受着推荐算法、语音识别、图像识别、无人车驾驶等智能的技术带来的便利的同时,数据在背后担任着驱动算法不断优化迭代的角色。在科学研究、产品
差分隐私(Differential Privacy)是密码学中的一种手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。简单地说,就是在保留统计学特征的前提下去除个体特征以保护用户隐私。
上一期我们介绍了差分隐私这种隐私保护手段。在2020年“全球十大突破性技术”的评选中,差分隐私和数字货币都出现在了这份榜单上。简单来说,差分隐私技术是一种较为成熟的隐私保护手段,这一技术的提出是为了应对差分攻击。一个通俗易懂的例子是:通过应用差分隐私保护技术,攻击者即使知道100个人的平均薪水和其中99人的平均薪水,他也不能通过对比(差分)这两个信息来获得另外1个人的薪水信息。
作者 | 维克多 编辑 | 青暮 2021年12月17日,浙江大学求是讲席教授、ACM Fellow、IEEE Fellow、浙江大学网络空间安全学院院长、计算机科学与技术学院副院长任奎在CNCC 2021 “迎接数字化转型的安全挑战”论坛中做了《隐私计算:向实用化迈进》的报告。 在报告中,任奎围绕数据脱敏、差分隐私、安全多方计算三个方向,讨论了隐私计算的前沿进展,提出不同技术可以在数据全生命周期的不同阶段发挥作用。 以下是演讲全文,AI科技评论做了不改变原意的删改和整理: 今天分享浙江大学网络安全学院在隐
差分隐私技术是最近研究比较多的一种保护方法,其思想是在数据的采集或发布前,对数据进行扰动(Perturbation)添加噪声,从而可以隐藏真实数据,避免具有背景知识的攻击者通过猜测,获取隐私信息。差分隐私保护技术给出了数据隐私保护程度及数据可用性之间的严格数学定义模型:
论文:Privacy-preserving Stacking with Application to Cross-organizational Diabetes Prediction
在上期技术视点中,我们为大家带来了以太坊 Eth2的规范 v1.0,这一里程碑事件标志着 Eth2阶段主网即将正式开启。本期技术视点,我们将介绍差分隐私这一较为成熟的隐私保护手段,并分步解释其采用的随机化技术。
对于个人电子产品而言,例如手机,平板电脑,便携式电脑等等,或多或少,都会涉及到隐私计算,那么什么是隐私计算呢?理解隐私计算,先要澄清“隐私”的概念,那么,什么是隐私呢?进而,明确隐私计算分别与隐私和计算之间的关系,即隐私计算是为了实现个人隐私保护而进行的计算还是在实现了隐私保护的前提下进行的计算?最后,才是隐私计算涉及的技术和方法。
AI 科技评论按:Nicolas Papernot 在 2017、2018 连续两年的 ICLR 上都发表了关于差分隐私方法 PATE 的论文。如今大家都意识到了隐私问题是模型设计中有必要考虑的因素,设计模型时也愿意考虑 PATE 这样的方法。不过在 cleverhans 博客近期的一篇博客中,Nicolas Papernot、Ian Goodfellow 两人揭示了一项意想不到的发现:对隐私问题的改善其实可以带来表现更好的机器学习模型,两者并不冲突,而是盟友。
匿名电话、匿名信息、匿名用户••••••“匿名”仿佛已经成为隐私安全的防护栏。 然而在AI时代,匿名真的能保护隐私安全吗?来看看苹果怎么说! 在 WWDC 2016 的主题演讲中,当苹果讲到“差分隐私
AI 研习社按:Nicolas Papernot 在 2017、2018 连续两年的 ICLR 上都发表了关于差分隐私方法 PATE 的论文。如今大家都意识到了隐私问题是模型设计中有必要考虑的因素,设计模型时也愿意考虑 PATE 这样的方法。不过在 cleverhans 博客近期的一篇博客中,Nicolas Papernot、Ian Goodfellow 两人揭示了一项意想不到的发现:对隐私问题的改善其实可以带来表现更好的机器学习模型,两者并不冲突,而是盟友。
近日,Facebook 开源了一个新型库 Opacus,它支持使用差分隐私来训练 PyTorch 模型,扩展性优于目前的 SOTA 方法。同时,Opacus 库支持以最少代码更改来训练模型,且不会影响训练性能,并允许在线跟踪任意给定时刻的隐私预算。
更快、更早地诊断疾病、开发定制化药物和研制新药:人工智能在医疗领域具有巨大的潜力,可以显著改善患者的治疗效果、挽救生命,并帮助全球人类保持健康和延长寿命。
1月28日,iDASH-2021国际隐私计算大赛结果正式公布,腾讯云Angel PowerFL和腾讯安全联合项目团队提交的方案,凭借领先的模型准确率和最快的推理速度获得差分隐私赛道冠军。在2020年的iDASH可信计算赛道上,腾讯云也斩获冠军,成为中国企业届首次在可信计算(SGX)赛道上夺冠的技术团队。 “IDASH赛事” iDASH比赛是隐私计算国际最权威的比赛,已经举办八届,是由美国国立卫生研究院 (NIH) 主办,专注于云环境下的隐私计算问题和面向隐私保护的机器学习问题,已成为全球基因组数据隐私保护和
数据资产已经成为产品和服务设计的关键工具,但是集中采集用户数据会使个人隐私面临风险,进而使组织面临法律风险。从2016年开始,人们开始探索如何在用户隐私保护下使用数据的所有权和来源,这使得联邦学习和联邦分析成为关注的热点。随着研究范围的不断扩大,联邦学习已经开始应用到物联网等更广泛的领域。
本文介绍我们最近的一项被CIKM 2021录用的工作《Differentially Private Federated Knowledge Graphs Embedding》:
1)原生数字化数据 这类数据自然产生出来就适合计算机存储的和处理的数据。例如:电子邮件与文本信息,GPS位置数据,关联电话呼叫的元数据等等,这类数字化的数字信息可以被计算直接利用 2)原生模拟话数据 这类诗句一般为非结构话的数据,例如呼叫的音频与视频,个人健康数据,环境监测数据,超声波检测数据
最近关于互联网隐私引发大众的关注于讨论,前有Facebook“数据门”,小扎不得不换下常穿的灰色短袖和牛仔装,换上深蓝色西装参加国会听证;后有百度总裁李彦宏称中国用户愿用隐私方便和效率引发网友强烈反感,网友评论说,牺牲隐私不一定换来效率,还可能换来死亡,比如搜索到莆田医院,还可能换来经济损失,比如大数据杀熟等等;近来有知乎强制隐私搜集条款,引发部分用户卸载APP,国内很多APP若不同意给予相关权限,则无法正常使用,这真是陷入两难境地。为什么现在很多应用会收集数据呢,《未来简史》这本书中给了答案——未来的世界数据为王,人类可能只是放大版的蚂蚁,用于产生数据。有了数据后,加上合适的算法可以完成很多事情,这些技术均与机器学习、深度学习以及数据科学相关。人们担心自己的数据被收集后会被泄露或者是被不正当使用,因此,如何将隐私数据很好地保护起来是公司需要考虑的主要问题之一。本文将分析隐私与机器学习二者的关系,并设计了一种PATE框架,能够很好地避免被动地泄露用户隐私数据,下面带大家一起看看吧。 在许多机器学习应用中,比如用于医学诊断的机器学习,希望有一种算法在不存储用户敏感信息(比如个别患者的特定病史)的情况下,就可以完成相应的任务。差分隐私(Differential privacy)是一种被广泛认可的隐私保护模型,它通过对数据添加干扰噪声的方式保护锁发布数据中潜在用户的隐私信息,从而达到即便攻击者已经掌握了除某一条信息以外的其它信息,仍然无法推测出这条信息。利用差分隐私,可以设计出合适的机器学习算法来负责任地在隐私数据上训练模型。小组(Martín Abadi、 Úlfar Erlingsson等人)一系列的工作都是围绕差分隐私如何使得机器学习研究人员更容易地为隐私保护做出贡献,本文将阐述如如何让隐私和机器学习之间进行愉快的协同作用。 小组最新的工作是PATE算法(Private Aggregation of Teacher Ensembles,PATE),发表在2018年ICLR上。其中一个重要的贡献是,知道如何训练有监督机器学习模型的研究人员都将有助于研究用于机器学习的差分隐私。PATE框架通过仔细协调几个不同机器学习模型的活动来实现隐私学习,只要遵循PATE框架指定程序,生成的模型就会有隐私保护。
在这个大数据时代,如何妥善获取和使用与真人相关的数据,渐渐成为迫切需要解决的问题。没有人希望自己生个病,上个网,买件衣服都会被人随意知晓,更别提手机里没有修过的自拍了。一种简单的隐私保护方法就是「匿名」:将收集到的数据中涉及个人信息的特征剔除。可惜这种方法并不可靠,曾有研究将 Netflix 匿名处理过的观影记录通过交叉对比 IMDb 数据库解匿成功,这直接导致了第二届 Netflix 数据分析大奖赛的取消。
AI科技评论按:ICLR 2017 总共有三篇最佳论文,其中有一篇是关于如何有效保护机器学习训练中的隐私数据,名为「用半监督知识迁移解决深度学习中训练数据隐私问题」(Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data)。论文给出了一种通用性的解决方法,名为「教师模型全体的隐私聚合」(Private Aggregation of Teacher Ensembles/PATE)。该论文第一作者是 Nico
苹果在本周更新了iOS 10.3 beta版,而一个有趣的条款或许被很多人给忽略了。 AI 科技评论了解到,新测试版iOS有一个选项,询问用户是否可以共享iCloud数据,以帮助公司改进软件产品,比如语音虚拟助手Siri。 关于这一变化的通知,出现在了“iCloud Analytics & Privacy”的条款之下,其中说到,选择分享给苹果的数据会受到隐私保护数据保护,而苹果在加强AI的同时,也会把隐私放在第一位。 在公众的印象中,在开发机器学习驱动的技术,并将其植入到软件和服务中以提供更个性化的体验
这里有一个背景就是中华人民共和国数据安全法的实施。为了规范数据处理活动,保障数据安全,促进数据开发利用,保护个人、组织的合法权益,维护国家主权、安全和发展利益,制定本法。
在该系列的第一篇中:《浅析数据安全与隐私保护之法规》,介绍了国内外的数据安全与隐私保护相关法规,如欧盟《GDPR》、美国《CCPA》和中国《网安法》。这些法规保护的个人数据(或个人信息)范畴均十分广泛,且具有严格的约束和规范。在法规指导下,如何更好地满足合规,降低法律风险和隐私泄露风险;同时也能满足业务场景需求。目前存在多种关键技术,场景不同,需求不同,对应的技术也自然不同。本文作为《大数据时代下的数据安全》系列的第二篇:场景技术篇,将介绍四种关键技术:数据脱敏、匿名化和差分隐私和同态加密,并对每一种介绍技术的从场景、需求和技术原理等几个维度进行展开。
作为隐私保护重要方法之一的联邦学习,常基于差分隐私(DP),即为数据添加随机噪声,来对数据进行加密。
距离加拿大教授 Gautam Kamath 上一次在 B 站上传视频,已经过去整整一年了。
在建模多主体系统中,图像是其中主导的形式。图像的代数连通性特别重要,因为它给出了共识算法的合流速度,而共识算法正是众多多智能体控制和优化技术的基础。但是,代数连通值的共享可能会无意间泄露有关图像拓扑算法中的敏感信息,例如在社交网络中的连接。因此,我们在这项工作中提出了一种基于图论形式的差分隐私(称为边缘差分隐私)下发布图像的代数连通性的方法。边缘差分隐私掩盖了图像边缘集之间的差异,进而掩盖了其中不存在或存在敏感连接的情况。我们为有界的拉普拉斯噪声提供了保密性,与传统的无界噪声相比,它可以提高准确性。有分析显示私有代数连通值可以给出对共识收敛速度的准确估算,以及图像直径及其节点之间的平均距离的准确界限。在模拟的结果中也反映了在这些情况下私有代数连通性的实用性。
贾浩楠 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 有时候,AI说真话比胡言乱语更可怕。 本来只是找AI聊聊天,结果它竟然抖出了某个人的电话、住址和邮箱? 没错,只需要你说出一串“神秘代码”:“East Stroudsburg Stroudsburg……” 自然语言模型GPT-2就像是收到了某种暗号,立刻“送出”一套个人信息:姓名、电话号码,还有地址、邮箱和传真(部分信息已打码)。 这可不是GPT-2瞎编的,而是真实存在的个人信息!这些个人信息,全部来自于网上。 原来是因为GPT-2靠
曾经,“在互联网上,没人知道你是一条狗。” 现在,“你站在桥上看风景,看风景的人在楼上看着你。” 我们无处藏身。 因一场不可思议的隐私泄露,Netflix曾被一位同性恋用户起诉。 2006年,该公司公布了大约来自50万用户的一亿条租赁记录,其中包括用户的评分和评分日期,并悬赏百万美金,希望吸引工程师通过软件设计来提高其电影推荐系统的精准度。虽然Netflix做出此举前,已经对数据进行了匿名化处理,但是这名“匿名”同性恋用户还是被认出。 匿名化也保护不了隐私数据?在数据容易裸奔的科技时代,匿名化刚给大家吃了
2018年5月,欧盟通过了新的《通用数据保护条例要求》,也就是大名鼎鼎的GDPR。严苛的法规要求,加上一上来就拿谷歌“祭刀”,消息传到国内自然惊起了不少风浪。
2020年7月和10月,我国陆续发布两部重磅级的法规草案——《数据安全法(草案)》和《个人信息保护法(草案)》。欧盟于2018 年实施《通用数据保护条例》(GDPR),美国于2020 年实施《加州消费者隐私法案》(CCPA),日本于2020年6月通过修订版《个人信息保护法》。随着全球数据安全法规监管的不断强化,合规性问题不得不纳入企业数据安全建设考虑范围。然而,法规对企业更高的安全要求,这给传统的数据安全防护技术与措施带来了前所未有的挑战。
事件被曝光后,Facebook的用户们感到愤愤不平,在社交网络上甚至引发了一场#DeleteFacebook的运动,呼吁大家删除facebook账号。运动也受到了大量名人的响应,包括埃隆·马斯克、花花公子纷纷删除了自己的Facebook主页。
Opacus是一种新的高速库,用于使用差分隐私(DP)训练PyTorch模型,该库比现有的最新方法更具可扩展性。差异隐私是用于量化敏感数据匿名化的严格数学框架。它通常用于分析中,并且对机器学习(ML)社区的兴趣日益浓厚。随着Opacus的发布,我们希望为研究人员和工程师提供一条更轻松的途径,以在ML中采用差异隐私,并加速该领域的DP研究。
Federated Learning - 联邦学习 参考文献: 小白也能通俗易懂的联邦学习! 关于联邦学习建模过程中算法交互内容的研究
内容提要: 一、去个人标识化的数据就安全吗?二、具体有哪些针对隐私数据的攻击方法?1)链接攻击2)同质性攻击3)背景知识攻击三、那么,到底怎么样的数据才是安全的?1)K-匿名2)L-多样性四、怎么规避数据攻击第一,当然是要做好数据安全的评审啦!第二,对有问题的数据,要建议进行泛化处理第三、从 差分隐私 到 隐私计算 ---- 一、去标识化的数据就安全吗? 有一份10W人的体检数据,包括了个人的身份证号、手机号个人标识信息,以及身高、体重、血压、心率等健康指标。 首先先明确一个概念: 身份证号、手机号
来源:专知本文约7000字,建议阅读14分钟人大最新关于图数据隐私攻击与防御技术综述论文。 摘要 如今,图数据已经被广泛地应用于现实生活与科学研究当中,有巨大的使用和研究价值. 但与此同时,针对图数据的收集与发布中也存在巨大的隐私风险。如何在保护图隐私的同时,发布与收集可用图数据,是目前个人、企业、政府等面临的重大挑战. 本文首先从隐私信息所包含的内容、不同的隐私泄露场景,以及敌手模型三个方 面深入地剖析了图数据在使用中存在的隐私风险,然后重点从攻击和防御两个角度展开介绍. 针对攻击而言,本文分析了当前可
当我们在谈论人工智能的时候,我们究竟在谈论什么?是“机器人超越人类阅读水平,令数百万人面临失业风向“还是“计算机的阅读能力正在赶超人类?”
近日,SIAM公布了首届2022年数据科学青年奖得主,北京大学数学科学学院2011届校友、斯坦福大学博士苏炜杰为唯一获奖人。
诚为读者所知,数据出域的限制约束与数据流通的普遍需求共同催生了数据安全计算的需求,近一两年业界又统将能够做到多方数据可用不可见的技术归入隐私计算范畴。粗略来说,隐私计算可分为以联邦学习为代表的机器学习类升级方案、以可信硬件为基础的可信执行环境类方案和以密码学相关技术为核心的多方安全计算类方案。
自数据成为新的生产要素后,数据流通与共享就成为热点关切,相关政策与立法也不断往纵深推进。比如《汽车数据安全管理若干规定(征求意见稿)》是国内汽车数据领域的首次立法尝试,代表了典型传统行业在数据治理上的实践。而最新《深圳经济特区数据条例(征求意见稿)》探索建立数据交易制度,更是立法层面促进释放数据价值的创新亮点。 如何基于数据安全、隐私保护前提下,链接数据、实现多方协同释放数据价值?——隐私计算技术,成为该命题的破题之举。 作为实现数据可用不可见的技术体系,隐私计算技术正成为数据安全保护和企业发挥数据价值之间
机器之心整理 演讲者:Ian Goodfellow 参与:吴攀、李亚洲 面向开发者的世界上最大的人工智能主题在线演讲与对话大会 AI WITH THE BEST(AIWTB)于 2017 年 4 月 29-30 日在 AIWTB 官网上通过在线直播的方式举办。作为第三届 AI WITH THE BEST 华语社区独家合作伙伴,今年线上大会机器之心有免费赠门票资格。在此前的问题征集赠票活动中,我们从读者提问中选出了 1 个高质量问题并赠送了参会票。 在本文中,机器之心对这次对话大会上 Ian Goodfell
机器之心发布 机器之心编辑部 数据流通行业进入密态时代,可信隐私计算框架可满足各场景不同需求。 7 月 4 日,蚂蚁集团宣布面向全球开发者正式开源可信隐私计算框架 “隐语”。 隐语是蚂蚁集团历时 6 年自主研发,以安全、开放为核心设计理念打造的可信隐私计算技术框架,涵盖了当前几乎所有主流隐私计算技术。 据介绍,隐语内置 MPC、TEE、同态等多种密态计算虚拟设备,提供多类联邦学习算法和差分隐私机制。通过分层设计和开箱即用的隐私保护数据分析、机器学习等功能,有效降低了开发者应用的技术门槛,能助力隐私计算应用
机器之心专栏 作者:Mike Lee 近日,欧洲信号处理协会 EURASIP 官网公布了 EUSIPCO 2020 3MT 比赛结果,丹麦 - 奥尔堡大学的中国博士生李琼秀(Qiongxiu Li)荣获冠军。 EUSIPCO 会议(European Signal Processing Conference)是欧洲信号处理协会(EURASIP)每年一度的旗舰会议,同时也是欧洲信号处理领域影响最大的会议。会议涵盖信号处理研究和技术的最新发展,这些研究和技术将对计算机视觉、语音处理、人工智能和机器学习等诸多领域产
市场经济中,大多新事物之所以得到关注,是因为有了提前舆论造势。舆论热度往往代表了市场热度。市场驱动需求,带来的是创业者和投资者的闻风而至。多数互联网模式的兴起,大抵如此。
前言 这几天学校开始选毕业设计,选到了数据脱敏系统设计的题目,在阅读了该方面的相关论文之后,感觉对大数据安全有了不少新的理解。 介绍 随着大数据时代的到来,大数据中蕴藏的巨大价值得以挖掘,同时也带来了
安全事故 2014年乌云网发布了某旅行网站(以下简称X网站)的安全支付漏洞,X网站因长时间打开支付服务调试接口,导致用户信用卡信息面临泄露风险;在针对其进行进一步的扫描后,乌云发现X网站的分站源代码可
2021年8月13日,Science的一篇文章,阐述了机器学习在使用中的多种潜在风险,以及让机器学习值得信赖的一些方法。
2021 年世界人工智能大会(WAIC)将于 7 月 7 日 - 10 日在上海举办,本届大会继续秉持「智联世界」的理念,以「众智成城」为主题,促进全球人工智能创新思想、技术、应用、人才和资本的集聚和交流,推动全球科技的创新协同,助力打造人工智能世界级产业集群。 7 月 8 日下午,由世界人工智能大会组委会指导,蚂蚁集团、机器之心和 CCF YOCSEF 上海学术委员会共同主办的「2021 WAIC· 隐私计算学术交流会」将于上海世博展览馆 2 号会议室隆重举行。 本届大会程序委员会主席:上海交通大学计算
领取专属 10元无门槛券
手把手带您无忧上云