Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >大数据比想象的不靠谱:数据驱动背后的谎言与欺骗

大数据比想象的不靠谱:数据驱动背后的谎言与欺骗

作者头像
IT阅读排行榜
发布于 2018-08-14 03:43:26
发布于 2018-08-14 03:43:26
4850
举报
文章被收录于专栏:华章科技华章科技

每天早晨我都在谎言中开启新的一天。

起床后我走进卫生间,称了一下自己的体重。这个数据会从中国制造的体重秤上同步到我手机中的 App 里面,并且最终进入苹果的数据库,我的体重数据将永久地存放在云端。

我进行这个称量体重的仪式是因为感觉它能迫使我对于自己的体重保持诚实。它会阻止我找借口欺骗自己,比如说衣服不合身是因为洗的缩水了,而不是因为吃下去太多啤酒与奶酪。这些体重数据是真实无误的,它们不是出自于我的主观判断,因此体重秤是不会说谎的。

当然了,我们都相信体重秤显示的数字从技术层面上来看不应有假,这个数字就是当下我的真实体重,它就如同蛋糕菜谱上的配方表里的数字一样是可靠的。

但是在一次次的称体重中你会发现,那个决定了一个人是标准还是臃肿,是瘦削还是肥胖的体重数字,其实是很容易被操纵的。

如果我想让自己轻一些,我就会在上称之前出去跑步流一身大汗,排出多余水分。如果我担心自己减的太猛已经超出了健身方案制定的标准,那么我就需要重新回到健康饮食当中,推迟称重的时间,补充食物与充足的水,这样子就可以看到体重数字又有所回升。

当然了,你所使用的这些干预体重的方法只会带来增减 5 磅(约为 4.5 斤)左右的差别,但是对于某些和我一样对于体重无比看重的人来说,这些小小的体重数字波动已经足以让我感觉自己确实有所转变,从这个人

变成了这个人

你也许觉得这只是个人生活方面的数字欺诈,世界上的其他数据,比如说发表在公开学术期刊上的数据总没那么容易被人为操纵吧。

不过如果你看到了最近刊登在美国权威学术期刊《科学》上面的一项研究,或许就不会这么认为了。该项目的研究人员对于已发表的 100 篇高质量心理学论文中进行的实验进行了复制,看看是不是能够得出相同的数据,而实验结果是仅仅有 36% 的数据可以重现。换句话说,就算是换了另一批小心翼翼且专业的研究人员,也有三分之二的论文结果是不能被重现出来的。

「这个研究项目为我们提供了不少证据,了解到在很多心理学研究论文中发现的结论仍然需要细致的工作去反复检验,看看这些结果到底是不是像我们知道的那样确定。」

在如今的很多研究领域当中,科学家们会一直收集数据,直到数据呈现出一种在统计学上显著的模式,然后他们会使用这些经过严格挑选的数据去发表论文。在学术圈里这种做法被称作是「P 值篡改」(p-hacking),只要掌握一些数据操作的技巧,就可以让数据虚高,得出一个在统计学上显著且有意义的结果。在论文中常用的篡改数据的手法如下:

  • 通过中途的实验分析决定是否要继续收集数据
  • 记录下许多因变量,并决定要选取报哪一个写入报告
  • 擅自决定是否要添加或者删除极端值
  • 对于实验群体重新进行排除、组合或者是分离操作
  • 当分析结果已经呈现出 P 值显著时就立刻停止数据采集

把上述所有加在一起,你就会发现知识产出的过程当中存在着如此明显的问题。

当这些有问题的研究结论进入到 Facebook 驱动的社交媒体世界当中时,即便是一个小小的「P 值篡改」的研究也会迅速传遍世界,而且不会有多少人表示怀疑。当一个普通人在快速浏览新闻的时候不会意识到那些「科学实验得出」、「研究表明」其实就是扯淡,其研究结果根本经不起检验,尤其是当这些说法出现在学术期刊上,就更不会引发怀疑了。

这就是所谓专业的科学研究!如果在学术研究领域当中都存在着数据作假,那么就更别提在数据驱动的商业领域情况会是如何了。

在令人啧啧称奇的《国家的视角》(Seeing Like a State)一书中,展现了各国政府与其他大型机构如何试图减少世界当中存在的极端复杂性,将其归为统计数据可以解释的范畴里,并使得其国家或者组织的领导人能够理解到底发生了什么。

作者 James C. Scott 在全书开头使用了一则历史当中真实的故事作为引子。在 18 世纪下半叶,普鲁士的统治者们想要知道在自己森林茂密的国家中到底拥有多少「自然资源」。因此他们就开始着手计算了,他们在自己国家的版图上画出了一个巨大的表格,这样就可以算出来在一个划定的森林范围当中可以产出多少板尺(译者注:硬木板材的计量单位)的木材。至于森林的其他价值,比如说为人类和动物提供庇护,以及自身拥有的生态环境价值都被忽略不计。

真实的世界并不那么守规矩,普鲁士统治者们得到的数据总是不完美。因此他们开始自己创造新的森林,在相同时间种下单一品种的树木,这样在森林当中就不会存在无法货币化的树木了。「事实就是在这种几何图形的森林规划背后有着国家力量的支撑,这种力量将原生的、真实的、包含多个物种且略显混乱的森林变成了新型大一统森林,并且将森林划分成网格状进行统一管理。」Scott 在书中如此写道。

普鲁士的森林全都变成了网格!这些人甚至把树木按照严格的网格形状种成整齐的一排。

德国的林务员们对于如何施肥以及管理树木有着非常科学的认识。普鲁士的植树造林计划确实奏效,至少在接下来的 100 年里没有出现什么问题。在全世界各地有很多人采用了普鲁士这种统一管理森林的方法。

之后森林就开始大片的死去。

「在德国的这一植树造林计划中,那些无法形成最终商业价值的树木品种被抛弃,以至于造成了后来树木大片死亡的令人痛心的结果,这一局面只有在裸子植物被种下去之后才有可能得到扭转。」

树木生长需要依靠复杂的生态系统作为支撑,而这种系统的形成需要经过数代微生物与物种内部的相互作用培养而成,所有的这一切物种关系都被普鲁士严格的植树计划给破坏殆尽。植物与微生物的营养周期被打断,物种之间微妙的平衡一去不复返,在真实世界里隐藏着的运行规则只有在它消失时才会慢慢显露出来。德国人发明了一个新词汇去描述发生的这一切:Waldsterben,意思为森林的消逝。

有时候当我看看现在的世界,在很多情况下,人们仅凭得到的有限数据就去试图掌控人类与其他生物之间无比复杂的关系。我很想知道是否我们也已经步上了曾经的普鲁士的后尘,等待着下一个 Waldsterben 的时刻。

由广告支撑的互联网生态系统就是一个好例子。这种运作方式非常聪明:通过整个互联网获取人们的数据,然后根据已知的信息向他们展示想要看的广告。不仅如此,由于和传统的广播媒体与印刷媒体相比,人们的网上活动过程是可以跟踪的,因此广告主能够越来越精确地掌握人们想要买些啥。显然,在数据挖掘技术的支持下,在线广告市场份额在不断增长,已经夺取了大部分其他传统媒体所拥有的市场份额。很多新媒体公司不断增长的估值都是建立在数字广告市场将不断增长的预期基础上。

不过如果撕开这一层光鲜亮丽的外皮,就会发现其中显而易见的问题。在那些数字广告与宣传视频庞大流量的背后其实并非是真实的消费者,绝大部分都是软件伪造出来的虚假点击。

「这是一种让虚假流量以假乱真的艺术,它们会通过足够的信息将自己伪造成一个看上去真实的用户。由程序控制的广告计费系统无法分辨点击是来自真实的用户还是机器人,也无法识别出那些拥有新鲜、原创内容的网站与只会复制粘贴别人的文章与图片的假网站。」

当然了,高端的媒体不需要做这种事情。但是便宜且由程序控制的计费广告被虚假流量给蒙蔽了,虚假流量也拉低了整个在线媒体行业的广告价格,这使得那些真心做新闻的网站依靠广告费很难支撑自己的运行。同时,很多网站的用户都非常反感这种商业模式,并且开始安装广告拦截器来对抗在线广告。

广告商与广告技术公司只想要抓取用户的数据去向他们投放精准匹配的广告,他们唯一想做的事情就是让自己投放的广告更加具有针对性。但是从实际出发,这种伴随着广告商不断增长的欲望而发展出来的广告模式势必会以难以预料的方式去重塑网络媒体的价值观。

我们欺骗自己说数据不过是一个镜头,仅仅反映出我们的生活图景,然而数据实际上已经成为了在线广告商业模式的引擎。广告商获取的用户数据已经改变了在线媒体业的运作方式。单以收集数据这种行为本身来看,它就不是一个中性的举动,它是一种重塑在线媒体的方式。

也就是说我每天上称量体重并不是为了获知自己真实的体重,而是为了改变对于自己胖瘦的认知。这个谎言通常都是奏效的。

文章来源:FUSION,本文由 TECH2IPO/创见 陈铮编译,首发于TECH2IPO/创见(http://tech2ipo.com/) 转载请保留此信息

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
大数据悖论:更多数据会带来更好的决定?
文章来源:Forbes,TECH2IPO / 创见 泡沫 编译,首发于创见科技(http://tech2ipo.com/) 在“大数据”时代的很多领域流传着这样一句谚语:如果你拥有的数据越多,那么所能
IT阅读排行榜
2018/08/15
3460
作为元宇宙里的潮人,怎能不穿上时髦的数字服装呢?
如果把元宇宙理解为一种技术产品,由各种技术所构成,比如身份系统、价值体系、区块链、去中心化、硬件、NFT…
mixlab
2021/11/05
7700
作为元宇宙里的潮人,怎能不穿上时髦的数字服装呢?
为何说大数据精准广告并不靠谱?
一、大数据精准广告内涵 大数据目前已经成为整个IT界(包含Internet Technology 以及Information Technology)最热的词汇之一,似乎任何一个话题,只要提到大数据,瞬
灯塔大数据
2018/04/10
8410
为何说大数据精准广告并不靠谱?
独家 | 沈阳:怎样实现大数据驱动媒体转型?
大数据时代以其“4V”(即Volume体量大、Variety类型多、Value价值巨大、Velocity处理速度快)的神力不断影响和改造着世界,作为一种全新的思想和手段,新媒体大数据、舆论大数据,营销大数据、公关大数据和广告品牌大数据等各个领域的各类大数据,澎湃汹涌地推动着传媒业从量变到质变,开辟出了传媒业转型发展的新机遇。本期由清华—青岛数据科学研究院主办、清数大数据产业联盟承办的“应用·创新”系列讲座,邀请到清华大学新闻与传播学院的沈阳教授。他是横跨信息管理、新闻传播和计算机科学三个专业的教授,多个
数据派THU
2018/01/30
1.1K0
独家 | 沈阳:怎样实现大数据驱动媒体转型?
大数据,还是大错误?
大数据是对于大规模现象的一种模糊的表达。这一术语如今已经被企业家、科学家、政府和媒体炒得过热。 五年前,谷歌的一个研究小组在全球顶级的科学杂志《自然》上宣布了一个令人瞩目的成果。该小组可以追踪美国境内流感的传播趋势,而这一结果不依赖于任何医疗检查。他们的追踪速度甚至比疾控中心(CDC)要快的多。谷歌的追踪结果只有一天的延时,而CDC则需要汇总大量医师的诊断结果才能得到一张传播趋势图,延时超过一周。谷歌能算的这么快,是因为他们发现当人们出现流感症状的时候,往往会跑到网络上搜索一些相关的内容。
小莹莹
2018/04/18
8630
预约直播 | 犀牛鸟研学营第二课:大数据驱动下的城市发展之夜
2021犀牛鸟研学营邀请11位腾讯技术专家和学界头部学者为学生双视角打造暑期科技前沿热点系列报告,帮助同学们拓展科技视野、学习前沿技术、了解产业需求,激发投身信息技术创新的热情。让我们再次相约这一夏,共同开启一场前沿科技之旅。 研学营首堂课“人工智能与生命科学之夜”已在7月30日结束,本文将带来第二堂课“大数据驱动下的城市发展之夜”预告及首堂课的学生提问集锦,欢迎同学们关注学习。 研学营时间 时间:7月30日-8月10日19:00-21:00 即刻入营方式 报名方式(PC端进行)https://withz
腾讯高校合作
2021/08/04
4850
元宇宙的本质是融合,“铸魂”是关键 | 专访AI大牛田奇
金磊 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 元宇宙的本质是物理和数字两个世界的融合,“铸魂”是关键。 这,便是AI科学家对于元宇宙所持的最新观点。 他叫田奇,是计算机视觉、多媒体信息检索专家,国际欧亚科学院院士,IEEE Fellow。 而他更为大众所熟知的身份,是华为云人工智能领域首席科学家。 在田奇看来,元宇宙已经实现了“盘古开天”。下一阶段,数字人将成为元宇宙的核心要素。 而且在这位AI大牛眼中,元宇宙已然不再是独立的一片天地,而是物理世界和数字世界的融合体——融合,是元宇宙的
量子位
2022/05/13
1860
元宇宙的本质是融合,“铸魂”是关键 | 专访AI大牛田奇
这可能是史上最全的常用学术网站
搞科研我们都知道,少不了各个学术网站的助力呢!今天小编特地收集了国内外常用学术网站,对你有用就点个赞吧!欢迎微信后台留言补充。
AI算法与图像处理
2019/08/15
4.1K0
这可能是史上最全的常用学术网站
关于“大数据”的五大误解
美国《外交政策》杂志网站5月9日刊登微软研究院首席研究员、麻省理工学院公民媒体中心客座教授凯特·克劳福德的一篇文章,文章说,“大数据”是当前的时髦术语,是技术界用来解决世界上最难处理的问题的全能办法。 文章说,这个术语一般用来描述对海量信息进行分析,从而发现规律、收集有价值的见解和预言复杂问题答案的技巧与科学。它也许听起来有些乏味,但是从制止恐怖分子,到消除贫困,到拯救地球,对于大数据的鼓吹者来说,没有什么问题是解决不了的。 维克托·梅耶—舍恩伯格和肯尼思·丘
安恒信息
2018/04/09
7030
【NSR特别专题】周志华:机器学习的挑战和影响:Thomas Dietterich访谈「全文翻译」
编者按:《国家科学评论》于2018年1月发表“机器学习”特别专题,由周志华教授组织并撰写文章。专题内容还包括对AAAI前主席Tom Dietterich的访谈,徐宗本院士、杨强教授、朱军博士、李航博士、张坤博士和Bernhard Scholkopf等人的精彩文章。
马上科普尚尚
2020/05/14
8300
【NSR特别专题】周志华:机器学习的挑战和影响:Thomas Dietterich访谈「全文翻译」
【收藏】40 个学术网站,满足科研文献需求!
中国版以及备用站点:http://www.sci-hub.cn/、http://www.sci-hub.xyz/
lujohn3li
2020/03/04
3.7K0
【收藏】40 个学术网站,满足科研文献需求!
比特币、盗版、黑客技术:深度揭秘Sci-Hub背后的论文出版江湖
翻译 | 顾洪美 责编 | 胡永波 【导读】做AI离不开学术论文,特别是离不开刷arXiv。arXiv预印版的论文甚至还直接引爆了Yoav Goldberg和Yann LeCun去年那场轰动性的深度学习大论战:一方指责arXiv论文简直就是学术领域的“跑马圈地”;另一方则反驳说“跑马圈地”的论文也不是完全没有意义。 尽管arXiv论文只是未经过同行评审的预印版,但是没有它,深度学习领域如此火爆的学术交流几乎就不可能发生。因为arXiv之前,往往要花上数十美金才能读到一篇论文,高高在上
用户1737318
2018/06/05
1.7K1
【学术分享】40个科研学术网站,收藏必备,予取予求!
科研工作者每天日常莫过于看文献、做实验、写论文。人生最郁闷的事情不过于是导师说,那个XX,帮我下载下这个文献,还有这篇文章很好,你把他的引用文献都大概读一下
zenRRan
2019/12/26
6.6K0
【学术分享】40个科研学术网站,收藏必备,予取予求!
TED演讲 | 数据滥用时代,3招教你辨别身边不靠谱数据
大数据文摘作品,转载要求见文末 演讲人 | Mona Chalabi 翻译 | 王子君、海波、白丁、蒋晔 后期 | 郭丽(终结者字幕) 大数据文摘后台回复“志愿者” 了解如何加入大数据文摘字幕组! 生活中,我们随处可见各种各样的数据——广告、新闻、公司会议、工作汇报中比比皆是,甚至算命和星座,也开始用数据来证明自己的真实性。 越来越多的数据引用,一方面证明更多的行业与个人开始关注并运用统计,另一方面,也可能会让人迷失在错综纷杂的数据中。 那么,对于众多对数据有兴趣,但非专业出身、不需要太深度复杂学习相关知识
大数据文摘
2018/05/22
7380
中国医疗大数据发布!怎样推翻你身上的“三座大山”?
点击标题下「大数据文摘」可快捷关注 导读:近日德勤咨询发布了《2020年健康医疗预测报告》,其中中国的医疗健康状况大数据让人触目惊心。面对压在中国居民身上的三座“健康大山”,用户究竟该如何翻山越岭,医疗服务究竟该如何颠覆,才可以让我们彻底地成为身体的主人?本文给出了一一解读。 近日,国际知名的咨询公司德勤咨询发布了《2020年健康医疗预测报告》,这其中也反映了中国人群的医疗大数据。 在总人口为13亿多的中国人中,中国高血压人口有1.6~1.7亿人,高血脂的有将1亿多人,糖尿病患者达到9240万人,超重或者
大数据文摘
2018/05/23
7320
直播预告 | 百度技术沙龙——百度大数据系统探索研究及应用实践
8月25日,数据派THU联合百度技术沙龙将为大家带来“百度大数据系统探索研究及应用实践“的专题分享。 百度多年来积累了非常丰富的大数据系统研究开发、应用实践的经验:为Apache 基金会贡献的Doris数据库项目,以极速易用的特点被人们所熟知;基于流式计算的系统,正在支撑着百度智能云的关键业务;时空大数据技术帮助决策者洞察和理解城市。学术界,来自清华大学的吴及教授,也将为大家带来医疗大数据方面的探索与研究。 敬请关注和期待。 直播时间:2022/08/25 14:00-17:00 欢迎扫码预约直播 特邀
数据派THU
2022/08/29
5980
直播预告 | 百度技术沙龙——百度大数据系统探索研究及应用实践
警惕大数据中的“陷阱”
关于转载授权 大数据文摘作品,欢迎个人转发朋友圈,自媒体、媒体、机构转载务必申请授权,后台留言“机构名称+文章标题+转载”,申请过授权的不必再次申请,只要按约定转载即可,但文末需放置大数据文摘二维码。 编辑、翻译:闫蒲、Xenia、周希雯、张钰、王昱森、陈姸君 导语:关于社会大数据的研究近年来不断扩大、繁荣,发展为集社会学、计算机学、物理学、心理学等多个学科于一身的交叉学科。与此同时,新的数据获得渠道、数据处理方法和工具也不断被研究者们引入社会研究领域。然而,正是因为该领域的快速兴起,社会大数据的研究方法
大数据文摘
2018/05/23
5270
培养了57位AI与大数据领域的专家,这家中国院校有多牛?
来源:中国科学技术大学新创校友基金会 炙热的人工智能(AI)领域大数据领域有哪些中国科大人?这是校友关注的话题。以下中国科学技术大学新创校友基金会研究部初步整理的中国科大AI与大数据行业地图。 中国科大相关院系人工智能研究团队的传统不长,教授也并不多(本文有专节概述)。中国科大人在人工智能领域取得的成就貌似有些意外,不少杰出校友师出来自自动化系、电子工程乃至近代物理与精密仪器系。原因或许是中国科大人崇尚自由思考与热爱技术,理工科背景让他们在各个想象不到的学科开枝蔓叶,野蛮生长。而在人工智能
机器人网
2018/04/24
9.7K0
培养了57位AI与大数据领域的专家,这家中国院校有多牛?
CCF 大数据与计算智能大赛:挑战 11 题,成为顶尖数据科学家
2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容:美团技术学院院长刘江担任主持人,微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、北京理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel 中国研究院院长宋继强、新华网融媒体未来研究院院长杨溟联袂出席。 【新智元导读】2016 CCF大数据与计算智能大赛9月24日启幕,发布了 11 道高质量创新赛题,涉及智能电网、搜索广告、O2
新智元
2018/03/23
1.1K0
【干货】大数据创新驱动智慧民生
本文共10000字,建议阅读时间20分钟 讲座选自清华大学苏州研究院大数据处理中心首席技术官赵勇于2015年4月8日在青岛大数据高峰论坛金融大数据分论坛上所做的题为《大数据驱动的个性化财富管理》的演讲。 我简单介绍一下自己,我是清华硕士,在美国芝加哥大学读博士,后来在美国微软公司工作几年,主要做广告大数据平台。2012年和我们中心的林辉主任一起创立清华大学苏研院大数据处理中心,主要做央企,国家部委大型中央数据统计,后来做用户端行业大数据。 先讲一下大数据爆发原因。实际上数据的问题,包括大数据问题,是
数据派THU
2018/01/30
1.1K0
【干货】大数据创新驱动智慧民生
推荐阅读
相关推荐
大数据悖论:更多数据会带来更好的决定?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档