Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据说希拉里会赢,它错在哪里?

数据说希拉里会赢,它错在哪里?

作者头像
大数据文摘
发布于 2018-05-22 07:00:37
发布于 2018-05-22 07:00:37
4920
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘作品,转载具体要求见文末

原作者|Steve Lohr& Natasha Singer

翻译|汤人懿 校对|蒋晔

对搞数字工作的人来说这是一个难熬的夜晚。同时,对商业、政治、体育、学术界等各个领域中越来越重视数据力量的人们来说也是一样。

唐纳德·特朗普的胜利几乎和每一个主要的预测背道而驰,这让分析大量数据便能准确预测事件的信念遭到了质疑。选民们向人们展现了预测性分析尤其是选举预测依旧是很年轻的学科:一些人被误导认为希拉里·克林顿必胜,就是因为一些预测没有考虑到可解释潜在较大误差的背景。

“这是对于精确性的过度吹嘘,”耶鲁大学医药信息学中心的研究者Pradeep Mutalik说道。他计算得出一些投票模型可能和实际结果偏差15到20个百分点。

几乎所有的主要大选预测机构,包括Nate Silver的538网站,纽约时报Upshot,和普林斯顿选举联盟(Princeton Election Consortium),都认为希拉里的获胜概率在百分之70到99之间。

大选预测只是一场正在各行业中发生深远变化的一个小方面,这些行业越来越“着迷”于数据、数据的价值和通过挖掘数据获得节约成本及增加利润的潜力。这是一个幕后的技术,无声的驱动着一切,从人们看到的在线广告,到数十亿美元的并购交易。

从硅谷到工业腹地,例子到处都有。比如微软付给领英260亿美元,很大程度是想要它4亿多人的个人档案和商务交际网数据库。作为美国最大的制造商,通用电气打大赌称产生数据的传感器和软件能够提高它的喷气发动机和其他机械的效率和收益率。

但是数据科学是个需要权衡的科技进步。它能够看到从未有过的东西,但是也可能成为一个缺乏对大环境和细节足够考量的粗钝工具。很多公司和机构悄悄地在幕后应用数据来预测人们的行为,但只是偶尔,就像周二的选举结果一样,消费者很少能够理解这些公式是起什么作用的,以及会出到什么程度的错误。

比如“谷歌流感趋势”项目看似是大数据预测的成功。它根据跟“流感”有关的搜索词来跟踪流感爆发。但是在2012-2013流感季,它的预测夸大了病例数量。

今年,Facebook的程序算法下架了一张挪威人拍的照片,照片上是一个裸体的9岁女孩逃离凝固汽油炸弹的场景。软件代码算下来认为这张照片违反了社交网络上禁止孩童色情作品的规定,而不是展现越南战争和人们苦难的标志性照片。

还有一个微软聊天机器人,本来意图是让它挖掘在线文本来学习“对话理解能力”,但是今年这个机器人很快就被撤回了,因为它的机器学习算法开始生成一些种族歧视的话。

利用数据分析进行善意的尝试,即使其出发点是好的,但不能排除事与愿违的情况。两年前,英国的一个预防自杀群体(the Samaritans),开发了一款免费的App,当自己关注的Twitter用户发布了一些可能表露自杀倾向的短语,比如“憎恨自己”或者“厌倦了孤独”时,可以提醒人们。但是有些人抱怨说这个软件可以在他们最脆弱的时候被滥用来骚扰他们,这个团体很快移走了这个App。

这周选举预测的失败表明,急于利用数据让我们失去了意识到它们局限性的能力。

“民调出现了以前选举从未出现过的偏差。”普林斯顿大学神经科学教授兼普林斯顿选举团创始人萨姆·王(Sam Wang)说。他推测民调可能没有囊括到共和党坚定分子,这些人一开始宣称不投特朗普,但是在投票站改变了他们的想法。

除了选举之夜的教训,还有更多的教训引起了人们对急于在经济和社会中采用数据驱动方式做决策的疑问。

对大数据的狂热来源于硅谷巨人在互联网里的成功故事,比如谷歌,亚马逊和脸书。这些数据大亨利用智能的搜索引擎、社交网络和在线商务,收集了大量的用户数据。数据是燃料,人工智能工具箱里的算法(特别是机器学习)是发动机。

该技术的早期商业用途是通过有针对性的广告,个性化营销和产品推荐来增加销售机会。但是基于大数据的决策分析已经越来越被各个行业所欢迎,也被广泛用于深切影响人们生活的高风险决策,比如帮助人们做医疗诊断,招聘选择和贷款批准。

数据专家说,这种危险在于过度信任数据分析,但是忽视了它的局限性和构建预测模型的人们可能存在的有缺陷的假设。

数据分析这项技术可以是,而且是极其有用的。“但是我们要理解的关键是,数据科学是一个不一定能给你答案,而只能给出概率的工具。”麻省理工商学院的Erick Brynjolfsson教授说道。

Brynjolfsson先生说人们常常不能意识到如果某件事情发生的可能性是70%,这表明还有30%的概率不发生。他说,选举的结果“对数据科学和统计学来说并不是什么令人惊讶之事。它就是这样运作的。”

那么,选举数据和算法发生了什么?看上去答案是:在数字如何呈现和如何让公众理解的两个角度上,投票、分析和解读上缺陷的结合。

538的创始人Silver先生没有立即回复寻求意见的邮件。The Upshot的编辑Amanda Cox和普林斯顿选举联盟的王先生说,州级民调误差很大程度上归因于低估了川普的获胜可能性。

除了民调误差,数据科学家还说选举模型的固有弱点可能导致一些预测错误。在选举之前,预测者把历史民调和最近的民调数据结合在一起,来预测竞选者的获胜几率。一些人还可能考虑了其他变量,比如给在职的竞选人更多的权重。

但是就算有了几十年的民调数据去分析,也难以提前几个月甚至几周,精准地预测一个竞选者成为总统的可能性。耶鲁的Mutalik博士把选举模型预测类比为天气预测。

“就算有最好的模型,依旧很难提前10天预测天气,因为有很多小变化会导致大变化,”Mutalik博士说。“在数学里,这叫做混沌。”

但是不同于天气预测,目前的选举模型一般只考虑到几十年的数据。并且对这个数据集的参数进行微调也能极大地影响计算。

比如说538网站的模型是基于从1972年开始的选举来校准的,这一年是州级民调开始增长的一年。Silver先生在他的博客里写道:在10月24日,这个模型认为希拉里的获胜率为85%,但是当这个网站实验性地以最近的民调数据(追溯到2000年)作校准时,希拉里的获胜率涨到了95%。

分析员说在这次总统大选中另一个大问题是一些州的民调是错误的。比如最近的威斯康星州的民调认为希拉里遥遥领先于川普,而大选的预测用了这个信息来做预测。英国同样遇到了类似的差错,就是民调错误地以为百姓会在6月份的投票里选择留在欧盟。

“如果我们能回到把对竞选人和政党的报告安排在最后的紧要关头的时代,而不是对这些东西的风吹草动进行无止境地播报,我们都会更好。”Brookings研究院的选举专家Thomas E. Mann说道。“它们让人上瘾,而且会让人不再关注更重要的事情。”

来源:http://nyti.ms/2elGyhk

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-11-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
川普的逆袭,是给大数据的一记耳光!
昨日,美国总统选举落下帷幕,共和党总统候选人唐纳德·特朗普在这场权利的游戏中获得胜利,成功当选美国第58届总统。这次美国总统竞选被德国《商报》称作“第一次数字化竞选”,而特朗普的这次逆袭,让之前支持希
钱塘数据
2018/03/02
1.2K0
川普的逆袭,是给大数据的一记耳光!
洞察|美国大选倒计时:R 语言和蒙特卡洛算法预测希拉里赢面高达89%
距总统大选不到一周,来预测一下竞选结果还是很有挺有趣的。虽然关于选举,有的是博客和网站的预测,但确切告诉你他们究竟用了什么模型,或者告诉你怎么做这个预测的却寥寥无几。但是,作者接下来就会这么做! 在本
灯塔大数据
2018/04/08
9800
洞察|美国大选倒计时:R 语言和蒙特卡洛算法预测希拉里赢面高达89%
干货 | 数据科学岗位必备面经:17个热点问题如何回答?(一)
AI科技评论按:随着数据科学成为炙手可热的领域,相关的应聘岗位也多了起来。面试者们在准备应聘的过程中,往往会有一个疑问:面试官们会问些什么?我又应该如何回答? Gregory Piatetsky在KDnuggets上分享了17个紧跟热点的数据科学相关职位可能会接触的问题及答案。从AI未能正确预测2016年美国总统选举结果和第51届超级碗大逆转的经验教训,如何区分偏差和方差,预测变量数目越少越好,甚至到如何增强模型抵抗异常的鲁棒性都一应俱全,本文为第一部分,AI科技评论做了相关编译。 去年,21个必知的数据科
AI科技评论
2018/03/12
1.1K0
干货 | 数据科学岗位必备面经:17个热点问题如何回答?(一)
DataMesh CEO李劼:美国总统大选,大数据究竟是赢了还是输了?
数据猿导读 很多人之前都认为希拉里已经赢定了,在各种预言帝使用各种模型所做的大数据分析预测中,川普都没有任何胜算。结果出现黑天鹅事件,希拉里不仅败北,而且是数学上的惨败,选举人票上输的一塌糊涂,毫无翻
数据猿
2018/04/23
8210
DataMesh CEO李劼:美国总统大选,大数据究竟是赢了还是输了?
美国大选倒计时:R 语言和蒙特卡洛算法预测希拉里赢面高达89%
【新智元导读】美国总统大选近在眼前,上周新智元刊登相关文章《从未失手的 AI 预测:川普将赢得选举,入主白宫》引起很多争论。这次我们选择了一篇用 R 语言和蒙特卡洛算法等数据预测分析方法,对美国大选做预测的文章,同时附上 Gighub 代码。 总统大选不到一周,自己来预测一下竞选结果还是很有挺有趣的。虽然关于选举,有的是博客和网站的预测,但确切告诉你他们究竟用了什么模型,或者告诉你怎么做这个预测的却寥寥无几。但是,我接下来就会这么做! 在本文中,我将以州为单位拆分竞选数据,向你展示如何使用投票结果模拟和预测
新智元
2018/03/26
1.5K0
美国大选倒计时:R 语言和蒙特卡洛算法预测希拉里赢面高达89%
让数据分析师告诉你,希拉里距离白宫有多远?
时隔8年,希拉里·克林顿再次走上了美国总统的大选之路,这一次,她的胜算有多大? 3 月12日,希拉里在推特上正式宣布参加2016年美国总统大选。在明年这场“权力的游戏”中,她正式宣布参选虽没在时间上拔
CDA数据分析师
2018/02/11
6500
让数据分析师告诉你,希拉里距离白宫有多远?
人工智能预测美国大选这件事,认真你就输了
唐纳德·约翰·特朗普(Donald John Trump)赢了,毕竟DT in the house(不明白的请自行百度)。 与往年不同的是,今年的美国大选堪称史上最激烈、最变幻莫测的一次,当中发生的一
镁客网
2018/05/28
8224
去你的“黑天鹅”,2017年大数据表示不服
2016年,美国总统选举,英国脱欧投票,巴西总统弹劾……这些不可思议的“黑天鹅”事件,让大数据的模型预测变得更加艰难。2017年大数据在预测能力上会做得更好吗?
科技云报道
2022/04/12
2280
去你的“黑天鹅”,2017年大数据表示不服
2016 年美国大选的投票结果中,有哪些数据值得分析?
种族 这届美国大选中白人选民的占比是70%,相比于2012年又低了2个百分点。 有人说川普的胜利应该归功于白人,但是从统计看,川普在白人选民中获得的投票比重比希拉里高21个百分点(58%-37%)。而
智能算法
2018/04/02
1.2K0
2016 年美国大选的投票结果中,有哪些数据值得分析?
马克龙当选法国总统,群集智能 Swarm AI 预测再获全胜
【新智元导读】马克龙在第二轮投票中击败勒庞,成为第 25 任法国总统。在预测的竞技场上,基于对社交网络和传统媒体讨论、民意调查、经济和人口统计等数据分析的 AI 系统预测错误,但基于群集智能的 AI 系统——Unanimous A.I.的 Swarm AI 的预测再次出手不凡,正确地预测了马克龙当选法国总统。 2017年法国总统选举于2017年4月23日进行第一轮投票,中间派政党前进!(En Marche !)创办人埃马纽埃尔·马克龙(Emmanuel Macro)及极右翼政党国民阵线领导人玛丽娜·勒庞(M
新智元
2018/03/28
6890
马克龙当选法国总统,群集智能 Swarm AI 预测再获全胜
【重磅】2017奥斯卡大奖揭晓,群集智能AI成功预测12项(技术解析)
【新智元导读】 2017年2月27日,第89界奥斯卡诸项大奖名单新鲜出炉,《月光男孩》战胜呼声甚高的《爱乐之城》拿下最佳影片。大奖公布之前,著名的群体智能预测网站的Swarm AI再出手预测,今年它虽然保持着75%的胜率,但是却预测错了两项大奖。这是怎么回事?群体智能和群体智能预测原理是什么?本文带来详细解读。 2017年2月27日,第89界奥斯卡诸项大奖名单新鲜出炉: 最佳影片:Moonlight(月光男孩) 最佳导演:amien Chazelle , La La Land( 爱乐之城) 最佳男主角:Ca
新智元
2018/03/27
8580
【重磅】2017奥斯卡大奖揭晓,群集智能AI成功预测12项(技术解析)
对答案:AI 预测法国大选,不太对,可也没全错
【新智元导读】两个月前,总部位于新加坡的投资公司 Leonie Hill Capital 的 AI 系统经过对社交和传统媒体讨论、民意调查、经济和人口统计等数据后的分析,对“史上最难预测”的法国大选进行了预测,认为勒庞将出任法国总统,这和主流媒体预测及民调显示结果有所不同。北京时间今天凌晨,法国 2017 年总统大选首轮投票结束,马克龙获得最高票,勒庞紧随其后进入第二轮选举。 法国 2017 年总统大选首轮投票已经落下帷幕,尽管最终结果还有待确认,但能够进入第二轮选举的两名候选人已经没有悬念。 考题有点难,
新智元
2018/03/27
6550
对答案:AI 预测法国大选,不太对,可也没全错
【AI版纸牌屋】特朗普团队操纵大数据+AI左右竞选引舆论哗然
【新智元导读】一家名叫Cambridge Analytica的数据分析公司成了这两天新闻的焦点,他们使用大数据和AI分析Facebook用户资料,操纵舆论帮助特朗普竞选。研究早已发现,机器能比人类更加精准地掌握人类的性格。AI和大数据正在成为强大的政治武器,假新闻、机器人水军、AI换脸既成为一种技术现象,也是一种社会现象,是我们每个人都需要面对和思考的问题。 消息已经出来了:俄罗斯大选,弗拉基米尔·普京轻松赢得了第四个任期,对70%的得票进行抽查的结果显示,普京得票率为75.91%。 民意调查显示,
新智元
2018/03/22
1.3K0
【AI版纸牌屋】特朗普团队操纵大数据+AI左右竞选引舆论哗然
大数据时代来临后遭遇危机 谁还需要民意测验?
CA崛起的背后是大数据时代政客们获取民意乃至影响民意的方式在经历深刻的转换。《卫报》1月刊发长文“统计如何失去了力量———以及为何我们应该害怕接下来将要发生的事”,详细拷问了为何在17世纪启蒙理想的指
灯塔大数据
2018/04/08
8090
大数据时代来临后遭遇危机 谁还需要民意测验?
谷歌操纵20年大选!算法帮拜登击败特朗普,950页源文件泄漏
---- 新智元报道   编辑:武穆 桃子 【新智元导读】美国中期选举临近,有关谷歌操纵大选的新闻,又被挖了出来。从种种披露的资料来看,操纵大选这事,谷歌无论如何也赖不掉了。 众所周知,2020年的大选,是拜登胜出。 如果细看选票的统计的话,会发现,从全美普选票来看,在计票率为97%时,拜登以50.8%的得票率超过特朗普的47.4%,拜登的优势并不是特别大。 所以在大选基本尘埃落定之际,特朗普方面一直不甘心,想要重新计票。 不过大选已经尘埃落定,特朗普方面再不甘心也只是徒劳。 然而就在美国即将举行中
新智元
2022/09/27
3700
谷歌操纵20年大选!算法帮拜登击败特朗普,950页源文件泄漏
推特 X 地理签到数据分析预测美国大选(三):宾夕法尼亚州,我好像发现了 X 平台的支持倾向基调
在推特地理签到推文分析预测美国 2024 总统大选的前两期,分别讨论了经典蓝州加利福利亚和经典红州德克萨斯,
月小水长
2025/05/13
1010
推特 X 地理签到数据分析预测美国大选(三):宾夕法尼亚州,我好像发现了 X 平台的支持倾向基调
大数据分析:最难的不是分析,而是大数据
从先进的BI工具到机器学习,人工智能,现代企业拥有着各式各样整理分析数据的方法和途径。数据科学家和企业领导人都关注着这些新技术的巨大潜力,然而,当我们将焦点放在分析工具身上时,我们也可能忽略了数据本身
灯塔大数据
2018/04/04
1K0
大数据分析:最难的不是分析,而是大数据
从未失手的AI 预测:川普将赢得选举,入主白宫 (附深度学习生成川普语录教程)
【新智元导读】 从2004年开始连续三次准确预测美国总统大选结果的AI系统MogAI10月28日发布最新预测,看好川普赢得与希拉里的2016总统之争。不管最终结果如何,川普作为美国总统候选人都已经获得了“深入人心”的形象,国外甚至有人整理了他的一些有趣的言论,推出“川普语录”。本文后半部分秉承新智元的干货原则,手把手教你使用递归神经网络在TensorFlow上让生成川普讲话。 “唐纳德·川普会赢”,准确预测了前三场选举的AI系统如此说道。 “如果川普输了,将是过去12年里第一次违反数据趋势,”AI的开发人员
新智元
2018/03/26
1.1K0
从未失手的AI 预测:川普将赢得选举,入主白宫 (附深度学习生成川普语录教程)
不可能的公平?关于投票的一些知识分享
假设场景:大雄的班级一共50人,现在要在大雄和胖虎之间,进行班长选举,老师发起了投票。
sosioshen
2022/08/08
2.1K0
不可能的公平?关于投票的一些知识分享
算法集锦(16)|语义分析| 基于数据的特朗普竞选策略分析
现如今,中美贸易战愈演愈烈。“凡事预则立,不预则废”,如何预判与预测美国的策略与战略对于中国能够打赢这场“遏制战”非常的关键。
用户7623498
2020/08/04
5400
算法集锦(16)|语义分析| 基于数据的特朗普竞选策略分析
推荐阅读
川普的逆袭,是给大数据的一记耳光!
1.2K0
洞察|美国大选倒计时:R 语言和蒙特卡洛算法预测希拉里赢面高达89%
9800
干货 | 数据科学岗位必备面经:17个热点问题如何回答?(一)
1.1K0
DataMesh CEO李劼:美国总统大选,大数据究竟是赢了还是输了?
8210
美国大选倒计时:R 语言和蒙特卡洛算法预测希拉里赢面高达89%
1.5K0
让数据分析师告诉你,希拉里距离白宫有多远?
6500
人工智能预测美国大选这件事,认真你就输了
8224
去你的“黑天鹅”,2017年大数据表示不服
2280
2016 年美国大选的投票结果中,有哪些数据值得分析?
1.2K0
马克龙当选法国总统,群集智能 Swarm AI 预测再获全胜
6890
【重磅】2017奥斯卡大奖揭晓,群集智能AI成功预测12项(技术解析)
8580
对答案:AI 预测法国大选,不太对,可也没全错
6550
【AI版纸牌屋】特朗普团队操纵大数据+AI左右竞选引舆论哗然
1.3K0
大数据时代来临后遭遇危机 谁还需要民意测验?
8090
谷歌操纵20年大选!算法帮拜登击败特朗普,950页源文件泄漏
3700
推特 X 地理签到数据分析预测美国大选(三):宾夕法尼亚州,我好像发现了 X 平台的支持倾向基调
1010
大数据分析:最难的不是分析,而是大数据
1K0
从未失手的AI 预测:川普将赢得选举,入主白宫 (附深度学习生成川普语录教程)
1.1K0
不可能的公平?关于投票的一些知识分享
2.1K0
算法集锦(16)|语义分析| 基于数据的特朗普竞选策略分析
5400
相关推荐
川普的逆袭,是给大数据的一记耳光!
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档