Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >深度解析:大数据面前,统计学的价值在哪里?

深度解析:大数据面前,统计学的价值在哪里?

作者头像
IT阅读排行榜
发布于 2020-11-06 02:49:34
发布于 2020-11-06 02:49:34
8640
举报
文章被收录于专栏:华章科技华章科技

导读:本文介绍了关于统计学与大数据的一些观点。

作者:朱利平

来源:《光明日报》2019年03月30日 10版首发

01 统计学对大数据的意义

很高兴有这样一个机会,我能与大家在这里做一些关于统计学与大数据的交流,与大家分享一些观点。 在讲大数据之前,我们首先来看看什么是数据。很长一段时间里,大家对数据的理解,可能只是停留在阿拉伯数字这个层面。近些年来,大家开始讲大数据。结果有人就开始好奇了:这个大数据和我们之前说的数据有什么关系呢?

阿拉伯数字是不是数据呢?当然是数据。大数据是不是数据呢?当然也还是数据。不过,现在我们对数据的理解要广泛得多了。凡是可以被数据化的信息载体,我们都可以认为是数据。

比如说,我们接触的文本,包括平时看到的一些文字,现在我们都可以把它量化。我们看到的图片、视频和音频,现在也都可以量化。包括阿拉伯数字、文本、图片、视频和音频,我们都称之为数据。

现在我们理解的数据,从来源上来说更加广泛了,从类型上说变得很复杂了。这些不同来源、类型复杂的数据组合在一起,达到一定的体量之后,就可以认为是一个大数据了。

现在我们来说一下统计学,统计学是什么呢?首先,从学科定位上说,统计学已经被列为一级学科了。这一点和数学、法学等都一样了。

大不列颠百科全书对统计学有个定义,说这是一门收集数据、分析数据的科学和艺术。定义中提到统计学是一门科学,这个容易理解。那为什么说统计学是一门艺术呢?这个问题,就和我今天主要回答的一个问题很有关系。顺便说一句,现在美国很多高校的统计系,它并不设在理学院下面,而是设在艺术学院下面。

今天我主要回答一个问题:在大数据时代,我们究竟是否需要基于抽样的统计学?

有些人认为,现在计算机科学非常发达,可以收集海量的数据。为了特定的研究目的,我们现在甚至有能力通过计算机技术收集与特定的研究目的相关的全部数据。今天,基于抽样的统计学就没有那么重要了,甚至都不在被需要了。事实真的是这样吗?

02 统计学是一门收集数据的艺术

既然统计学被认为是一门收集数据、分析数据的科学和艺术。我们暂时不谈科学,先来看看统计学为什么被认为是一门收集数据的艺术。 我们来看第一个案例。这个案例是希望调查15个国家的国民的诚实情况。调查人员想要知道,哪些国家的国民最倾向于撒谎,哪些国家的国民很诚实。

如果直接去问被调查的人员:“您是否撒过谎?”十之八九,是问不到真实答案的。如果被调查人员以前撒过谎,也不在乎多撒这个谎了。被调查人员可能出于不同的动机,不愿意给出真实答案。

那么,调查数据怎么得来呢?这显然不是简单地通过计算机技术、通过某些爬虫软件就容易收集到适合研究目的相关数据的。

如何利用统计学方法来收集数据呢?这就需要统计学的智慧了。调查人员设计了两组实验。

调查人员先从每一个国家找1000人参与测试,15个国家一共找了15000人,找这么多不同国家的人来面对面调查,这是非常困难的,所以调查人员通过互联网找到了这15个国家共计15000人。两组实验都是在互联网上进行的。

在第一组中,他们先做了一个测试,请受调查者在家里抛硬币,硬币有正反两面,调查者事先规定,受调查者抛硬币之后要告诉我结果,如果硬币正面朝上,我就奖励你十块钱,如果反面朝上,我就不给你奖励。

这个调查不需要提供你抛硬币的证据,只是由你告诉调查者,抛硬币的结果。这也就是说,受调查者有没有撒谎,只有他自己知道。

这个最后的结果,实际上调查者是有参照的。因为,每个国家有1000人参与测试。正常情况下,1000次抛硬币的结果,应该是500次左右正面朝上。某个国家参与实验的1000个人之中,如果有900个人声称自己抛出来的硬币正面朝上,甚至1000人声称抛出来硬币正面朝上。那么,很大概率就是其中有人撒谎了。这是第一组实验。

第一组的实验有价值,但是它也不一定能够全面反映真实的情况,所以调查人员还有第二组实验。

第二组实验,是要求受调查者回答五个问题。这五个问题在回答之前,需要受调查者承诺,他不能为了答题去查阅任何资料,不能去寻求任何帮助,也就是说,看了这五个问题之后,受调查者需要立即给出答案。

调查者承诺,如果五个问题中,回答对了四个以上,就奖励给受访者十块钱,如果答对三个或者三个以下,就没有奖励。

而这五个问题中,其中有三个问题特别简单,类似于像1+1等于几这种问题。另外两个问题则非常生僻。如果受调查者不去查阅资料或咨询他人的话,基本是不太可能回答出来的。

因此,如果有受调查者答对了这两道难题,十有八九就说明他违反了自己事先承诺的“不去查阅资料寻求帮助”,由此可以推论他在这件事情上不诚实。

然后统计人员通过这两组实验结果,互相验证。这两组数据收集的过程都非常恰当地体现了统计学在收集数据方面的智慧。

所以说,即使在大数据时代,不是说有了计算机,有了爬虫技术,我们就能收集到适合研究目的的所有数据。统计学是一个收集数据的艺术,针对特定的研究目的,设计非常漂亮的数据收集方案,就是一个非常艺术的收集数据的过程了。

我们再举一个例子。这是最近美国麻省理工刚刚完成的一个实验,大致在2018年左右完成的,实验结果也公布出来了,目的是想了解大家目前的婚姻观念,100人受到邀请来到一个封闭的场所参与这个实验。

参加实验时,每人都会被贴上一个编号。男的编号是单数一三五七九,女的编号是双数二四六八十,以此类推。参与实验的这100人不知道自己的编号,也不知道究竟有多少人参加了这次实验。换句话说,他们不知道参加这次实验的正好是50个男人和50个女人,受访者仅仅知道,这次实验有很多人参加。

在这里统计人员采取了一点小花招,就是当受访者进门的时候,把编号贴在受访者后背上,受访者知道自己有编号,但是不知道自己的编号是多少,不过他能够看到别人后背上的编号。实验规则说,允许100人中的任何两个人进行交谈,除了不能告诉对方他的后背编号是多少,其他话题都可以谈。

然后实验者把这100人带到一个很小的一个房间里,宣布给大家5分钟时间,在这5分钟内,大家自行配对,每人只能配一名异性。5分钟结束之后,如果配对成功了,两个人背后的数字加起来乘以十,就是两人能够拿到的奖金。

也就是说,如果编号是100的那个女性找到了那个编号为99的男性,那么两人就可以拿到(100+99)×10的奖金,也就是1990美元,这笔钱已经很可观了。但是如果你是一个编号为2的女性,而你找到的是那个编号为1的男性,那么你俩只能得到(1+2)×10也就是30美元,你俩用这奖金一起吃顿饭都不一定够。但是5分钟之后,如果还没有配对成功的话,你就连一美分都拿不到。

因此,参加者必须在5分钟之内,在一个很小的拥挤空间内,尽快找到愿意跟自己配对的那个人。而且在这个过程中,要尽可能让自己的奖金数额变得很大。

实验人员之所以把100人故意安排在非常拥挤的小房间内,就是考虑到,一方面要让大家能够很快速地看到一些人的编号,另一方面又能保证一个人不可能看到所有人的编号。在人挤人的情况下,有些编号是肯定看不到的。

实验开始了。

一些人很快就发现,自己连续跟别人配对三四次,大家都拒绝他。这很可能说明,自己后背的编号数字不够大,别人不感兴趣。

于是这其中就有人采取了应对策略,他跟别人讲,如果你愿意跟我配对的话,那我愿意把奖金全部给你,反正我数字也不大,所以我的钱不要了。还有人说,只要你这次跟我配对成功了,我们出去以后,我再单独请你吃顿饭。

另外还有一些人,虽然他不知道自己后背的编号,但是他发现有很多人过来找他,所以他很快就意识到,自己后背的编号很可能很大,但具体多大,他并不知道。而且要尽可能让两个人组合出来的数字变得很大。

于是他很快就把眼前这批他能看到数字的人拒绝掉了,因为他理所当然地认为接下来肯定还有更大的编号,但是他并不知道最大的编号是多少,同时他还必须要在5分钟内快速决定跟谁配对。

这个实验的结果是,编号99的男性并没有与编号100的女性配对成功。那位编号100的女性,找到的是编号八十几的一位男性。那些数字在中间的人,大体都配对了跟自己差不多的另一个人。

这我们现在来看这个实验的结果,它基本上跟中国男女婚姻观念的现实比较类似。比如说,实验者因为自己编号小,就让渡自己的奖金给对方甚至于承诺事后请对方吃饭,以求得成功配对,这个跟现实中“我的个人条件差一些,但是我父母同意我们两个结婚之后送给我们一套房子”的承诺是类似的。

而且我们在生活中也发现,一些最优秀的男性女性,他们身边不乏追求者,但是他们并没有找到自己的“最佳匹配对象”。

这个数据的收集过程也是非常漂亮的。

03 数据并不是越多越好

统计本身是一门收集数据的科学,但是数据是不是越多越好呢?很难说。 历史上有一个非常有名的例子。大约500年之前,丹麦有一个天文学家叫第谷,他从当时的丹麦国王那里要了一笔钱,建了一个实验室。第谷天天去观察每颗行星的运动轨迹,并且每天记录下来。于是第谷观察了20年,记录了大量的数据。不过,这个数据太多了,第谷花了大量时间、精力来分析这个数据,但没有发现任何规律。

这时候,一个叫开普勒的人出现了。开普勒认为,第谷每天去观测,一年365天每一颗行星都会有365个数据,这样20年观测记录积累下来,要分析处理的数据就太多了,而且那个时候的数据分析只能依靠手工计算,这个处理工作量实在太大了。

于是开普勒就说,能不能每年只给我一个数据,比如说你可以只告诉我每年的1月1日,地球在什么位置,土星在什么位置,太阳在什么位置等等。这样20年的观测数据筛选之后,每一颗行星的数据就只有20个了。开普勒知道,地球每隔365天会回到同一个位置,然后他把地球的位置固定,再分析其他行星跟地球的相对位置。

开普勒通过固定地球的位置,对其他行星位置20年的数据进行分析,就成功得到了其他行星的运行轨迹。此后开普勒就发现,如果地球位置不变的话,那么其他行星的20年运行轨迹画出来之后,这些行星都是围着太阳运转,运行轨迹都是椭圆形的。由此开普勒发现了行星运动的规律。

从这个天文学上的著名案例,我们可以看出来,数据太多可能会导致信息量变得巨大,反而增加寻找到规律的难度。从而需要通过科学的方法简化数据。

关于这方面的案例还有不少。比如说美国总统富兰克林·罗斯福,他是美国历史上唯一一位连任四届的总统。1932年的时候他第一次当总统,当时美国和许多国家正在遭受经济危机,罗斯福面临的压力也很大。

因此到了1936年罗斯福想竞选自己的第二任总统的时候,美国许多人预测罗斯福很难连任。那一次,罗斯福的主要竞选对手是兰登。当时就有两个机构在预测总统选举结果,其中一个是《文学文摘》杂志,它在当时是一个非常有影响力的刊物,因为这个杂志此前几次对总统选举结果的预测都成功了。

到了1936年美国总统选举的时候,文学文摘搞了一个大的调查统计,它调查了240万人。具体方式就是在杂志里面夹上关于总统选举的调查问卷,然后收集反馈。其实当时文学文摘调查的还不止240万人,还要更多,只不过最后收回来的有效问卷是240万份。正是根据这个调查结果,文学文摘宣布他们预测兰登将战胜罗斯福赢得大选。

而当时还有一个机构,准确地说是一个年轻人,叫盖洛普,他的预测结果跟文学文摘的预测正好相反。起初盖洛普做这类调查统计,是因为他的母亲要竞选众议员,他是给他母亲帮忙,于是就在经费不多的情况下做了对较小人群的相关调查,然后这个调查结果很成功,他母亲当上了众议员。

接下来他就想调查一下,罗斯福和兰登谁会赢得1936年竞选。但是他比不了文学文摘的财大气粗,所以他只调查了5000个人,根据这5000人的调查结果,盖洛普预测罗斯福当选。

结果罗斯福果然成功连任总统,盖洛普的预测胜利了。

这个选举结果出来之后,对《文学文摘》杂志的声誉造成了巨大的冲击:毕竟文学文摘调查了240万人,最后却发布了一个错误的预测,而盖洛普只调查了5000人,发布的预测却是正确的。结果,文学文摘因为这个事情后来就关门倒闭了。而那个年轻人盖洛普,就此成立了一个民意调查公司,也就是现在的盖洛普咨询公司。

这是事情的结果。那么为什么调查了5000人的预测,要比调查240万人的结果更准确呢?我们先不说240万这种海量数据,它在规模变大以后会带来计算效率的下降,我们也不提这类海量收集数据会导致成本居高不下的问题。

根本的原因,是当时文学文摘通过杂志夹带问卷进行调查的这种方式。因为当初问卷是夹在杂志中发放的,所以文学文摘收集来的240万份有效问卷,实际面对的都是订阅了这份期刊的用户。

那么,当时什么样的家庭会订阅这样的杂志呢?一般来说都是家境比较好的家庭,所以,文学文摘虽然号称调查了240万人之多,但是它调查的主要群体,是当时美国国内相对而言有钱的那部分人。而穷人群体的意见,它这个调查实际并没有覆盖到。

数据的量多不一定就代表准确,收集来的数据质量好、有代表性,才有可能分析出准确的结果。

04 统计学是一门分析数据的艺术

前面举了一些例子,提醒我们需要非常小心地设计方案收集数据。数据收集上来之后,我们还要做数据分析。按照前面大不列颠百科全书的说法,统计学同样是一门分析数据的艺术。 讲到数据分析,在这里我只讲两个基本概念:相关与因果。为什么讲这两个概念呢?这是因为人们常常混淆这两个概念,常常会把相关关系误以为是因果关系。在许多科学研究和政策问题评价中,我们更关心因果关系。但是,当我们看到了某种形式的相关关系后,常常会误以为这就是我们追求的因果关系了。

比如说,在中世纪的欧洲,很多人相信,虱子对人的健康是有帮助的。这是因为当时人们发现,得病的人身上很少有虱子,而健康人的身上反而是有虱子的。这是长期的观察累积下来,形成的经验。

在中世纪的欧洲,很长一段时间里人们都根据这个经验,得出这样一个因果推论:这个人身上有虱子,所以他身体健康,那个人身上没虱子,说明他身体不健康。

当时,人们确实观察到虱子的存在与否跟人是否健康构成了相关关系,但是,这是因果关系吗?

有了温度计以后,人们就发现了,这不是真正意义上的因果关系:因为虱子对人的体温非常敏感,它只能在一个很小的温度区间范围生存下来。而人体一旦生病的话,很多时候会出现发烧症状。人体一发烧,温度变化,虱子就无法适应发烧时候的热度,于是跑掉了。

如果我们只停留在观察到健康与否和虱子多寡之间存在关系,那实际只是相关关系,而不是因果关系。与之类似的例子还有很多,比如说,我们看到每年冰淇淋销量增加的同时,各地不幸溺亡的人数也在增加。那么这两件事情是不是构成因果关系呢?

常识告诉我们,肯定不是。其实是因为每年气温升高之后,游泳的人可能就多了起来了,随之溺亡人数也就相应增加了。而同样是因为气温升高,冰淇淋的销量也会增加。

也就是说,如果我们观察到一个因素出现了一点点变化,另外一个因素也会随着跟它变化,它们之间可能就有相关关系,但是这种相关关系,并不意味着这两个因素构成因果关系。

如何判断因果关系呢,这就需要我们非常小心,而且要非常艺术地做数据分析了,我们最终还是要回到统计学上来。

这里,我们举一个历史上的疾病案例,这就是小儿麻痹症,也就是脊髓灰质炎。现在大家看到的小儿麻痹症病例比较少,因为现在有相应的疫苗。历史上,脊髓灰质炎曾经是一个让人非常害怕的疾病。

在20世纪50年代,当时美国一所大学的实验室,做出了一种针对这个疾病的疫苗,已经证明它在实验室条件下能够产生有效的抗体。但是他们不知道,如果应用到实际生活中的大规模实验,这个疫苗还会不会有效。

所以当时美国政府部门就决定要做实验,这个时间大致在1954年。因为当时脊髓灰质炎的患者主要是孩子,所以当时的实验人群定为小学一二三年级的学生。怎么做实验才能够真正说明疫苗是否有效呢?为了确保统计结果最终反映真实的因果关系,当时提出了五套实验方案。

第一套方案是,因为1953年之前是没有这个疫苗的,所以就从1954年开始,给所有的一二三年级小学生接种疫苗,最后再来看一下,1954年的发病率,跟1953年相比,会不会有差别。

这个方案是个办法,但是它有问题,因为之前每一年的脊髓灰质炎发病率的差别比较大。比如说1951年全美可能有3万名脊髓灰质炎患者,1952年则有6万名,而1953年又可能缩减到不足4万名。

这个脊髓灰质炎每年发病率的波动都比较大,万一到时候实验结果是3万名到4万名之间,如何判断这个结果是随机变化的,还是疫苗发生了作用?

第二个方案则提出要按照地区来做。比如,在纽约地区,就给一二三年级小学生们全部接种疫苗,而在芝加哥地区的就全部不接种疫苗,然后来统计,纽约和芝加哥这两个地区的脊髓灰质炎发病情况。

这个方案后来发现也不行。因为脊髓灰质炎本身就是传染病,一个地区可能流行这个疾病了,而另外一个地区就可能没流行,那么这两个地区的数据看起来就会有差异,但是这不是疫苗的效果,不具有可比性。

于是就有人提出了第三个方案。因为当时这个疫苗接种,谁也不知道有没有副作用,因此是有一定风险的。所以这个方案就提出,让接种疫苗的孩子们的父母来自行选择。有的家长选择给孩子接种疫苗,有的就不选择接种,这样同一批孩子就会出现不同的对照。

但是这么做,也有问题。因为当时人们已经发现,脊髓灰质炎的患者一般来自于家境比较好的家庭。

这是因为,那些家庭经济状况比较差的家庭,因为生活条件差,卫生条件不好,可能一个人很早就接触过脊髓灰质炎的病毒了,甚至很可能在刚刚出生的时候就接触了脊髓灰质炎的病毒,但是刚出生的婴儿是有母体的免疫力的,婴儿凭借母体的免疫力,接触这个病毒之后能够产生抗体,反而不会得病。

当时的这类数据情况已经展现了这种现象。如果采用自愿接种的方式,那些经济状况比较好的家庭,往往愿意让自己的小孩去接种,而经济状况不好的家庭由于经费原因,同时也知道自己这个阶层染病率稍微低一些,他可能就不愿意接种了。这样就造成了对实验结果的干扰,你无法判断到底是疫苗有效还是经济原因导致的不同结果。

然后是第四个方案。有人提出,只让二年级的学生接种,而一年级和三年级学生不接种。之后再比较接种的跟不接种的学生之间的区别,看他们的发病率会不会有差别。这个方案是当时的一个脊髓灰质炎防治委员会提出的方案。

这个方案同样行不通,第一,它同样无法避开接种孩子家庭贫富差距导致的患病概率差异。第二,脊髓灰质炎是一种传染疾病,人群的年龄是对这种传染有影响的,一、二、三年级的学生年龄层次有差别,可能就会导致各个年级学生得病概率的差异。

此外这个方案还有第三个重大缺陷,那就是可能会对医生形成心理上的诱导。如果按照这个方案执行下去,医生们就是知道的,一、三年学生没有接种疫苗,而二年级同学中有部分同学接种了疫苗。

当时脊髓灰质炎的诊断还不太容易,如果医生已经知道了这个疫苗接种方案,而且也提前知道这个疫苗在实验室阶段是管用的,那么医生在面对一年级学生时,一旦这个疾病还无法确诊,那么这个医生就很可能根据“一年级学生没有接种疫苗”“疫苗是有效的”这两个提前的认知,就直接诊断这名一年级学生得了脊髓灰质炎。

而且这种区别对待的方案,接种的学生本身心理也会受到影响的。

当时还有第五个方案,也就是最终执行并被采纳了调查结果的方案。这个方案具体来说,就是在征得学生家长同意之后,仍旧会告诉家长:你即使同意接种疫苗,我给你家孩子接种的,也不一定是疫苗,而是一种看起来跟疫苗一模一样的安慰剂,没什么副作用也没有什么效果。

因为这个安慰剂跟疫苗长得一样,所以医生和学生都不知道到底接种的是疫苗还是普通的安慰剂,但是疫苗提供方是知道的,它对每一个药品都加了编号,因此疫苗提供方知道哪些是安慰剂,哪些是疫苗。

通过这样的方式,实验室实现了随机的方式接种疫苗,而且无论家境好坏,这个接种疫苗都是随机的。同时医生们也不知道,到底是哪一些小孩接种了疫苗。这就规避了年龄、经济条件等各种扰动,有助于确定脊髓灰质炎与疫苗之间真正的因果关系。

1954年,这个实验大约有74万名小学生参与。最终的实验结果是,如果接种疫苗,孩子罹患脊髓灰质炎的概率大约是十万分之28,如果不接种疫苗,患病概率大约是十万分之77,二者相差一倍多。之后又经过各种努力,脊髓灰质炎疫苗在美国获得了通过。

许多科学结论、政策评价都依赖于因果分析而不是相关分析。统计学能够帮助我们证明那些我们所需要的因果关系。很多时候,真正的因果关系,不能简单地建立在相关关系的基础之上。还有很多科学问题,仍需要我们去发现真正的因果关系,这正是统计学可以提供数据收集以及分析方案的地方,也是统计学的魅力所在。

关于作者:朱利平,中国人民大学统计与大数据研究院副院长、博士生导师,中国人民大学“杰出学者”特聘教授。国家自然科学基金优秀青年基金获得者。入选中组部青年拔尖人才计划、教育部新世纪优秀人才计划等。长期从事复杂数据分析的研究工作,在统计学重要学术期刊上发表学术论文70余篇。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
赤裸裸的统计学:五大常见统计误区
每项重要的研究背后都离不开好的数据,是它们使分析成为可能。而每项不好的研究背后嘛……这个后面会说。人们常说“用数据说谎”,我要说往往数据的分析是没问题的,但这些分析却是建立在夸大或不实的数据之上。下面便是几个常见的“错进错出”案例。 选择偏倚 《纽约客》资深影评人宝琳•凯尔(Pauline Kael)据称曾经在理查德•尼克松(Richard Nixon)当选美国总统后评论:“尼克松不可能赢了竞选,我认识的人里面没一个投了他。”这句话很有可能是杜撰的,但却很好地说明了糟糕的样本(一群自由派朋友)会如何给更
小莹莹
2018/04/20
1.3K0
赤裸裸的统计学:五大常见统计误区
大数据没用?!张小龙:我们很少看统计数据!
导读:关于大数据的应用案例我们已经推送过很多,但大数据不是万能的,因为大数据只是研究数据之间的相关性,解决不了因果性。相比之下,身段更灵活的“小数据”反而更善于看穿因果性。因果性就在于日常的小数据中的,在于人的情绪、人的选择、人的爱好、文化等综合因素之中。
IT阅读排行榜
2018/08/16
6910
来自大数据的反思:需要你读懂的10个小故事
编者按:AI的热度已经让我们提前进入盛夏,一夜之间到处充斥着AI战无不胜的口号。连开复老师也一直为AI摇旗呐喊,发出“50%的职位将要被机器取代”“人机对战没有悬念”的豪言壮语。然而,AI真的强大到不可一世的地步吗?众所周知,AI的基础是大数据和计算能力,目前AI的能力更多的是来自于计算能力,在和大数据相关一些领域如自然语言处理、模式识别、知识发现等领域AI还有很长的路要走。AI在图像的情景识别方面还不如一个三岁的孩子吗,在大数据最有价值的预测分析方面,业界也至今没有太多可以参考的案例。作为从事数据科学
小莹莹
2018/04/24
1.4K0
来自大数据的反思:需要你读懂的10个小故事
来自大数据的反思:需要你读懂的10个小故事
自2011年以来,大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑,大数据已然成为继云计算、物联网之后新一轮的技术变革热潮,不仅是信息领域,经济、政治、社会等诸多领域都“磨刀霍霍”向大数据,准备在其中逐得一席之地。 中国工程院李国杰院士更是把大数据提升到战略的高度,他表示,数据是与物质、能源一样重要的战略资源。从数据中发现价值的技术正是最有活力的软技术,在数据技术与产业上的落后,将使我们像错过工业革命机会一样延误一个时代。 在这样的认知下,“大数据”日趋变成大家“耳熟能详”的热词。图1所示的是谷歌趋势
CSDN技术头条
2018/02/13
1.1K0
来自大数据的反思:需要你读懂的10个小故事
Science年度十大科学突破出炉:韦伯望远镜高居榜首,AIGC、NASA主动撞击小行星紧随其后
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 前脚韦伯望远镜运维科学家刚获得Nature年度十大人物; 紧接着,Science也将韦伯望远镜评为年度最大科学突破! 今天,Science重磅发布2022年度科学十大突破,并刊登在最新一期封面上。 围观网友高呼:韦伯望远镜它值得! 除此之外,AIGC、NASA成功撞击小行星、云南大学创制多年生稻等也一并入选。 下面我们来一文回顾详情~ 韦伯望远镜高居榜首 今年韦伯望远镜(JWST)带来的震撼,相信你我都感同身受。 历经20年、耗资100亿美元以及15
量子位
2023/02/28
2490
Science年度十大科学突破出炉:韦伯望远镜高居榜首,AIGC、NASA主动撞击小行星紧随其后
来自大数据的反思:需要你读懂的10个小故事
自2011年以来,大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑,大数据已然成为继云计算、物联网之后新一轮的技术变革热潮,不仅是信息领域,经济、政治、社会等诸多领域都“磨刀霍霍”向大数据,准备在其中逐得一席之地。 中国工程院李国杰院士更是把大数据提升到战略的高度,他表示【1】,数据是与物质、能源一样重要的战略资源。从数据中发现价值的技术正是最有活力的软技术,在数据技术与产业上的落后,将使我们像错过工业革命机会一样延误一个时代。 在这样的认知下,“大数据”日趋变成大家“耳熟能详”的热词。图1所示的是谷
CSDN技术头条
2018/02/09
1K0
来自大数据的反思:需要你读懂的10个小故事
【思维】如何把“数据”转化成可以行动的“信息”
题目中的这个问题,我理解是个本质。在数据时代,数据不管从哪里获取、用什么工具获取,也不管数据规模是否够得上是“大数据”,也不管你用来分析和利用这些数据的是BI软件(商业智能软件)还是数字化营销软件如AOS系统(注:美国安客诚公司推出的“受众运营系统”),你总得回答一个关键问题:面对一堆数据,你能去做什么,而且这个“做什么”是有效能变成真金白银的收益的。 所以,当我看到Mike Rozlog最新于2014/2/3发布的一篇文章中用到这个标题时,引起了我的兴趣。把文中一些主要观点编译概述如下,供朋友们参考,其中
CDA数据分析师
2018/02/23
9770
数据分析 | 数据分析必知必会:一文搞懂统计学常考定律!
http://www.woshipm.com/data-analysis/917862.html
咸鱼学Python
2020/11/05
9420
数据分析 | 数据分析必知必会:一文搞懂统计学常考定律!
TED演讲 | 我知道统计学很重要,但是关我什么事?
大数据文摘作品,转载要求见文末 翻译团队:蒋晔 卫青 白丁 陈啸明 后期:郭丽 鸣谢:终结者字幕 在大数据文摘后台回复“志愿者” 了解如何加入大数据文摘字幕组! 谈及统计学的时候,我们常常把人们分成两大类,善于与数字打交道的、和不善于和数字打交道的。本文的演讲者将告诉我们,这是一种错误的分类方式。事实上,统计的能力与我们的计算能力并无很大关系,但却会对我们的学业和人生产生巨大的影响。 统计学到底跟我有什么关系? 在英国进行的一次调查访问中,受访对象被询问,“在英格兰和威尔士每100人中有多少人是穆斯林?”
大数据文摘
2018/05/25
1.1K0
当统计学遇上大数据——P值消亡
有一天,我走进统计学的神殿 ,将所有谎言都装进原假设的盒子里,“P值为零”,一个声音传来,“但你已经不能再拒绝,因为,P值已经死了”从此,这个世界上充斥着谎言。 一、一个悲伤的故事:破灭的年少成名之梦 首先跟大家说一个悲伤的故事,该故事来源于nature最近发布的一篇文章“statistical errors”,我把这个故事叫做“破灭的年少成名之梦” 话说,弗吉尼亚大学有一位意气风发俊朗不凡的博士研究生莫德尔。 他做了一项关于关于政治极端分子的行为研究,样本大约有2000个人群,结果发现,相比较政治
小莹莹
2018/04/20
1.3K0
当统计学遇上大数据——P值消亡
小白的大数据笔记——3(统计学1)
描述统计学:是阐述如何对客观现象的数量表现进行计量、搜集、整理、表示、一般分析与解释的一系列统计方法。其内容包括统计指标、统计调查、统计整理、统计图表、集中趋势测度、离散程度测度、统计指数、时间数列常规分析等理论和方法。
DifficultWork
2021/02/24
6120
深度学习和经典统计学是一回事?
来源:机器之心 本文约7000字,建议阅读10+分钟 本文会解释为什么深度学习的基础其实不同于统计学,甚至不同于经典的机器学习。 深度学习和简单的统计学是一回事吗?很多人可能都有这个疑问,毕竟二者连术语都有很多相似的地方。在这篇文章中,理论计算机科学家、哈佛大学知名教授 Boaz Barak 详细比较了深度学习与经典统计学的差异,认为“如果纯粹从统计学角度认识深度学习,就会忽略其成功的关键因素”。 图源:https://twitter.com/YiMaTweets/status/155391346418
数据派THU
2022/10/11
6950
深度学习和经典统计学是一回事?
nature medicine综述:基因组学和大数据时代的精准公共健康
精准公共健康(PPH)考虑了遗传学、生活方式和环境之间的相互作用,以改善疾病的预防、诊断和治疗,从而在群体层面上实现适时提供正确的干预措施给适当的人群。在本文中,我们探讨了PPH作为下一代公共卫生的概念。我们讨论了在公共卫生干预中使用个体级数据的历史背景,并检视了来自人类和病原体基因组学、社会、行为和环境研究以及人工智能的数据如何转变了公共卫生的最新进展。文中讨论了PPH的现实世界例子,强调这些方法如何成为公共卫生的主流,以及在其发展、实施和可持续性方面存在的重大挑战。数据科学、伦理、法律和社会影响研究、能力建设、公平研究和实施科学将在实现“精准”增强传统公共卫生方法的潜力中扮演关键角色。
悦影科技
2024/09/26
3100
大数据分析的光荣与陷阱——从谷歌流感趋势谈起
沈艳   北京大学国家发展研究院教授   “谷歌流感趋势”(Google Flu Trends,GFT)未卜先知的故事,常被看做大数据分析优势的明证。2008年11月谷歌公司启动的GFT项目,目标是预测美国疾控中心(CDC)报告的流感发病率。甫一登场,GFT就亮出十分惊艳的成绩单。2009年,GFT团队在《自然》发文报告,只需分析数十亿搜索中45个与流感相关的关键词,GFT就能比CDC提前两周预报2007-2008季流感的发病率。   也就是说,人们不需要等CDC公布根据就诊人数计算出的发病率,就可以提
腾讯研究院
2018/01/31
1.2K0
概率论从入门到放弃?布朗学霸火到宕机的毕业作品,让统计“看得见”
黄白球在箱子里拿来拿去怎么也拿不到自己想要的,硬币抛来抛去也没有看到另一面,生日算来算去还是跟喜欢的人不一样。
大数据文摘
2019/01/23
9150
概率论从入门到放弃?布朗学霸火到宕机的毕业作品,让统计“看得见”
大数据分析的光荣与陷阱——从谷歌流感趋势谈起
作者:沈艳 介绍:北京大学国家发展研究院教授 来源:北京大学国家发展研究院 本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大、算法演化、看不见的动机导致数据生成机制变
大数据文摘
2018/05/22
1K0
(一)拨开生活中的数字迷雾,警惕数据的陷阱
数据是客观的,但数据的搜集和解释是带着目的的,是主观的。同时数据也总是不完整的,只代表了历史,而且只是事物的某一个片段,同时数据会随着时间和空间的变化而所传达的信息有所变化,数据中承载的信息是有限的,不可能支持无数的故事叙述,我们一直希望从数据中可以找出些什么模式、而实践是检验数据的标准,但同时我们也需要对数据保持者严谨和怀疑的态度。
1480
2019/10/08
7510
(一)拨开生活中的数字迷雾,警惕数据的陷阱
统计学和大数据如何帮助我们认知世界?
你发现没有,如果你在网上买过东西,商家就会根据你的网购经历,给你推荐很多相关的商品。比方说你买了婴儿奶粉,商家除了给你再推荐奶粉,还会给你推荐婴儿车、婴儿床。还有,你可能也听过,很多互联网公司都会基于后台收集到的各种数据,做出自己产品的“用户画像”,让分散在整个互联网上的用户,从无数抽象的数据,变成一个或者几个具象化的人物,然后再有目的地优化自己的产品。那你知道支撑大数据和算法科技的,是哪一门学科呢?可能你也想到了,对,就是专门处理数据的统计学。
黄成甲
2019/01/03
1.1K0
大数据时代统计学发展的若干问题
作者:马双鸽,刘蒙阕,周峙利,方匡南,朱建平,谢邦昌 本文是发表在《统计研究》的论文基础上整理的,获国家社会科学基金项目“大数据的高维变量选择方法及其应用研究”( 批准号13CTJ001) 和国家自然科学基金面上项目“广义线性模型的组变量选择及其在信用评分中的应用”(批准号71471152) 的资助。 一、引言 随着计算机技术,尤其是互联网和多媒体技术的普及与飞速发展,人类社会被呈爆炸性增长的信息所包围。据国际商业机器公司(IBM)资料显示[1],目前数据的生成每日以千万亿字节来计算,全球近90%的数据是在
小莹莹
2018/04/24
3.1K0
大数据时代统计学发展的若干问题
滴滴首席统计学家:数据产品的一些思考
导读:一个成功的数据产品有三个核心层,包含一个中心(应用层)与两个基本点(数据层和算法层)。其中应用层最重要,就是说给谁创造价值,也可以叫业务目标。判断一个数据产品的好坏在于它有没有真正给受众创造价值,创造多大价值。
统计学家
2020/05/06
7660
推荐阅读
相关推荐
赤裸裸的统计学:五大常见统计误区
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档