凉风有信,秋月无边,魔都大降温袭来!
于是乎DT君倒下了,此刻明显感到上呼吸道有些感染——通俗来说,就是感冒。
对症下药,DT君急忙打开了百度,郑重地在搜索框中输入“感冒”两字。然后,度娘自动推荐了“感冒了吃什么好的快”,正合孤意,轻轻一点,跳转页面第一条却是:
对于已经习惯了只有“喝杯热水”问候的DT君,惊喜来得猝不及防。
不过惊喜过后,细思极恐:根据我的上网行为,百度们完全能准确知道你在何时何地感了个冒,然后,趁机给你投个精准的广告。
DT君也只是害怕了三秒,随后就坠入了大数据的脑洞:
能知道我感冒的百度,当然也知道别的人是不是也感冒了。逻辑非常简单,某个时段某个区域突然出现了一大波关于“感冒”的搜索,那么基本不用怀疑,有大量的人此时此地感冒了。
什么时候是感冒高发期呢?
DT君截取了2012年到现在的百度搜索数据,发现这还真是有一点小规律。比如说,就全国来看,每年12月到次年1月,“感冒”这个词的搜索量就会暴增,并在年初到达顶峰。当然,3月以及9月也是不得不提防的次高危季节。
考虑到中国地大物博,南北温差跨度之大,地区性数据可能实际价值更大。DT君又看了看魔都的搜索趋势,最近大风大雨大降温,像DT君这样上网找药的人确实节节攀升。
再来看看搜索地域,似乎也有一点端倪,比方说,广东人真的很爱搜“感冒”。当然,并不能就此下定论,广东人就比较容易感冒。因为广东同学自己说了,我们这里上网的人特别多,基数大跟别的省比较很不公平!
好事的DT君又去查了一下2012年以来的淘宝指数,黄色的是秋裤,蓝色的保暖内裤,灰色的是棉毛裤。
不过,广东人并不喜欢以上三类的任何一种,看来号称冬天不下10度的广东人,不喜欢买秋裤……
细心的DT君还发现一个不科学的小巧合:搜索秋裤等类似产品排名靠前的地区,跟搜索感冒排名靠前的地区,几乎没有重合。
这……我们再看看秋裤、棉毛裤、保暖内裤热销的季节。
秋裤的购买也很有季节规律:
每年11月中,保暖必备就会迎来突然飙升的销售高峰。凑巧,正是感冒搜索高峰来临之前。
DT君不得不构想出这样一个李菊福的故事:秋天降温了,妈妈叫你穿秋裤,听话的人都去淘宝下单了,其余各位,12月就只能去问度娘,“感冒了吃什么好得快”。
按照这个剧本:麻麻叫你穿秋裤的时候,一定要听她的话!
——分割线,上面是DT君的脑洞,下面才是有料的科普——
对于感冒(以及其他疾病),除了DT君感受到的精准营销,互联网大数据还有更高级的价值:疾病预测。
此处请出大名鼎鼎的“Google Flu Trends”(GFT),在大众看来,这可能算是大数据现实应用的先驱之作了。
2008年,GFT项目上线,试行预测流感传播。第二年《自然》刊登了一篇来自谷歌攻城师们的有趣论文:《利用搜索引擎查询数据检测禽流感流行趋势》。
预测原理跟DT君上面说到的一样简朴:在某个区域的某个时间段内,发现大家都在搜索“流感”,那么就有可能在此时此地出现了流感人群,相关部门可以依据此发布流感预警信息。
有个部门叫做“美国疾病预防与控制中心”(很多人可能更熟悉它的缩写CDC),其实也一直在默默地采集流感数据并发布预警信息,但是由于操作流程的关系,往往会滞后两个星期,这时候再发预警绝对是来不及。
谷歌攻城狮们在发表论文前,将GFT的预测数据(下图黑线)与美国疾控中心的监控数据(下图红线)做了仔细的对比,发现重合度还挺高。
果然,GFT成功预测了几周后美国H1N1的爆发,一战成名。但这并不是Happy ending……后来的故事告诉我们,大数据其实很调皮!
四年后的2013年,《自然》上刊发了一篇新的论文,指出GFT预测的流感样病例门诊数超过美国疾控中心预测结果的两倍。
这……谷歌都错了,以后还怎么相信爱?
不过,2014年的《科学》上的另外一篇论文,帮忙解释了这一现象,原因归结起来就是“大数据傲慢”,具体有以下几种可能:
在进行计算的过程中。很有可能会出现过度拟合(将噪声误认为信号)的情况:很多关键词只是看似与流感相关,但实际上却并无关联。
相关搜索(People also search for)的算法也会对GFT造成影响。例如搜索“发烧”,相关搜索中会给出关键词“流感”,而搜索“咳嗽”则会给出“普通感冒”。
搜索建议(Recommended search)也会进一步增加某些热门词汇的搜索频率。
DT君凭生活经验也觉得还有一种情况:如果新闻里都在报道感冒,大家都会好奇地搜索关心一下,于是,感冒的搜索量大幅上升。
这事也可以问度娘,在百度指数上,图中标记了字母的地方是出现了“新闻头条”的时点,可以看出有时候确实感冒主题的热点新闻后面,紧跟了一波搜索上涨,但有时候也没有……
就这样,“大数据傲慢”可能会不规则地出现在各种可能性当中,从而干扰了预测的准确度。
不过,对于疾病预测的尝试不会因为这么一点小挫折就停止。
大中华区的度娘也在进行这方面的尝试,站在巨人的肩膀上,它的预测模型看起来也很科学(至于和谷歌比谁更靠谱DT君不敢下结论):
将百度自身数据(比如搜索、微博、贴吧)与中国疾控中心(CDC)提供的流感监测数据结合建立预测模型。
而且,度娘不仅可以预测流感,还把手口足病、艾滋病、肝炎、心脏病、性病、各种癌都包办了。谷歌都玩脱的事情,百度居然这么强悍?DT君不明觉厉。
百度预测的负责人曾经被问过这个问题,他是这么说的(此处为原文照登,不代表DT君的态度):
谷歌主要是通过相关性选取的检索词,而我们可以直接从原始日志数据构造特征, 在特征选取上会更灵活准确。我们的空间粒度也比谷歌更细,可以利用流感爆发在空间上的相关性做更好的预测与丰富产品功能。
DT君登陆上去看了下最近的热点地区和预测情况,正在大降温的魔都果然一直都盘旋在榜单前列。
顺便看了下最近的艾滋病热点地区,榜单前列来来回回都是黑龙江、云南、四川、山西……以及我大魔都,按照常识推测也很有道理的样子。这几个地区的盆友们,进行高危行为更要注意安全啊!
最后DT君想说的是,大数据在监控疾病趋势并建模预测方面,有巨大潜力可挖掘是无需质疑的,但至少在眼前,还远没有到把大数据当神算子的时候,所以这些已经研发出来的大数据疾病预测产品,参考即可。
这事,任还是很重,道也还是很远,不管是美帝还是我大天朝,攻城狮和科学家叔叔们加油~
来源:中国大数据
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有