2016年,美国总统选举,英国脱欧投票,巴西总统弹劾……这些不可思议的“黑天鹅”事件,让大数据的模型预测变得更加艰难。2017年大数据在预测能力上会做得更好吗?
被打脸的“美国大选”预测
2016年在大数据领域最重要的事情之一就是预测美国大选的结果。
The New York Times预测,希拉里的获胜几率是85%。The Huffington Post的预测模型则预测希拉里的获胜可能性为98%。FiveThirtyEight的预测甚至精确到小数点,它认为希拉里的获胜概率是71.4%。
但最后利用大数据分析的预测结果都错了。曾经在2008年和2012年两次成功预测了美国总统大选结果的数据大神Nate Silver,今年竟然连续在9个州预测失败,不禁令人大跌眼镜。
这在一定程度上说明了预测模型有些太过“自信”。耶鲁大学副研究员Pradeep Mutalik认为,事件的某些部分变得不可预测是受到人们情绪的影响,这在预测模型中很难进行测量。
走向靠谱的预测分析技术
美国大选的预测失败,使大数据预测分析领域进入一个短暂的低潮期,甚至对整个行业都产生了怀疑。
但川普当选这类“黑天鹅”事件的发生,也引发更多的人对大数据的关注,并带来了2017年预测分析技术的新的发展趋势:
预测分析领域的商业价值链得到完善。管理者开始质疑分析模型背后的假设是否合理,并将重点从“我们可以建立一个更好的分析模型”转移到“我们如何通过预测分析来改善业务”。
在开发预测分析算法时,开始充分考虑数据的价值、数据的合理应用和滥用,例如判断社交媒体上的评论、虚假新闻等。同时,将难以测量的数据指标如情绪等,纳入预测分析的领域,使得数据更加全面。
更多的组织机构开始理解各种认知分析工具的异同,并对其进行分类,以便更合理地将其应用于具体的业务问题。
各大具有影响力的机器学习开发者将持续推动认知分析算法的透明化,并避免使用非开源的算法。
2017:数据科学领域的爆发年
云服务供应商Quadrant 4公司的首席数据科学家Thomas Joseph认为,2017年一个最大的趋势就是:
大数据和数字化将逐渐成为一个“大众化”的方式,被越来越多的企业重视。
预测分析技术在2017年将会进一步渗透到各个垂直领域,预测分析和数据科学的扩张趋势是不可阻挡的。
结合国内外案例来看,以下10个领域是最有机会的大数据预测应用领域。
体育赛事预测、股票市场预测、市场物价预测、用户行为预测、人体健康预测、疾病疫情预测、灾害灾难预测、环境变迁预测、交通行为预测、能源消耗预测。
除了上面列举的十个领域之外,大数据预测还可被应用在:房地产预测、就业情况预测、高考分数线预测、选举结果预测、奥斯卡大奖预测、保险投保者风险评估、金融借贷者还款能力评估等等。
大数据不容忽视的挑战
虽然大数据预测是一种可量化可验证的洞察未来的能力,但大数据对技术和应用所带来的挑战也是全方位的。
对于已经完成原始数据积累的企业来说,将数据进行整合是做大数据预测分析的前提。很多企业的数据都存在于不同IT系统,如何打破信息孤岛就成为了预测分析技术的问题所在。
同时,数据在不断更新,要想快速获取和查询数据信息,超大规模的数据处理能力就成为大数据预测技术的强有力保障。
大数据预测分析的最大难度在于其精准度,精准度越高,就越能把结果全面呈现出来。但是要提高预测的精准度,光靠数据挖掘显然不够,就企业而言必须要面向不同行业和领域的客户,把不同特征的数据分别提取出来,如此就又把预测分析技术难度上升了一个层次。
数据资产化后,数据安全与隐私保护也成为大数据考虑的重要一环。
【科技云报道原创】
转载请注明“科技云报道”并附本文链接