首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

当我用大数据找火锅——动力分析(2)

大家好,今天仍由企鹅我来当班,为大家讲解学习大数据分析的必要性和学习方法。

HackerRank发布的《2018开发者技能报告》,其中指出

25%的开发者在16岁前就已经写出了自己的第一段代码了,当数据分析与编程已经逐渐成为职场生存、学习研究的必备技能,还有什么理由不做早起的鸟儿呢!

上一次的讲解中,企鹅从大数据分析师校招信息出发为大家分析了大数据分析学习的必要性,那么将接着“场景学习法”说起,为大家如何从生活、从学习中出发制造学习场景,开展大数据分析实践提供思路。

去哪找好吃的“火锅”

作为一个资深吃货,企鹅一直在挖掘美食的康庄大道上大(yue)胆(chi)前(yue)进(pang),"火锅"也一直是企鹅心头好美食之一,如何找到好吃的火锅店就成为企鹅吃货之路上坚持不懈的追求了。今天,企鹅就从这一点讲起,说说企鹅是如何找到美味火锅店的。

数据来源

本次数据分析的数据来源为某众点评,这一网站的成立时间较早、美食覆盖度也较广,因而可以选做较为合理的数据来源。在这里,企鹅要提醒大家,在进行数据分析时,数据质量将最终决定数据分析结果的可靠性。因而,在选择自行选择数据来源时,无论最终采用什么样的数据提取手段(如网络爬虫、调查问卷等),都需要有针对性的选择数据,一般而言,需要注重数据的真实性、可靠性也要重视数据的体量。

在这次分析过程中,企鹅选用了八爪鱼这一爬虫软件作为数据采集工具,托拉拽无需编程就可以解决数据采集问题,这一工具在新年后的大数据实践营中也将为大家进一步讲解,欢迎大家到时共同学习,一起进步。

数据采集过程中,企鹅将网页中数据列表转换成了如下图的数据框,以便开展进一步的分析。

数据爬取前后

啥子叫“好吃”

获取数据后,到底该怎么分析往往成为很多初学者困惑的地方,学到的内容急切的施展,往往忘记了自己对于分析目标的定位,这时就需要进一步确定分析目标,当然根据数据对分析目标的适应性也需要对目标做一些调整。

回顾企鹅在最初的数据分析目标:找到好吃的火锅店!

那么如何定义好吃呢?这就涉及到分析目标的细化与分析结果评价指标的制定了。在这里,企鹅根据自己对火锅的评价标准设置了这样的细化目标和评价指标。

数据分析目标与分析成果的评价

在评价标准中,企鹅强调了分析现场的作用,在现实分析中,往往分析师提出的建议是好的建议,但建议的执行和业务场景格格不入,这就会导致分析结果的失效。因而,在这里企鹅将选择成功与饭局场景相结合,实现业务和数据的结合,进一步提高分析结论的适应性。

信息解读

这次分析企鹅使用统计分析软件R来完成分析。

在进行最终的筛选之前,分析师往往需要深入的了解数据,因而在这里首先要进行基本信息的解读。

本次共爬取708家火锅店的基本信息,爬取的信息特征包括店名、商户星级、点评数量、人均价格、招牌菜、口味评分、环境评分和服务评分。

R读取数据的情况

从商户星级来看,火锅店星级普遍分布在准四星级与四星级上,由于我们爬取数据时,刚好馋簋美蛙鱼头这家店刚刚开张,导致存在无(0)星级评价的情况的出现,而对于将场景定在试新的客户群体中,这一商户反而将会脱颖而出。

锅店星级分布(横轴代表星级,纵轴代表数量,后缀-代表准星级)

而作为企鹅最为关注的口味分,可以发现火锅店的口味分分布在6.3-9.2分上,分数在7-7.5分的火锅店数目最多,商户的口味分数在8分之后呈现了一定的下滑,9分附近的商户数目也较多,那么我们该如何定义口味分中的较高呢?一般来讲,这时我们会采用排名的办法,取分数靠前的前10%-20%的商户的最低分数来定义口味分阈值。本次分析取前10%的下限作为阈值,最终定义8.8分为数据划分点。

商户口味分分布

那么又该如何根据推荐菜品选择最终去的商户呢,在这里我们需要对R语言数据处理有进一步的了解,在新年的课程中企鹅将以这一问题作为案例进一步讲授如何在大数据分析中进行数据预处理,希望能在课上与大家交流学习心得与美食体会,年后,让我们想着火锅学着数据分析,得到精神和美食的双重满足吧!

快到碗里来

!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180206G071F800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券