前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >七夕来了,是时候喂一波“狗粮”了 | DT×NYCDSA

七夕来了,是时候喂一波“狗粮”了 | DT×NYCDSA

作者头像
DT数据侠
发布2018-09-21 17:58:16
3920
发布2018-09-21 17:58:16
举报
文章被收录于专栏:DT数据侠

今天的狗粮,真的是狗粮哦!作为宠物爱好者,数据侠 Summer Sun 一直很关心自己宠物的口粮问题。她爬取了美国宠物市场上的食品信息,用数据分析的方法为自己的宠物做了一份科学的食物分析。

2017年第一季度,美国市场的宠物食品销量同比增长40%。食品种类也更加多样。作为一个养宠物的人,我总是很纠结如何挑选更好的宠物食品,因为我的毛茸茸的伙伴有时候会对我给它买回来的食物嗤之以鼻。于是我决定展开这个爬虫项目,来进一步了解宠物食品。我的一些发现不仅会对宠物主有帮助,也会有益于刚刚进入这个市场的供应商们。

在2016年全美宠物市场中,市值159.2亿美元的宠物食品市场占了大头。但是这个市场还是高度集中化的,几大厂商(雀巢、马氏、 Big Heart、高露洁、蓝爵)占据了70%的市场份额。所有的厂商都要按照消费者的需求进行设计,而根据问卷调查的结果,消费者最关心的是产品的“高品质”问题。

什么样的产品算是高质量的宠物食品?我们研究中的假设是,宠物食品的品质取决于它的材料。

我的分析会从营养成分分析开始,它会显示整个食物的营养成分构成。

(图片说明:宠物食品的营养成分构成)

市面上有4500多种产品,我从美国领先的在线零售网站 (chewy.com) 上爬取了猫粮和狗粮的数据。下面是一个爬取数据的样本。我用 Python 包 Pandas 对数据进行了预处理,使用复杂的多步骤数据处理方式,将宠物食品成分进行了单独区分。

(图片说明:爬虫下的数据示例)

基于刚才提到的假设,我的研究包括以下三步:首先,比较营养成分分析中的基本数据,以查看它们的营养构成信息;其次,识别被用户视为“好品质”和“差品质”产品;最后观察不同品质产品的区别。

实验中用到的方法包括:Scrapy(一种python爬虫框架),k-平均算法(K-mean Clustering),方差分析(ANOVA test),散步图(Scatter text)。

我对大约4500个产品的数据进行了预处理。我们基于大约70种不同的原材料,使用无监督学习的方法对产品进行了聚类处理。我们使用k-平均算法,基于不同原材料所占的比例将它们分成5个部分。

数据通过主成分分析法(PCA)降维算法降成两个维度。下图展示了5个数据群集的情况。

(图片说明:PCA后的数据集群情况)

这部分的结果是基于这样的假设:产品的评价数量和评级情况反映了它的品质(也就是上文提到的两个评价维度)。为了按照品质来区别不同产品,我使用了方差分析(ANOVA test)。观察得出,下图中3号和4号数据群比1和2拥有更高的评级和更多的用户评论。这说明,事实上,产品品质的确取决于所用材料。

(图片说明:5个数据群的评级(1星到5星)分布)

(图片说明:5个数据群的产品评论数量)

数据群3、4被认为是好品质的产品,1、2被视为差品质的产品。0号数据群表示缺失评论数据的例外情况。

下面是产品材料出现的频率图。

(图片说明:好产品和坏产品中出现的材料的不同频率)

一些只频繁出现在“好品质”的产品中的材料包括:鱼油(Lutine) 、甜味剂(FOS)、纤维 (Mannan-oligosaccharides or MOS)等。

一些只出现在“差品质”的产品中的材料:防止胃流感(Gastrointestinal )、烟酸(Niacin)、钾(Potassium)。

其他材料也被按照好产品和坏产品出现频率进行了比较:好产品中,葡萄糖胺和软骨素的出现频率更高。差产品的水分含量会更高。因为水分更高会挤占其他如蛋白质等营养元素的比重。这解释了为何流食没有干粮受欢迎。

(图片说明:宠物食品原料分布说明。)

所以,我的结论是:功能和营养水平是区分产品品质好坏的主要因素。健骨、明目,更多的蛋白质/纤维素,以及更好的味道是好产品的反馈中被消费者提及最多的元素。而纤维之外的消化支持,以及更高比例的水分则更频繁出现在“差品”的用户反馈中。

食物材料导致了好坏品质之分。这些发现可以帮助生产商制造更多“好品质”的产品,更好的跟上快速变化的宠物食品市场。由于时间有限,我的项目的关注点比较有限。未来的研究可以加入更多考量因素,比如价格、功效、用户评价以及其他产品信息。

注:本文编译自数据博客《How to Recommend Pet Food Product from Unsupervised Learning》。点击“阅读原文”查看。内容仅为作者观点,不代表DT数据侠立场。文中图片部分来自作者。

作者 | Summer Sun

题图 | 站酷海洛

期待更多数据侠干货分享、话题讨论、福利发放?在公众号DT数据侠(ID:DTdatahero)后台回复“数据社群”,可申请加入DT数据社群。

▍数据侠门派

Summer Sun 对数据科学充满热情,她有三年的数据行业经验,曾为大型金融机构分析海量用户数据。她喜欢挑战各类有挑战的课题。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-08-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DT数据侠 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ▍数据侠门派
相关产品与服务
腾讯问卷
腾讯问卷是专业的在线问卷调查平台,支撑了腾讯核心业务的⽤户、市场、产品研究工作。平台提供基于数据收集的专业调查研究解决方案,覆盖问卷调查、信息上报、在线测评、在线考试、360度评估、投票打卡等工作场景,致力于为客户提供高效的洞察决策工具。同时平台还拥有超百万级的真实样本用户,可以提供高效、精准的问卷有偿投放服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档