“
今天的狗粮,真的是狗粮哦!作为宠物爱好者,数据侠 Summer Sun 一直很关心自己宠物的口粮问题。她爬取了美国宠物市场上的食品信息,用数据分析的方法为自己的宠物做了一份科学的食物分析。
2017年第一季度,美国市场的宠物食品销量同比增长40%。食品种类也更加多样。作为一个养宠物的人,我总是很纠结如何挑选更好的宠物食品,因为我的毛茸茸的伙伴有时候会对我给它买回来的食物嗤之以鼻。于是我决定展开这个爬虫项目,来进一步了解宠物食品。我的一些发现不仅会对宠物主有帮助,也会有益于刚刚进入这个市场的供应商们。
在2016年全美宠物市场中,市值159.2亿美元的宠物食品市场占了大头。但是这个市场还是高度集中化的,几大厂商(雀巢、马氏、 Big Heart、高露洁、蓝爵)占据了70%的市场份额。所有的厂商都要按照消费者的需求进行设计,而根据问卷调查的结果,消费者最关心的是产品的“高品质”问题。
什么样的产品算是高质量的宠物食品?我们研究中的假设是,宠物食品的品质取决于它的材料。
我的分析会从营养成分分析开始,它会显示整个食物的营养成分构成。
(图片说明:宠物食品的营养成分构成)
市面上有4500多种产品,我从美国领先的在线零售网站 (chewy.com) 上爬取了猫粮和狗粮的数据。下面是一个爬取数据的样本。我用 Python 包 Pandas 对数据进行了预处理,使用复杂的多步骤数据处理方式,将宠物食品成分进行了单独区分。
(图片说明:爬虫下的数据示例)
基于刚才提到的假设,我的研究包括以下三步:首先,比较营养成分分析中的基本数据,以查看它们的营养构成信息;其次,识别被用户视为“好品质”和“差品质”产品;最后观察不同品质产品的区别。
实验中用到的方法包括:Scrapy(一种python爬虫框架),k-平均算法(K-mean Clustering),方差分析(ANOVA test),散步图(Scatter text)。
我对大约4500个产品的数据进行了预处理。我们基于大约70种不同的原材料,使用无监督学习的方法对产品进行了聚类处理。我们使用k-平均算法,基于不同原材料所占的比例将它们分成5个部分。
数据通过主成分分析法(PCA)降维算法降成两个维度。下图展示了5个数据群集的情况。
(图片说明:PCA后的数据集群情况)
这部分的结果是基于这样的假设:产品的评价数量和评级情况反映了它的品质(也就是上文提到的两个评价维度)。为了按照品质来区别不同产品,我使用了方差分析(ANOVA test)。观察得出,下图中3号和4号数据群比1和2拥有更高的评级和更多的用户评论。这说明,事实上,产品品质的确取决于所用材料。
(图片说明:5个数据群的评级(1星到5星)分布)
(图片说明:5个数据群的产品评论数量)
数据群3、4被认为是好品质的产品,1、2被视为差品质的产品。0号数据群表示缺失评论数据的例外情况。
下面是产品材料出现的频率图。
(图片说明:好产品和坏产品中出现的材料的不同频率)
一些只频繁出现在“好品质”的产品中的材料包括:鱼油(Lutine) 、甜味剂(FOS)、纤维 (Mannan-oligosaccharides or MOS)等。
一些只出现在“差品质”的产品中的材料:防止胃流感(Gastrointestinal )、烟酸(Niacin)、钾(Potassium)。
其他材料也被按照好产品和坏产品出现频率进行了比较:好产品中,葡萄糖胺和软骨素的出现频率更高。差产品的水分含量会更高。因为水分更高会挤占其他如蛋白质等营养元素的比重。这解释了为何流食没有干粮受欢迎。
(图片说明:宠物食品原料分布说明。)
所以,我的结论是:功能和营养水平是区分产品品质好坏的主要因素。健骨、明目,更多的蛋白质/纤维素,以及更好的味道是好产品的反馈中被消费者提及最多的元素。而纤维之外的消化支持,以及更高比例的水分则更频繁出现在“差品”的用户反馈中。
食物材料导致了好坏品质之分。这些发现可以帮助生产商制造更多“好品质”的产品,更好的跟上快速变化的宠物食品市场。由于时间有限,我的项目的关注点比较有限。未来的研究可以加入更多考量因素,比如价格、功效、用户评价以及其他产品信息。
注:本文编译自数据博客《How to Recommend Pet Food Product from Unsupervised Learning》。点击“阅读原文”查看。内容仅为作者观点,不代表DT数据侠立场。文中图片部分来自作者。
作者 | Summer Sun
题图 | 站酷海洛
期待更多数据侠干货分享、话题讨论、福利发放?在公众号DT数据侠(ID:DTdatahero)后台回复“数据社群”,可申请加入DT数据社群。
Summer Sun 对数据科学充满热情,她有三年的数据行业经验,曾为大型金融机构分析海量用户数据。她喜欢挑战各类有挑战的课题。