我叫大家好,我是前端皮皮,其实我一点都不皮,乖的很哪~
今天借腾讯云+社区这个机会,给大家简单分享下美团数据的简易获取教程,希望小小白们也可以学会这招,下次再有人找你要数据的时候,你就可以拍腿板跟她说,让我来!
本次分享的内容主要可分为四块:
最近有个小伙伴在群里问美团数据怎么获取,而且她只要火锅数据,她在上海,只要求抓上海美团火锅的数据,而且要求也不高,只要100条,想做个简单的分析,相关的字段要的也比较少,只需要店铺名、星级、评分、地址、价格、评论数量。
乍一看,这个问题还真的是蛮难的,毕竟美团也不是那么好抓,什么验证码,模拟登陆等一大堆拂面而来,吓得小伙伴都倒地了。神仙常规操作,通过F12查看,抓包,分析URL,找规律,等等操作,发现都非常难顶!
不过白慌,今天小编给大家介绍一个小技巧,另辟蹊径去搞定美团的数据,这里需要用到抓包工具Fiddler。讲道理,之前我开始接触网络爬虫的时候也没有听过这个东东,后来就慢慢知道了,而且它真的蛮实用的,建议大家都能学会用它。这个工具专门用于抓包,而且其安装包也非常小,直接百度下载安装即可。
在Fiddler的左侧会显示大家的浏览器网站信息,避免抓包过多,这里建议大家只打开美团这一个网页即可,以免眼花缭乱。在茫茫抓包链接中找到meituan网站的链接,链接里边会有meituan关键字,找起来应该不太难。链接的左边返回的response(响应)的文件类型,可以看到是JSON文件,尔后双击这一行链接。
在WebView中可以看到返回的数据,与网页中的内容对应一致。
不过需要注意的是美团网限制一页最多显示32条火锅信息,不用慌,看我表演。如果我想获取100条信息的话,那得前后找4页,才能够满足要求。有没有办法让其一次性多显示一些数据呢?答案是可以的,操作方法如下。
在左侧找到对应的美团网链接,然后点击右键一次选择CopyàJustUrl。将得到的URL放到浏览器中去进行访问,可以看到limit=32,即代表可以获取到32条相关的火锅信息,并且返回的内容和Fiddler抓包工具返回的信息是一致的。
此时,我们直接在浏览器中将limit=32这个参数改为limit=100,也就是说将32更改为100,让其一次性返回100条火锅数据,天助我也,竟然可以一次性访问到,如下图所示。就这样,轻轻松松的拿到了一百条数据。奈斯不?
接下来,可以将浏览器返回的数据进行Ctrl+A全部选中,放到一个本地文件中去,存为txt格式,在sublime中打开,发现乱糟糟的,真让人头大。其实乍一看觉得很乱,其实它就是一个JSON文件,剩下的工作就是对这个JSON文件做字符串的提取,写个Python代码,提取我们的目标信息,包括店门、星级、评论数、关键词、地址、人均消费等。运行程序之后,我们会得到一个txt文件,列与列之间以制表符分开。在txt文件中看上去很是费劲,将其导入到Excel文件中去,就清晰多了,是不是觉得很棒棒呢?接下来就可以很方便的对数据做分析什么的了,数据可视化,词云等等,都可~
抓取美团火锅数据的简易方法就介绍到这里了,希望小伙伴们都可以学会,以后抓取类似的数据就不用找他人帮你写程序啦!
经过一番讲解,你是不是发现其实获取数据并没有想的那么难了呢?
以上就是本次为大家分享的内容了,感谢大家的耐心聆听,觉得不错,记得点个赞噢,皮皮会继续给大家带来更多分享内容滴!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。