大家好,欢迎来到 Crossin的编程教室 !
刚刚过去的国庆长假,你是出去浪了,还是在家里宅着呢?那你知道你的朋友去哪浪了吗?本文我们通过爬取网络售票数据()来简单分析一下。
数据爬取
首选,我们打开网址:,在搜索框输入一个省级行政区划进行搜索,以浙江为例,如图所示:
再将页面向下拉,F12 打开开发者工具,点击下一页看一下 URL,如图所示:
通过观察 URL 我们可以看出 和 是动态的,一个是输入条件值,另一个是页码值,当我们需要翻页爬取时可以进行动态赋值,再将开发者工具切到 Response,我们可以发现返回的数据是 JSON 格式的,如图所示:
这里我们以 34 个省级行政区划作为 keyword 进行分页爬取,主要爬取代码实现如下:
数据分析
现在数据有了,我们再来简单分析一下。
位置分布
首选,我们来看一下景区的位置分布情况。
先看一下景区的整体分布情况,主要代码实现如下:
看一下效果:
再看一下各地景区的销量情况,主要代码实现如下:
看一下效果:
最热景区
我们接着看 TOP10 热门景区有哪些?它们的价格又是多少呢?主要代码实现如下:
看一下效果:
从图中我们可以看出 TOP10 热门景区的价格大多数都在 500 以内,算是比较亲民了。如果你的朋友喜欢热闹,他(她)可能去了热门景区。
再接着看热门景区的介绍情况,这里我们选取 T100 数据,通过词云来看一下。主要实现代码如下:
看一下效果:
最豪景区
我们再看一下票价 TOP10 景区有哪些?它们的销量怎么样呢?主要代码实现如下:
看一下效果:
如果你的朋友是一个热爱旅游的土豪,他(她)很有可能去了土豪景区了。
再接着看一下土豪景区的介绍情况,这里我们还是选取 T100 数据,通过词云来看一下。
主要代码实现如下:
看一下效果:
景区星级
我们再来看一下各省级行政区划的 5A 级景区数量情况,主要代码实现如下:
看一下效果:
如果你的朋友热爱旅游且对 5A 级景区情有独钟,他(她)可能去了 5A 景区的城市了。
最后,我们看一下 T200 热门景区的星级比例情况是怎样的?主要代码实现如下:
看一下效果:
从图中我们可以看出 90% 以上的景区均为 4/5A 级。
好了,本文就到这里了,文中我们对网上售票数据中的几个指标进行了简单的分析,可以做个简单的参考,当然了,如果你感兴趣的话,还可以继续对其他指标进行分析。
领取专属 10元无门槛券
私享最新 技术干货