首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

旅游网站数据爬取+数据清洗+绘图+分析

70周年的国庆, 热闹非凡, 结合网上资料爬了下qunaer网站的 热门旅游景点

1、需求分析.

a. 找一个数据源能够获取全国旅游信息 -- qunaer

b. 爬取需要的旅游热点信息, 这里爬取了地点和热度

c. 数据清洗 得到只需要的数据 地点 和 热度

d. 绘图 例如:点图,线图,或者热力图

2、 爬虫

打开去qunaer网站. 门票->搜索热门景点->自然风光 出现下图:

其中URL 格式很清楚

Google 按F12 看元素位置 再来看看 每个景点都在 div 标签 id 为 search-list下,

再看看具体的一个景点, 这里就能找到很多需要的值,

我们这里就抓取 名称,区域,省市,热度,地址等信息吧~

代码如下:

执行完成后如果没有报错, 就能在当前目录下看到 一个 qunaer.csv 文件

打开看下

好了, 接下来开始进行数据清洗.

3、数据清洗

这里一共有 23520 条数据.

清洗 area, 提取地名作为分类. 下图红色标记部分

清洗heat, 只需要数字部分

清洗完成后 , 提取 area 和 heat 数据

最终的数据是这样, 一共266个

4、开始绘图

再来看看 热度前十 排行榜

画出排名前十的 的景点

话说邵阳崀山咋那么受欢迎~ 下次得去爬爬了.

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191005A0F3XT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券