70周年的国庆, 热闹非凡, 结合网上资料爬了下qunaer网站的 热门旅游景点
1、需求分析.
a. 找一个数据源能够获取全国旅游信息 -- qunaer
b. 爬取需要的旅游热点信息, 这里爬取了地点和热度
c. 数据清洗 得到只需要的数据 地点 和 热度
d. 绘图 例如:点图,线图,或者热力图
2、 爬虫
打开去qunaer网站. 门票->搜索热门景点->自然风光 出现下图:
其中URL 格式很清楚
Google 按F12 看元素位置 再来看看 每个景点都在 div 标签 id 为 search-list下,
再看看具体的一个景点, 这里就能找到很多需要的值,
我们这里就抓取 名称,区域,省市,热度,地址等信息吧~
代码如下:
执行完成后如果没有报错, 就能在当前目录下看到 一个 qunaer.csv 文件
打开看下
好了, 接下来开始进行数据清洗.
3、数据清洗
这里一共有 23520 条数据.
清洗 area, 提取地名作为分类. 下图红色标记部分
清洗heat, 只需要数字部分
清洗完成后 , 提取 area 和 heat 数据
最终的数据是这样, 一共266个
4、开始绘图
再来看看 热度前十 排行榜
画出排名前十的 的景点
话说邵阳崀山咋那么受欢迎~ 下次得去爬爬了.
领取专属 10元无门槛券
私享最新 技术干货