南山烟雨
python爬虫—爬取b站APP视频信息(通过fiddler抓包工具)
关注作者
前往小程序,Get
更优
阅读体验!
立即前往
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
南山烟雨
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
社区首页
>
专栏
>
python爬虫—爬取b站APP视频信息(通过fiddler抓包工具)
python爬虫—爬取b站APP视频信息(通过fiddler抓包工具)
南山烟雨
关注
修改于 2019-05-08 10:36:42
2.4K
0
修改于 2019-05-08 10:36:42
举报
文章被收录于专栏:
Python 大数据与SQL优化笔记
1.先看效果图,随便抓的信息
1.jpg
2.jpg
2.解析 ,fiddler抓包工具的配置大家自己百度吧,教程都很详细
3.打开fiddler和模拟器,在模拟器打开哔哩哔哩软件,fiddler我是通过查找分析之后之后过滤的域名
3.jpg
4.我们通过打开b站的相应版块,然后进行往下翻页之后,fiddler就会根据我之前选择过滤的域名给我标黑
4.jpg
5.我们点开其中一条标黑的url,然后和b站软件的进行对比,发现我们需要的信息都可以抓取出来
5.jpg
6.我们可以通过这两条url的对比,查找出不同的地方,经过我的测试,pn代表的是页码,后面红框打叉的地方我们可以不要,这样我们就可以实现翻页了
6.jpg
7.需要注意的是我们需要无视ssl安全证书,也就是在requests那里加一个verify=False,这个很重要,不加的话就访问不了url的,返回的数据是json格式,所以大家都懂怎么操作了
7.jpg
8.大家想要什么数据自己去找,当然其中的数据代表什么也需要大家自己去想了
8.png
9.再说一下,翻页到什么时候就到底了呢,通过观察我发现,当到底部的时候,json数据里面的data为空,所以我们只要判断json里面的data是否为空做为判断是否到达底部
9.png
完整代码关注公众号pythonislover, 回复:b站
本文系转载,
前往查看
如有侵权,请联系
cloudcommunity@tencent.com
删除。
http
json
php
python
本文系转载,
前往查看
如有侵权,请联系
cloudcommunity@tencent.com
删除。
http
json
php
python
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
LV.
文章
0
获赞
0
目录
1.先看效果图,随便抓的信息
2.解析 ,fiddler抓包工具的配置大家自己百度吧,教程都很详细
3.打开fiddler和模拟器,在模拟器打开哔哩哔哩软件,fiddler我是通过查找分析之后之后过滤的域名
4.我们通过打开b站的相应版块,然后进行往下翻页之后,fiddler就会根据我之前选择过滤的域名给我标黑
5.我们点开其中一条标黑的url,然后和b站软件的进行对比,发现我们需要的信息都可以抓取出来
6.我们可以通过这两条url的对比,查找出不同的地方,经过我的测试,pn代表的是页码,后面红框打叉的地方我们可以不要,这样我们就可以实现翻页了
7.需要注意的是我们需要无视ssl安全证书,也就是在requests那里加一个verify=False,这个很重要,不加的话就访问不了url的,返回的数据是json格式,所以大家都懂怎么操作了
8.大家想要什么数据自己去找,当然其中的数据代表什么也需要大家自己去想了
9.再说一下,翻页到什么时候就到底了呢,通过观察我发现,当到底部的时候,json数据里面的data为空,所以我们只要判断json里面的data是否为空做为判断是否到达底部
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐