这两天看到别人用Python下载视频,于是我也来试一下平时总是喜欢看内涵段子。这里正好有内涵视频:http://neihanshequ.com/video/
github源码地址: https://github.com/pythonchannel/python27/blob/master/dyamic/download_video
打开网址:http://neihanshequ.com/video/
开始分析:
数据方式按下F12 可以看到 Network中 response返回的数据都是用html渲染好的,所以这样的数据,你没有办法直接获取到他的数据,你只能通过他对应的实际网址来抓取你需要的数据
视频字段再分析网页源代码,可以找到视频对应的地址,获取把地址拿出来放到迅雷中下载,然后发现可以果然可以播放,这说明这个地址是没有错误的
获取视频细节点击播放视频可以获得视频的大小,这样我们可以在下载的时候知道下载进度.
获取更多数据因为这里请求的数据只能通过往下拉,点击可以获取到更多数据,这里就必须要用到Selenium来模拟点击.
分析完毕,开始上代码了(环境是py2.7):
最后发现一个比较奇怪的现象,为啥我下载的内容每一页是重复的呢? 查了好久没有查到原因!,如果有发现原因请留言!
您的Python之旅
领取专属 10元无门槛券
私享最新 技术干货