首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

手把手教你使用Python网络爬虫获取音效信息

加个“星标”,每天一起快乐的学习

一腔热血勤珍重,洒去犹能化碧涛。

/1 前言/

生活中到处有各种各样的声音。在做网页时,没有声音的网页显得没有灵魂,特别是游戏网页,没有声音就体会不了其中精彩的打斗效果,会感到特别的无趣。

/2 项目目标/

今天教大家如何用Python网络爬虫去获取音效。

/3 项目准备/

软件:PyCharm

需要的库:requestslxmlssl

网站如下:

/4 项目分析/

1、如何找到音效地址?

F12右键检查,找到对应的音效的地址,出现登录画面直接叉掉就可以了。

2、如何多网页访问?

观察网址的变化(一般取前三页):

发现点击下一页时,zonghe_0_0_0_0_0_0{}每增加一页自增加1,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。

3、如何解除ssl验证?

因为这个网址是https,需要导入一个ssl模块,忽略ssl验证。

4、如何获取Cookie?

右键检查,找到NetWork,随便复制一个Cookie即可:

/5 项目实现/

1、定义一个class类继承object,定义init方法继承self,主函数main继承self。导入需要的库和网址,代码如下所示。

2、导入网址和构造请求头。

3、发送请求  获取响应, 页面回调,方便下次请求。

4、xpath解析页面数据。

这里我们先获取父节点,在通过for循环遍历,找到对应的子节点(音效地址)。

获取到后,发现地址表示完整的地址,需要对网站进行补全,获取真正访问的地址。

5、运行的结果,如下图所示:

6、对音效地址发生请求,获取对应音效a标签的text()作为命名,写入文件。

7、调用方法,实现功能。

/6 效果展示/

1、点击绿色小三角运行输入起始页,终止页,如1和2,获取1页信息即可。

2、运行程序后,结果显示在控制台,如下图所示。

3、将运行结果保存在本地,如下图所示。

4、双击文件,即可播放。

/7 小结/

1、不建议抓取太多数据,容易对服务器造成负载,浅尝辄止即可。

2、本文基于Python网络爬虫,利用爬虫库,解除登录限制下载音效,存入文档。

3、按照步骤去实现,实现的时候,总会有各种各样的问题,切勿眼高手低,勤动手,才可以理解的更加深刻。

4、希望通过这个项目能够了解到,对于HTTPS网站,解除ssl验证的有大致的了解。

我将自己的原创文章整理成了一本电子书,取名《Python修炼之道》,一共 400 页,17w+ 字,目录如下:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201014A05HMH00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券