前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >python爬虫实战之自动下载网页音频文件

python爬虫实战之自动下载网页音频文件

作者头像
python学习教程
发布于 2021-09-30 02:26:36
发布于 2021-09-30 02:26:36
2.3K00
代码可运行
举报
文章被收录于专栏:python学习教程python学习教程
运行总次数:0
代码可运行

一、使用到的库

1、requests

用来发送http请求。

2、BeautifulSoup

一个灵活又方便的网页解析库,处理高效,支持多种解析器。

利用它就不用编写正则表达式也能方便的实现网页信息的抓取。

3、安装和引入:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install requests
pip install BeautifulSoup
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import requests
from bs4 import BeautifulSoup as bf

二、目标网站

一个需要手动点击下载mp3文件的网站,因为需要下载几百个所以很难手动操作。

三:获取并解析网页源代码

1、使用requests获取目标网站的源代码

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
r = requests.get('http://www.goodkejian.com/ertonggushi.htm')

所有下载链接被存放在<a></a>标签内,并且长度固定。该链接将其中的amp;去除后方可直接下载。

2、使用BeautifulSoup将网页内容解析并将其中的<a></a>标签提取出来

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
soup = bf(r.text, 'html.parser')
res = soup.find_all('a')

四:下载

经过上述步骤res就变成了包含所有目标标签的数组,要想下载网页上的所有mp3文件,只要循环把res中的元组转换为字符串,并经过筛选、裁剪等处理后变成链接就可以使用request访问了,并且返回值就是mp3文件的二进制表示,将其以二进制形式写进文件即可。

全部代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import requests
from bs4 import BeautifulSoup as bf

r = requests.get('http://www.goodkejian.com/ertonggushi.htm')

soup = bf(r.text, 'html.parser')
res = soup.find_all('a')

recorder = 1
# 长度为126的是要找的图标
for i in res:
    dst = str(i)
    if dst.__len__() == 126:
        url1 = dst[9:53]
        url2 = dst[57:62]
        url = url1 + url2
        print(url)
        xjh_request = requests.get(url)
        with open("./res/" + str(recorder) + ".rar", 'wb') as file:
            file.write(xjh_request.content)
        file.close()
        recorder += 1
        print("ok")

以上就是使用python爬虫自动下载网页音频文件的思路和全部代码,大家可以套入代码尝试下载进行实战练习哦~

代码语言:javascript
代码运行次数:0
运行
复制
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 python教程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/134735.html原文链接:https://javaforall.cn
全栈程序员站长
2022/08/18
9510
Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!
Python杂谈(3)——BeautifulSoup库全面介绍
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
背雷管的小青年
2020/06/11
9390
Python爬虫系列(一)入门教学
大家好,我是新来的小编小周。今天给大家带来的是python爬虫入门,文章以简为要,引导初学者快速上手爬虫。话不多说,我们开始今天的内容。
短短的路走走停停
2020/02/25
1.1K0
python爬虫实例
参考: https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#find-all
cuijianzhe
2022/06/14
6050
python爬虫实例
图解爬虫,用几个最简单的例子带你入门Python爬虫
爬虫一直是Python的一大应用场景,差不多每门语言都可以写爬虫,但是程序员们却独爱Python。之所以偏爱Python就是因为她简洁的语法,我们使用Python可以很简单的写出一个爬虫程序。本篇博客将以Python语言,用几个非常简单的例子带大家入门Python爬虫。
ZackSock
2020/12/08
8150
图解爬虫,用几个最简单的例子带你入门Python爬虫
Python爬虫系列:BeautifulSoup库详解
每个人的生命都是通向自我的征途,是对一条道路的尝试,是一条小径的悄然召唤。人们从来都无法以绝对的自我之相存在,每一个人都在努力变成绝对自我,有人迟钝,有人更洞明,但无一不是自己的方式。人人都背负着诞生之时的残余,背负着来自原初世界的黏液和蛋壳,直到生命的终点。
小Bob来啦
2021/03/10
1.4K0
Python爬虫系列:BeautifulSoup库详解
基于Python编程实现简单网络爬虫实现
网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。 一般有两个步骤:1.获取网页内容 2.对获得的网页内容进行处理
全栈程序员站长
2022/08/30
6530
基于Python编程实现简单网络爬虫实现
一文带你了解Python爬虫(二)——四种常见基础爬虫方法介绍
–Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库 –urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作。 –requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。 –默认安装好python之后,是没有安装requests模块的,需要单独通过pip安装
诡途
2020/10/16
1.4K0
Python爬虫抓取唐诗宋词
Python语言的爬虫开发相对于其他编程语言是极其高效的,在上一篇文章 爬虫抓取博客园前10页标题带有Python关键字(不区分大小写) 的文章中,我们介绍了使用requests做爬虫开发,它能处理简单 的任务,也是入门爬虫最简单的方式。接下来我们将为大家介绍使用 beautiful soup 库 来做稍微复杂一点的任务。
马一特
2020/09/08
6470
爬取一本小说的python爬虫代码
GeekLiHua
2025/01/21
3190
爬取一本小说的python爬虫代码
使用Python爬虫下载某网站图片
Python爬虫是一种自动化获取网页数据的技术,可以用于各种数据采集任务。本文将探讨如何使用Python爬虫下载某网站的图片。通过以下几个方面进行详细阐述。
很酷的站长
2023/09/16
1.5K1
使用Python爬虫下载某网站图片
Python 爬虫实战:股票数据定向爬虫
功能简介 目标: 获取上交所和深交所所有股票的名称和交易信息。 输出: 保存到文件中。 技术路线: requests—bs4–re 语言:python3.5 说明 网站选择原则: 股票信息静态存在于h
小小科
2018/05/04
1.1K0
Python 爬虫实战:股票数据定向爬虫
python爬虫库_python爬虫实战百度云盘
此网址内含大量python第三方库下载安装即可: 链接: https://www.lfd.uci.edu/~gohlke/pythonlibs/#pandas.
全栈程序员站长
2022/09/28
5200
python爬虫库_python爬虫实战百度云盘
零代码编程:用ChatGPT批量自动下载archive.org上的音频书
http://archive.org 是一个神奇的网站,可以下载各种古旧的软件、书籍、音频、视频,还可以搜索各个网站的历史网页。
AIGC部落
2024/06/24
1480
零代码编程:用ChatGPT批量自动下载archive.org上的音频书
AI网络爬虫:批量下载微信公众号文章中的音频
https://mp.weixin.qq.com/s/Xcrrsq2AUBFlKWabhQjNag
AIGC部落
2024/06/24
4070
AI网络爬虫:批量下载微信公众号文章中的音频
Python爬虫入门(二)
上一篇文章大概的讲解了 Python 爬虫的基础架构,我们对 Python 爬虫内部运行流程有了一定的理解了,我们这节将用一些简单的 Python 代码实现Python 爬虫架构的 URL 管理器、网页下载器和网页解析器。 URL 管理器 上篇文章我们已经说了,URL 管理器是用来管理待抓取的 URL 和已抓取的 URL,作为一只聪明的爬虫,我们当然应该会选择跳过那些我们已经爬取过的 URL ,这不仅是为了防止重复抓取,也为了防止一些循环抓取的问题,URL 间的互相调用会导致爬虫的无限死循环抓取。 URL
小之丶
2018/03/07
1.2K0
Python爬虫入门(二)
AI批量下载网页中的mp3音频
这个网页中有多个mp3音频 https://www.barefootbooks.com/talesofmystery
AIGC部落
2025/01/19
2870
AI批量下载网页中的mp3音频
如何利用BeautifulSoup库查找HTML上的内容
比如我们在http://python123.io/ws/demo.html这个简单的网页中找到与a和b标签相关的内容。
小Bob来啦
2021/03/10
2.2K0
如何利用BeautifulSoup库查找HTML上的内容
Python爬虫
调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。 URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。 网页下载器:通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Python官方基础模块)包括需要登录、代理、和cookie,requests(第三方包) 网页解析器:将一个网页字符串进行解析,可以按照我们的要求来提取出我们有用的信息,也可以根据DOM树的解析方式来解析。网页解析器有正则表达式(直观,将网页转成字符串通过模糊匹配的方式来提取有价值的信息,当文档比较复杂的时候,该方法提取数据的时候就会非常的困难)、html.parser(Python自带的)、beautifulsoup(第三方插件,可以使用Python自带的html.parser进行解析,也可以使用lxml进行解析,相对于其他几种来说要强大一些)、lxml(第三方插件,可以解析 xml 和 HTML),html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方式进行解析的。 应用程序:就是从网页中提取的有用数据组成的一个应用。
conanma
2021/09/07
1.6K0
python爬虫爬图片教程_爬虫爬取图片的代码
根据观察,除了第一页,其他页后缀都为*.html一共13页 所以我们可以通过for遍历所有页码
全栈程序员站长
2022/11/17
9970
python爬虫爬图片教程_爬虫爬取图片的代码
相关推荐
Python爬虫:URL管理器及其实现方式、网页下载器、网页解析器原理及其实现原理!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验