前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >手把手教你用Python打造一款批量下载视频并能可视化显示下载进度的下载器

手把手教你用Python打造一款批量下载视频并能可视化显示下载进度的下载器

作者头像
Python进阶者
发布2020-06-19 18:22:42
1.8K0
发布2020-06-19 18:22:42
举报
文章被收录于专栏:Python爬虫与数据挖掘

/1 前言/

平时宅在家的我们最爱做的事莫过于追剧了,但是有时候了,网络原因,可能会让你无网可上。这个时候那些好看的电视剧和电影自然是无法观看了,本期我们要讲的就是怎样下载这些视频。

/2 项目目标/

通过Python程序对所感兴趣的视频进行批量下载。正好小编近期看到一些不错的视频,因为想往安卓方向走,但又苦于重新学习太复杂,有没有简单点的,之前好像有什么e4a但是要学易语言就放弃了,于是乎在茫茫网络发现了一个小众的编程语言---裕语言。好家伙,不说了,赶紧下载,盘它。

/3 效果展示/

1、采用sublime text 3 编写程序,先看看效果。

接下来,由小编为大家展现程序的具体实现步骤。

/4 实现步骤/

1、分析网页结构。老样子,审查元素定位,如下图所示。

2、发现视频全都在a标签里面,因为这个页面的视频比较多,所以我们继续分析页面,发现一个神奇的事情。哈哈,原来所有的视频都在class为videoDown的a标签里,有了这个重要的信息就什么都好办了。

3、直接上代码和注释。

代码语言:javascript
复制
#解析页面

def parser():

  ab=[]

  rep=requests.get('http://v.u00.cn:93/iappce.htm#sp',timeout=5,headers=headers)

  rep.encoding='utf-8'

  soup=BeautifulSoup(rep.text,'html.parser')

  res=soup.find_all('a',class_='videoDown')#寻找所有class为videoDown的a标签

  for y in res:

    ab.append('http://v.u00.cn:93'+y.attrs['href'])
    #将获取到的视频URL地址添加到列表中

    return ab #返回所有视频地址的列表

这样就轻轻松松拿到了页面所有的视频地址,是不是超级简单了?

4、接下来就是下载文件。因为我们讲的是批量下载,所以在此之前需要先了解单个下载,当然,单个下载是很耗费时间,而且系统资源利用率太低。我们来看看这个下载函数如何实现,代码如下所示。

代码语言:javascript
复制
#下载函数

def down(y,x):

  print('------下载第',str(x),'课-------')

  ss=str(y.split('.')[3:4]) \#截取文件名

  sa=ss.replace('[','').replace(']','')\#替换文件名中的特殊符号

  ree=requests.get(y)

  with open('%d.%s.mp4'%(x,sa),'wb') as f:

    f.write(ree.content) \#保存文件

5、无非就是一些常用的字符串分隔以及文件操作罢了,不过此种因为比较单一,下载多个文件就行不通了,所以一般只要不是大批量下载,这种方法就够了。

6、然后在给他套一个函数用来简化它的启动之路。

代码语言:javascript
复制
def main():

  for y in range(len(parser())):

  down(parser()[y],y) \#下载

main()

7、最后调用主函数main,轻轻松松完成单个文件下载。

8、获取文件大小并给下载文件添加缓冲。在下载视频的时候如果我们一下子把所有的资源你都拿出来放进CPU读取,那么很快就会崩溃,所以我们需要设置一个缓冲,等他缓冲区满了然后拿出来读取,听起来好像挺抽象,让我们一起来看一下吧。

9、上图中所示即为视频大小值和请求范围的值。接下来我们使用代码来获取视频大小。

代码语言:javascript
复制
def download(url, file_name): \#下载视频

  urllib3.disable_warnings()

  rep=requests.get(url,headers=headers)

  head=rep.headers

  rep=requests.get(url,headers=headers)

  head=rep.headers \#获取请求头字典

  length=head.get('Content-Length') \#获取到视频的大小,单位是字节
若想让他以MB为单位,则需除以两个1024

  file_size = int(length) \#视频大小用int转换

  if os.path.exists(file_name): \#判断文件名是否存在

    first_byte = os.path.getsize(file_name) \#获取文件名大小

  else:

    first_byte = 0

  if first_byte \>= file_size:

    return file_size \#返回文件大小

  header = {"Range": "bytes=%s-%s" % (first_byte, file_size),

    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36
  (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'

   } \#设置请求头,标明请求范围

10、配置对应的进度条,如下所示。

代码语言:javascript
复制
pbar = tqdm( \#配置进度条模块,设置文件大小,文件字节数,文件的进度

total=file_size, initial=first_byte,

unit='B', unit_scale=True, desc=url.split('/')[-1])

#关于tqdm 具体用法大家可以百度tqdm模块。

11、添加缓冲

代码语言:javascript
复制
with closing(requests.get(url, headers=header, stream=True)) as req:
  #关闭连接

  with open(file_name,'wb') as f: \#打开文件

    for chunk in req.iter_content(chunk_size=1024\*2): \#设置缓冲

      if chunk:

        pbar.set_description("【正在下载视频 %s】"%str(f.name))

        f.write(chunk) \#写入文件

        pbar.update(1024) \#更新当前进度条

      pbar.close() \#关闭进度条

    return file_size \#返回文件大小

12、构建下载视频并显示进度条函数。

代码语言:javascript
复制
def fd(): \#下载并显示进度条

  global x

  x=1

  for y in parser():

    print('----正在下载',x,'课-----')

    ss=str(y.split('.')[3:4])

    sa=ss.replace('[','').replace(']','') \#文件名

    download(y, "{}.{}.mp4".format(str(x),sa)) \#下载

    print('----完成下载',x,'课-----')

    x+=1

13、最后启动程序即可。

代码语言:javascript
复制
Fd()

/5 小结/

1、不建议抓取太多数据,容易对服务器造成负载,浅尝辄止即可。

2、希望通过这个项目,能够帮助大家更好的了解如何去采集视频。

3、本文基于Python网络爬虫,利用爬虫库,实现视频数据的采集,方法行之有效。

4、批量下载视频文件是一个不可多得的技术,程序写的并不够好,比如程序没有添加多线程,多进程,协程,也没有异步操作。感兴趣的朋友可以入手拓展下。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫与数据挖掘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云服务器
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档