前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >手把手教你用Python网络爬虫进行多线程采集高清游戏壁纸

手把手教你用Python网络爬虫进行多线程采集高清游戏壁纸

作者头像
前端皮皮
发布2021-12-02 11:27:07
4220
发布2021-12-02 11:27:07
举报
文章被收录于专栏:前端进阶学习交流

一、背景介绍

大家好,我是皮皮。对于不同的数据我们使用的抓取方式不一样,图片,视频,音频,文本,都有所不同,由于网站图片素材过多,所以今天我们使用多线程的方式采集某站4K高清壁纸。

二、页面分析

目标网站:

代码语言:javascript
复制
http://www.bizhi88.com/3840x2160/

如图所示,有278个页面,这里我们爬取前100页的壁纸图片,保存到本地;

解析页面

如图所示所哟鱼的图片在一个大盒子里面(<div class="flex-img auto mt"></div>),下面每一个div就对应一张高清壁纸;

然后每页div标签里面的壁纸图片数据的各种信息:1.链接;2.名称;下面是xpath的解析;

代码语言:javascript
复制
imgLink = each.xpath("./a[1]/img/@data-original")[0]
name = each.xpath("./a[1]/img/@alt")[0]

有一个注意点:

图片标签有src属性也有data-original属性,都对应图片的url地址,我们一般使用后者,因为data-original-src是自定义属性,图片的实际地址,而src属性需要页面加载完全才会全部显现,不然得不到对应地址;

三、抓取思路

上面已经说过,图片数据过多,我们不可能写个for循环一个一个的下载,所以必然要使用多线程或者是多进程,然后把这么多的数据队列丢给线程池或者进程池去处理;在python中,multiprocessing Pool进程池,multiprocessing.dummy非常好用,

  • multiprocessing.dummy 模块:dummy 模块是多线程;
  • multiprocessing 模块:multiprocessing 是多进程;

multiprocessing.dummy 模块与 multiprocessing 模块两者的api 都是通用的;代码的切换使用上比较灵活;

页面url规律:

代码语言:javascript
复制
'http://www.bizhi88.com/s/470/1.html' # 第一页
'http://www.bizhi88.com/s/470/2.html' # 第二页
'http://www.bizhi88.com/s/470/3.html' # 第三页

构建的url:

代码语言:javascript
复制
page = 'http://www.bizhi88.com/s/470/{}.html'.format(i)

那么我们定制两个函数一个用于爬取并且解析页面(spider),一个用于下载数据 (download),开启线程池,使用for循环构建13页的url,储存在列表中,作为url队列,使用pool.map()方法进行spider,爬虫的操作;

代码语言:javascript
复制
   def map(self, fn, *iterables, timeout=None, chunksize=1):
        """Returns an iterator equivalent to map(fn, iter)”“”
    这里我们的使用是:pool.map(spider,page) # spider:爬虫函数;page:url队列

作用:将列表中的每个元素提取出来当作函数的参数,创建一个个进程,放进进程池中;

参数1:要执行的函数;

参数2:迭代器,将迭代器中的数字作为参数依次传入函数中;

四、数据采集

导入相关第三方库

代码语言:javascript
复制
from lxml import etree # 解析
import requests # 请求
from multiprocessing.dummy import Pool as ThreadPool # 并发
import time # 效率

页面数据解析

代码语言:javascript
复制
def spider(url):
    html = requests.get(url, headers=headers)
    selector = etree.HTML(html.text)
    contents = selector.xpath("//div[@class='flex-img auto mt']/div")
    item = {}
    for each in contents:
        imgLink = each.xpath("./a[1]/img/@data-original")[0]
        name = each.xpath("./a[1]/img/@alt")[0]

        item['Link'] = imgLink
        item['name'] = name
        towrite(item)

download下载图片

代码语言:javascript
复制
def download_pic(contdict):
    name = contdict['name']
    link = contdict['Link']
    with open('img/' + name + '.jpg','wb') as f:
        data = requests.get(link)
        cont = data.content
        f.write(cont)
        print('图片' + name + '下载成功!')

main() 主函数

代码语言:javascript
复制
   pool = ThreadPool(6)
    page = []
    for i in range(1, 101):
        newpage = 'http://www.bizhi88.com/s/470/{}.html'.format(i)
        page.append(newpage)
    result = pool.map(spider, page)
    pool.close()
    pool.join()

说明:

  1. 在主函数里我们首选创建了六个线程池;
  2. 通过for循环动态构建100条url;
  3. 使用map() 函数对线程池中的url进行数据解析存储操作;
  4. 当线程池close的时候并未关闭线程池,只是会把状态改为不可再插入元素的状态;

五、程序运行

代码语言:javascript
复制
if __name__ == '__main__':
    start = time.time() # 开始计时
    main()
    print(end - start) # 时间差

结果如下:

当然了这里只是截取了部分图像,总共爬取了,2000+张图片。

六、总结

本次我们使用了多线程爬取了某壁纸网站的高清图片,如果使用requests很明显同步请求并且下载数据是比较慢的,所以我们使用多线程的方式去下载图片,提高了爬取效率。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 IT共享之家 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 二、页面分析
  • 三、抓取思路
  • 四、数据采集
  • 五、程序运行
  • 六、总结
相关产品与服务
内容识别
内容识别(Content Recognition,CR)是腾讯云数据万象推出的对图片内容进行识别、理解的服务,集成腾讯云 AI 的多种强大功能,对存储在腾讯云对象存储 COS 的数据提供图片标签、图片修复、二维码识别、语音识别、质量评估等增值服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档