Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Python图片爬虫,某度图片多线程爬取方法附工具脚本助手

Python图片爬虫,某度图片多线程爬取方法附工具脚本助手

作者头像
二爷
发布于 2021-07-05 03:42:54
发布于 2021-07-05 03:42:54
73200
代码可运行
举报
文章被收录于专栏:二爷记二爷记
运行总次数:0
代码可运行

相信不少老哥的爬虫之路都是从图片爬取开始的,之所以走上这条不归路,不就是爬几个小(美)破(女)图么,本渣渣也写过不少图片爬虫,有一篇妹子图的爬虫可谓是手把手实战教学,印象深刻,对于图片素材类爬取,不同人群有着不同的用途,就看你的初衷是什么了。

下面本渣渣带来一篇图片爬虫,某度的搜索图片爬虫,简单的使用了线程池的多线程爬取,比较简单,知晓了接口数据的调用就可以简单的实现,只需要输入查询关键词及页码即可以获取到想要的图片数据,同时也打包了一下exe脚本工具,供各位大表哥们看着玩!

exe工具助手运行效果,文末可获取工具

爬取图片的初衷肯定是用于网站配图,毕竟本渣渣乡下狗,跟不上城里人的营养节奏,营养快线没钱买啊,每瓶喝完必须添盖!

不过此类图片的使用需要注意规避版权,同时也需要注意过滤掉有水印的图片,当然如果你想要用于网站上,避免图片版权纠纷的话,最好还是上可共享,无版权的图片吧!

比如推荐下面这个:

获取素材图无忧,Pixabay图库网Python多线程采集下载

获取图片数据关键源码
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#获取图片数据
def get_imglist(word,page,path):
    print(f">> 正在爬取第 {page} 页图片数据..")
    img_data=[]
    url="https://image.baidu.com/search/acjson?"
    headers = {
        "User-Agent": UserAgent().random,
        "X-Requested-With": "XMLHttpRequest"
    }
    params={
        "tn": "resultjson_com",
        "logid": "10383979932265521370",
        "ipn": "rj",
        "ct": "201326592",
        "is": "",
        "fp": "result",
        "queryWord": word,
        "cl": "2",
        "lm": "-1",
        "ie": "utf-8",
        "oe": "utf-8",
        "adpicid": "",
        "st": "",
        "z": "",
        "ic": "",
        "hd": "",
        "latest": "",
        "copyright": "",
        "word": word,
        "s": "",
        "se": "",
        "tab": "",
        "width": "",
        "height": "",
        "face": "",
        "istype": "",
        "q": "",
        "nc": "1",
        "fr": "",
        "expermode:": "",
        "nojc": "",
        "pn": 30*page,
        "rn": "30",
        "gsm": "1e",
        "1624245957244": "",
    }
    response=requests.get(url=url,params=params,headers=headers,timeout=5)
    time.sleep(2)
    json_data=response.json()
    print(json_data)
    data_lists=json_data['data']
    print(data_lists)
    i=1
    for data_list in data_lists:
        if data_list:
            title=data_list['fromPageTitleEnc']
            print(title)
            title=get_title(title)
            title=f'{page}_{i}_{title}'
            thumbURL=data_list['thumbURL']
            print(thumbURL)
            imgdata=title,thumbURL,path
            img_data.append(imgdata)
            i=i+1


    return img_data

经常撸某度的话,应该比较熟悉,其参数比较繁多,各种记录数据,爬取图片数据除了关键词的参数之外,就是页码数需要注意了,"pn": 30*page 就是页码数,30个数据一页!

浏览器抓包数据参考
线程池多线程源码
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#多线程下载图片
def Thread_down_img(img_data):
    try:
        # 开4个 worker,没有参数时默认是 cpu 的核心数
        pool = ThreadPool()
        results = pool.map(dowm_img,img_data)
        pool.close()
        pool.join()
    except:
        print("Error: unable to start thread")

    print("多线程下载图片完成!")
图片爬取运行效果

完整爬虫源码及exe工具获取

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python与SEO学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python爬虫,pentagram图片及数据采集爬虫
很久没有写爬虫了,随手写了一个爬虫,分享给大家,目标是获取所有图片及数据内容,由于图片存在多张,故简单的采用了多线程来采集下载图片,同时也简单的运用python写入txt构建了一下爬取过程的日志文件,代码写的比较啰嗦,见谅!
二爷
2021/07/05
6390
Python爬虫,IF奖数据爬虫含完整日志记录系统
最新if奖,2021if奖数据出炉,这里本渣渣继续用python对相关数据进行爬取采集,由于是官方网站,展示用,所以几乎没有任何反爬,当然结余是国外网站,会存在访问超时的错误,综合而言,这无疑是一个比较不错的练手网站,推荐老哥们上手试试,学着玩!
二爷
2021/04/30
4800
Python爬虫,IF奖数据爬虫含完整日志记录系统
微博爬虫,python微博用户主页小姐姐图片内容采集爬虫
python爬虫,微博爬虫,需要知晓微博用户id号,能够通过抓取微博用户主页内容来获取用户发表的内容,时间,点赞数,转发数等数据,当然以上都是本渣渣结合网上代码抄抄改改获取的!
二爷
2020/12/11
1.1K0
微博爬虫,python微博用户主页小姐姐图片内容采集爬虫
Python爬虫,Json数据解析图片多线程爬虫!
失踪人口回归系列,新的一年,各位大佬哥如何了,新年好! 搬砖许久,很久没写爬虫了,瞎写的,随便看看就好! 目标网址:https://award.kidp.or.kr/Exhibit/winners.d
二爷
2022/03/29
5430
Python爬虫,Json数据解析图片多线程爬虫!
[Python 爬虫]煎蛋网 OOXX 妹子图爬虫(2)——多线程+多进程下载图片
上一篇文章全面解析了煎蛋网的妹子图的图片链接解密的方式,已经可以通过 Python 爬虫代码批量获取每个页面中的图片地址。但是上一篇文章中并没有写图片下载的函数,这一篇文章就来使用 Python 的多线程和多进程来批量下载图片。
Hopetree
2022/09/26
7630
[Python 爬虫]煎蛋网 OOXX 妹子图爬虫(2)——多线程+多进程下载图片
Python爬虫源码,Behance 作品图片及内容采集爬虫附工具脚本!
Behance 网站是设计师灵感必备网站,想要设计作品必先学会借鉴/抄袭/白嫖,可惜这个网站需要访问国外网站才能访问,对于国人不甚友好,甚至还出现了删号,渣渣狗得很!
二爷
2023/09/15
5540
Python爬虫源码,Behance 作品图片及内容采集爬虫附工具脚本!
Python爬虫,WP站图片PY多线程下载爬虫
一个简单的Python爬虫,适合学习参考练手使用,由于详情页图片较多,故简单的应用了多线程下载图片,目标站点为WordPress程序,按照流程获取都能成功!
二爷
2021/12/02
5270
Python爬虫,WP站图片PY多线程下载爬虫
图片爬虫,手把手教你Python多线程下载获取图片
图片站lemanoosh数据为异步加载的形式,往下拉会展示更多数据,也就是下一页数据,通过谷歌浏览器可以很清晰的看到数据接口地址,以及数据展现形式,与其他网站返回json数据的不同之处是,该网站返回的是部分html源码数据,包含有需要获取的图片地址。
二爷
2021/05/20
2.7K0
Python爬虫入门教程 10-100 图虫网多线程爬取
经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的,所以莫着急了,100篇呢,预计4~5个月写完,常见的反反爬后面也会写的,还有fuck login类的内容。
梦想橡皮擦
2019/02/18
6720
Python爬虫入门教程 10-100 图虫网多线程爬取
Python素材下载爬虫,多线程rar下载爬虫
一个多线程素材下载爬虫,实现多线程素材下载,包含素材包rar,素材图及素材描述,应用了经典的生产者与消费者模式,不过数据没有下载全,容易出现卡死的问题,期待后期能够解决相关问题,可以算是一个半成品,供大家参考和学习,有更好的多线程解决方案也可以交流!
二爷
2020/07/22
7420
Python素材下载爬虫,多线程rar下载爬虫
python多线程爬虫-下载wallhaven超清壁纸
我们可以看到这个网站总共分为六个大的模块:Latest,Hot,Toplist,Random,Upload,Forums 我爬取的主要是latest,hot,toplist,random这四个模块的图片. 这四个模块对应的url网址分别为:
用户6297767
2023/11/21
4350
python多线程爬虫-下载wallhaven超清壁纸
【Python爬虫】尺度太大了!爬一个专门看小姐姐的网站,写一段紧张刺激的代码(附源码)
今天我们通过Python爬取小姐姐图片网站上的美图,零基础学会通用爬虫,当然我们还可以实现多线程爬虫,加快爬虫速度
松鼠爱吃饼干
2021/10/14
3K0
多线程爬取 unsplash 图库
我公众号文章的封面配图都在 Unsplash 上找的。因为 Unsplash 是一个完全免费的、无版权的高清图片资源网站。
猴哥yuri
2018/08/16
1.4K0
Python 批量爬取猫咪图片实现千图成像
本文使用的 Python 版本是 3.10.0 版本,可直接在官网下载:https://www.python.org 。
Lucifer三思而后行
2021/11/03
9810
Python 批量爬取猫咪图片实现千图成像
用Python爬取COS网页全部图片
爬取http://www.win4000.com/meinvtag26_1.html的COS图片
天天Lotay
2022/12/01
1K0
用Python爬取COS网页全部图片
爬取某网站小姐姐壁纸
User-Agent在浏览器的F12 Network里面获取(里面找到headers,在最下面就有你自己浏览器的User-Agent参数)
Eternity
2022/08/24
7240
爬虫案例1-爬取图片的三种方式之一:requests篇(1)
本文分享一个爬虫案例,使用requests库爬取彼岸网中的动物的图片,利用parsel库进行数据解析,并把这些照片保存到本地。后续也会接着分享使用第三方库selenium篇和DrissionPage篇爬取图片。
laity
2024/08/19
2530
爬虫案例1-爬取图片的三种方式之一:requests篇(1)
Python爬虫入门教程 5-100 27270图片爬取
今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥建议可以在评论的地方跟我说说。
梦想橡皮擦
2019/01/28
1.4K1
Python爬虫入门教程 5-100 27270图片爬取
回车桌面图片爬取
今天我们就来爬爬这个网站 https://tu.enterdesk.com/ 这个网站能爬的资源还是很多的,但我就写一个例子,其他的可以根据思路去写。
py3study
2020/01/17
7490
多线程or多进程爬虫案例
https://zhuanlan.zhihu.com/p/46368084 -- 来自一位知乎用户
冰霜
2022/03/19
5770
多线程or多进程爬虫案例
推荐阅读
相关推荐
Python爬虫,pentagram图片及数据采集爬虫
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验