Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >python读取图片文件名_python 获取图片并自动命名保存

python读取图片文件名_python 获取图片并自动命名保存

作者头像
全栈程序员站长
发布于 2022-10-03 06:37:49
发布于 2022-10-03 06:37:49
1.2K0
举报

大家好,又见面了,我是你们的朋友全栈君。

# -* – coding: UTF-8 -* –

#导入第三方库

import urllib

from bs4 import BeautifulSoup

import requests

import os

import time

import random

# 获取文件夹,如果文件夹不存在则创建新文件夹

if os.path.isdir(‘E://biaoqing//’):

pass

else:

os.mkdir(‘E://biaoqing//’)

get_url=’http://qq.yh31.com’

i=58

while i>0:

print(‘第%s页:’%str(59 – int(i)))

local = “E:\\biaoqing\\” # 保存图片的文件夹

url = ‘http://qq.yh31.com/ka/qw/List_%s.html’% i

Agent = [

‘Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0’,

‘Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10’,

‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36’,

‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11’,

‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)’,

‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36’

]

User_Agent = random.choice(Agent)

headers = {‘User-Agent’: User_Agent}

html_ = requests.get(url, headers=headers)

html_.encoding = ‘utf-8’

html_doc=html_.text

soup = BeautifulSoup(html_doc, ‘lxml’) # 解析 html_doc

# 获取所有img标签里面 属性border值为0的img标签

pss = soup.find_all(‘img’,attrs={‘border’:0})

for ims in pss:

img_url = get_url + ims[‘src’] # 图片的路径

print(img_url)

mingcheng = ‘%s’ % ims[‘alt’] # 图片命名所用,alt内容为图片名称

s = ‘%s’ % ims[‘src’] # 获取字符 截取相应的名称及格式

geshi = s.split(‘.’)[-1] # 图片命名所用,获取图片的格式

ming=mingcheng+’.’+geshi

urllib.request.urlretrieve(img_url, local + ‘%s’%ming)

time.sleep(0.5)

print(‘=====================================================’)

i=i-1

time.sleep(2) # 设置休眠时间,访问频繁容易被封

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/197377.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年9月4日 下,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
海贼王最新漫画图片_海贼王漫画52pk
1.http://kanbook.net/328 2.爬取字段标题、页数、herf后缀 并存进到json
全栈程序员站长
2022/09/25
3710
海贼王最新漫画图片_海贼王漫画52pk
用Python搭建一个简单的代理池
这里记得一定要设置随机选取headers以及睡眠时间,因为我就没有设置,然后就被封了...
小F
2020/10/09
1K0
用Python搭建一个简单的代理池
Python爬取哔哩哔哩(bilibili)视频
本篇文章主要给大家讲解下如实使用python 爬取哔哩哔哩中的视频,首先我是一名大数据开发工程师,爬虫只是我的一个业余爱好,喜欢爬虫的小伙伴可以一起交流。好了多了就不多说了喜欢的朋有可以收藏,转发请复原文链接谢谢。
大数据老哥
2021/02/04
2.7K1
Python爬取哔哩哔哩(bilibili)视频
Python3网络爬虫(十):这个帅哥、肌肉男横行的世界(爬取帅哥图)
本文通过分析爬虫技术的实现原理,讲解了如何爬取图片链接,并提供了相关代码。
Jack_Cui
2018/01/08
1.1K0
Python3网络爬虫(十):这个帅哥、肌肉男横行的世界(爬取帅哥图)
总说手机没有“好壁纸”,Python一次性抓取500张“美女”图片,够不够用!
编辑 | JackTian 来源 | 杰哥的IT之旅(ID:Jake_Internet) 转载请联系授权(微信ID:Hc220066)
杰哥的IT之旅
2020/09/22
6090
总说手机没有“好壁纸”,Python一次性抓取500张“美女”图片,够不够用!
Scrapy爬取知乎------配置代理IP和UA
爬取知乎,如果想大量并发的话的就必须配置代理IP。因为知乎的反爬策略就是并发过大就会限制你的爬虫,页面会自动重定向到验证码页面。所以防止你的爬虫被禁,设置个代理和UA还是很有必要的。
andrew_a
2019/07/30
9850
One Piece 海贼王动漫壁纸 Python 爬取!
当然需要注意的是,首页的列表页即为入口页,构造访问路径的时候用一个判断处理就可以实现了!
二爷
2021/11/12
5620
One Piece 海贼王动漫壁纸 Python 爬取!
python网络爬虫(8)多媒体文件抽取
回调函数中,count表示已下载的数据块,size数据块大小,total表示总大小。
嘘、小点声
2019/07/31
4280
Python爬虫入门教程 5-100 27270图片爬取
今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥建议可以在评论的地方跟我说说。
梦想橡皮擦
2019/01/28
1.4K1
Python爬虫入门教程 5-100 27270图片爬取
scrapy之user-agent池
常见的反爬策略有很多,今天我们一起跟随小省开始,ua的反爬之旅,咳咳咳,敲黑板喽!
shengjk1
2018/10/24
1.9K0
Python爬虫实战 批量下载高清美女图片
彼岸图网站里有大量的高清图片素材和壁纸,并且可以免费下载,读者也可以根据自己需要爬取其他类型图片,方法是类似的,本文通过python爬虫批量下载网站里的高清美女图片,熟悉python写爬虫的基本方法:发送请求、获取响应、解析并提取数据、保存到本地。
叶庭云
2020/09/17
6.9K0
Python爬虫实战  批量下载高清美女图片
Python 代理爬取网站数据
代理IP通过https://www.kuaidaili.com/free/ 获取,我使用的的是http 协议的代理。根据自己需求选择http或者https 协议的页面。
Lansonli
2021/10/09
6800
使用 Python 伪造数据
0 前言 某些时刻,因为个人数据不想泄露出去,所以需要伪造一下数据;也有使用爬虫的时候需要换一下 user agent ,一个用到旧会被发现,最后就是被封结尾。 运行环境是 Python3, Win10,编译器是 Pycharm。 1 个人数据 使用的是 faker 这个包,安装的过程直接省去。下面这段代码是生成简单的个人信息。 语言那可以自己选择,注释那只给出了常用的语言。 1.1 自己选择需要的数据 from faker import Faker fake = Faker('zh_CN') #
伪君子
2018/04/17
8750
使用 Python 伪造数据
Scrapy之设置随机User-Agent和IP代理
大多数情况下,网站都会根据我们的请求头信息来区分你是不是一个爬虫程序,如果一旦识别出这是一个爬虫程序,很容易就会拒绝我们的请求,因此我们需要给我们的爬虫手动添加请求头信息,来模拟浏览器的行为,但是当我们需要大量的爬取某一个网站的时候,一直使用同一个User-Agent显然也是不够的,因此,我们本节的内容就是学习在scrapy中设置随机的User-Agent。Scrapy中设置随机User-Agent是通过下载器中间件(Downloader Middleware)来实现的。
菲宇
2022/05/06
1.2K0
Scrapy之设置随机User-Agent和IP代理
Python 简单应对反爬虫
现在我们介绍的是不花钱的免费代理IP池。原理很简单,大家去百度或者谷歌搜索免费代理IP总能搜到几个可用的免费代理IP,有些是付费代理IP网站免费放出一两个来给大家试用的,但是一两个代理IP还是不够用的,至少得有十几个才够我们轮换使用,这时候就有好心人将全网大部分释放免费代理IP的网站给爬了,然后设定一个定时检查器,不断检查这些免费IP是否可用,不能用的就移除,能用的保留,相当于维护了一个可用IP池,这样每次爬虫发起请求时,就从IP池取一个使用。
arcticfox
2019/06/26
9320
python爬虫实例
参考: https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#find-all
cuijianzhe
2022/06/14
5570
python爬虫实例
Python爬虫源码,Behance 作品图片及内容采集爬虫附工具脚本!
Behance 网站是设计师灵感必备网站,想要设计作品必先学会借鉴/抄袭/白嫖,可惜这个网站需要访问国外网站才能访问,对于国人不甚友好,甚至还出现了删号,渣渣狗得很!
二爷
2023/09/15
5530
Python爬虫源码,Behance 作品图片及内容采集爬虫附工具脚本!
小爬虫之爬取豆瓣电影排行榜1.技术路线2.任务3.分析4.运行结果5.源码
1.技术路线 python 3.6.0 scrapy 1.4.0 2.任务 爬取豆瓣电影排行榜电影相关信息 2.1查看豆瓣的robots User-agent: * Disallow: /subject_search Disallow: /amazon_search Disallow: /search Disallow: /group/search Disallow: /event/search Disallow: /celebrities/search Disallow: /location/dram
JasonhavenDai
2018/04/11
7970
小爬虫之爬取豆瓣电影排行榜1.技术路线2.任务3.分析4.运行结果5.源码
Python 爬虫,peca 网站作品信息采集爬虫源码
“我看见一个男人,前几年他无忧无虑,逍遥自在,现在他,一身酒味,两眼无光,满脸憔悴,我很想心疼他一下,于是我伸手摸了一下镜子”
二爷
2023/12/14
1680
Python 爬虫,peca 网站作品信息采集爬虫源码
整理ING
os.path.exists(img_name)(判断图片是否已经存在,如果存在就跳过) 很好的一篇爬虫实例:先保存下 用MongoDB数据库记录已下载过的地址 使用PyMongo模块 直接代码:代码网址:http://blog.csdn.net/xiexiecm/article/details/59029912 主程序: #导入需要的包 from bs4 import BeautifulSoup   import os   from BackClimb import down   from py
学到老
2018/03/19
6450
相关推荐
海贼王最新漫画图片_海贼王漫画52pk
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档