首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >爬取网站文章将图片保存到本地并将HTML的src属性更改到本地

爬取网站文章将图片保存到本地并将HTML的src属性更改到本地

作者头像
andrew_a
发布于 2019-07-30 06:24:22
发布于 2019-07-30 06:24:22
2K00
代码可运行
举报
运行总次数:0
代码可运行

每次当你爬取一篇文章时,不管是从csdn或者其他网站,基本内容都是保存在一个富文本编辑器中,将内容提取出来还是一个html,保存之后图片还在别人的图片服务器上。我今天要说的就是将图片保存之后并将它的src属性替换成本地的地址。并且以次替换,按照原文章排版顺序替换。

话不多说,直接上代码

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2018/11/5 15:06
# @Author  : jia.zhao
# @Desc    : 
# @File    : img_test.py
# @Software: PyCharm

import urllib.request
import re


def getHtml(url):
    # 通过urllib去请求
    page = urllib.request.urlopen(url)
    # 读取页面内容
    html = page.read()
    return html


def getImg(html):

    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    # Python3需要加的
    html = html.decode('utf-8')
    # 找到所有匹配项
    imglist = re.findall(imgre, html)

    x = 0
    # 循环
    for i in range(len(imglist)):
        # 保存图片
        # urllib.request.urlretrieve(imgurl, 'img/%s.jpg' % x)
        # 根据每个图片的src的内容进行替换
        html = re.sub(imglist[i], "G:/pachong/img/%s.jpg" % str(i), html)
        x += 1
    print(html)


html = getHtml("http://tieba.baidu.com/p/2460150866")

print(getImg(html))

这个demo知识贴吧的一个帖子里的图片,大家可以依据自己的需求去更改此代码。基本都有注释,不懂的直接留言。看到这,点个赞呗!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-11-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫scrapy 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python简单爬取图片实例
都知道Python的语法很简单易上手,也很适合拿来做爬虫等等,这里就简单讲解一下爬虫入门——简单地爬取下载网站图片。
Cloudox
2021/11/23
5770
Python简单爬取图片实例
【一起学python】实现简单爬虫功能
在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。   我们最常规的做法就是通过鼠标右键,选择另存为。但有些图片鼠标右键的时候并没有另存为选项,还有办法就通过就是通过截图工具截取下来,但这样就降低图片的清晰度。好吧~!其实你很厉害的,右键查看页面源代码。   我们可以通过python 来实现这样一个简单的爬虫功能,把我们想要的代码爬取到本地。下面就看看如何使用python来实现这样一个功能。 一,获取整个页面数据 首先我们可以
程序员互动联盟
2018/03/16
9040
【一起学python】实现简单爬虫功能
Python 简单业务爬虫
如何快速下载贴吧图片呢? #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib import re def getHtml(url):   
py3study
2020/01/15
3560
实现简单的python爬虫功能
在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材 我们可以通过python 来实现这样一个简单的爬虫功能,把我们想要的代码爬取到本地。下面就看看如何使用python来实现这样一个功能 #coding=utf-8 import urllib.request import re def getHtml(url): page = urllib.request.urlopen(url) html = page.read() html
honey缘木鱼
2018/06/13
8160
Python 爬虫进阶篇-4行代码实现爬取指定网站中的全部图片,深入剖析
上一篇:Python 爬虫入门篇-如何获取网页中的图片。我们了解到了urllib获取图片的原理,urllib.request.urlretrieve()就是用来获取图片的。
小蓝枣
2020/09/23
9830
python与美图,呵呵,你懂的
#!/usr/bin/python import re import urllib #def getHtml(url): # urllib.open(url) def getHtml(url
py3study
2020/01/14
4520
Python爬虫01——第一个小爬虫
要让python可以进行对网页的访问,那肯定要用到urllib之类的包。So先来个 import urllib
全栈程序员站长
2022/09/06
2870
Python爬虫01——第一个小爬虫
python3.7---爬取网页图片
#!/usr/bin/python import re import urllib import urllib.request #python3中urlopen、urlritrieve都在requ
py3study
2020/01/14
1.1K0
Python笔记(一):安装+爬虫环境配置+打包为EXE文件
1、     安装 https://www.python.org/downloads/windows/ 到官网下载安装程序 Windows x86        32位操作系统 Windows x86-64       64位操作系统 web-based installer     基于网络的安装程序 executable installer     可执行的安装程序 embeddable zip file     python的压缩包 上面3个任意下载一个就行了,都是一样的东西。我是下载第2个 hel
free赖权华
2018/04/27
1.4K0
Python笔记(一):安装+爬虫环境配置+打包为EXE文件
使用python编写简单网络爬虫(一)
      总算有时间动手用所学的python知识编写一个简单的网络爬虫了,这个例子主要实现用python爬虫从百度图库中下载美女的图片,并保存在本地,闲话少说,直接贴出相应的代码如下:
py3study
2020/01/10
4540
练手爬虫用urllib模块获取
练手爬虫用urllib模块获取 有个人看一段python2的代码有很多错误 import re import urllib def getHtml(url): page = urllib.u
小小咸鱼YwY
2019/09/11
4600
Python的系统管理_07_pytho
html =getHtml("http://www.tupian.com/tag/xinggan")
py3study
2020/01/15
3180
python爬虫
#!/usr/bin/python import re #导入正则模块 import urllib #导入url模块 def getHtml(url): #定义获取网页函数 page
py3study
2020/01/10
1.8K0
七日Python之路--第三天
之前由于看基础看的觉着没意思,才去提前看一下Django的。现在突然不知到该干啥了。
lpe234
2020/07/27
2660
Python抓取网页图片
网上的代码基本上都是python2,这里的代码使用的是python3注意没有urllib2这个库了。
里克贝斯
2021/05/21
4.6K0
Python抓取网页图片
python做一个简易图片下载工具
代码有点乱,先这样 # -*- coding:utf-8 -*- #__author__ :kusy #__content__:文件说明 #__date__:2018/11/01 11:01 import urllib.request, urllib.parse, urllib.error import os import re import time import threading # fileno = 0 # lock = threading.Lock() def mkdir(dir):
未来sky
2018/12/05
3650
python做一个简易图片下载工具
python3 网页爬虫图片下载无效链
import urllib.request    #python3中模块名和2.x(urllib)的不一样
py3study
2020/01/03
8900
Python分析测试数据实践
Python,被称为一种“胶水”语言。简单易学,快速上手,快速收益。近期因需要分析点数据,又重新拾起来,并快速解决问题。特总结一下,作为工具类语言,Python 还是非常不错的,推荐使用。
用户5548425
2020/02/25
5320
python实现简单爬虫--爬图片
首先有两个功能需求: 第一:获取到要爬的页面html内容; 第二:使用正则表达式进行匹配并进行保存到本地。 #!/usr/bin/env python #encoding:utf-8 import urllib import re def getHtml(url):     '''获取到url的html内容'''     page = urllib.urlopen(url)     html = page.read()     return html html1 = getHtml('http://p_w_
py3study
2020/01/08
5000
python中urllib的整理
urllib模块提供的urlretrieve()函数,urlretrieve()方法直接将远程数据下载到本地
py3study
2020/01/19
4170
相关推荐
Python简单爬取图片实例
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档