前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Python爬取多个网页

Python爬取多个网页

作者头像
小颜同学
发布于 2023-08-21 07:53:42
发布于 2023-08-21 07:53:42
30700
代码可运行
举报
文章被收录于专栏:原创笔记原创笔记
运行总次数:0
代码可运行

最近学到了一个新鲜玩意,Python网页爬取数据脚本,今天我们就来试一试,python爬取数据到底有多方便。

下面直接放源代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from selenium import webdriver
from urllib import request
import re
import os
import datetime

print(datetime.datetime.now())
# 文档路径
filedir = "d:\\tsldrb_pic\\"
if not os.path.exists(filedir):
    os.makedirs(filedir)
f = open("d:\\urls.txt", "r", encoding='utf-8')
urls = f.readlines()
for url in urls:
    print(url.replace('\n', ''))
    driver = webdriver.Chrome()
    driver.maximize_window()
    driver.get(url)
    data_content = request.urlopen(url.replace('\n', ''))
    content_text = data_content.read().decode()
    result_title_time = re.search('(?<=content/).*(?=/content)', url.replace('\n', ''))  # 匹配content//content间时间
    result_title = re.search('(?<=">).*(?=</h2)', content_text)  # 匹配"></h2间的标题
    result_title_time.group().replace('/', '')
    pic_name = result_title_time.group().replace('/', '') + result_title.group().replace(' ', '') + '.png'
    driver.get_screenshot_as_file(filedir + pic_name)
    driver.close()
print(datetime.datetime.now())

使用教程:

打开此电脑,随便到哪个目录新创一个txt文件,例如我这里使用的是E盘:

创建完之后在里面输入多个网址,并用“,”隔开:

另外下载pycharm,复制代码即可完成爬取txt文档里的多个网页数据。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-09-22 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python 批量爬取猫咪图片实现千图成像
本文使用的 Python 版本是 3.10.0 版本,可直接在官网下载:https://www.python.org 。
Lucifer三思而后行
2021/11/03
9800
Python 批量爬取猫咪图片实现千图成像
【爬虫】爬取女神套图
目标URL:http://www.win4000.com/meinvtag4_1.html
天道Vax的时间宝藏
2021/08/11
8810
听说国漫最近崛起了,那我们就来爬几部国漫看看(动态加载,反爬)
说实话这次的爬虫可能是目前我遇到的最难的一个爬虫,主要之前爬取的都是一些静态资源的网站,这次的网站虽然 反爬机制 虽然也只是低层次的,但是对于新手的我来说也算是比较难的了。反爬的主要思路以及解决办法主要是来源于这位老哥的博客:https://mp.weixin.qq.com/s/wyS-OP04K3Vs9arSelRlyA
萌萌哒的瓤瓤
2020/08/28
4290
女生勿扰,只适合男孩子的 Python 爬虫,里面东西不给钱统统白送
说真的,花了几天的时间来搞一个别人已经干过的项目,不知道是不是不值得,但是后面我自己上手做了之后,我才发现,这必须值得,崔大的书是2018年的,而现在网络的更新速度太快了,书本上的接口知识点都变了,废了老多时间才弄懂这些,不过我觉得也值,所以把代码加强了一下,实现了我的功能,下面做个简单的分享。
Python小二
2020/09/27
7220
女生勿扰,只适合男孩子的 Python 爬虫,里面东西不给钱统统白送
「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫
前文回顾: 「Python爬虫系列讲解」一、网络数据爬取概述 「Python爬虫系列讲解」二、Python知识初学 「Python爬虫系列讲解」三、正则表达式爬虫之牛刀小试 「Python爬虫系列讲解」四、BeautifulSoup 技术 「Python爬虫系列讲解」五、用 BeautifulSoup 爬取电影信息 「Python爬虫系列讲解」六、Python 数据库知识 「Python爬虫系列讲解」七、基于数据库存储的 BeautifulSoup 招聘爬取 「Python爬虫系列讲解」八、Selenium 技术 「Python爬虫系列讲解」九、用 Selenium 爬取在线百科知识 「Python爬虫系列讲解」十、基于数据库存储的 Selenium 博客爬虫 「Python爬虫系列讲解」十一、基于登录分析的 Selenium 微博爬虫
荣仔_最靓的仔
2021/02/02
2.8K0
「Python爬虫系列讲解」十二、基于图片爬取的 Selenium 爬虫
python:爬取百度贴吧内容
爬取百度贴吧帖子的内容,可以选择是否只爬取楼主内容以及是否写入楼层信息。 import urllib2 import urllib import re import os #处理页面标签类 cl
用户1215343
2019/07/02
7870
python:爬取百度贴吧内容
python爬虫: 指定 关键字 爬取图片
Introduction 设定关键字,从百度图片上爬取海量图片。 Code # coding:utf-8 import os import re import urllib import shuti
JNingWei
2018/09/28
1.1K0
python爬虫: 指定 关键字 爬取图片
实现完整网页保存为图片的方法
业务场景中,会存在某些场景需要将网页内容快照保存下来的场景。因为有些网页内容是联网异步获取的,所以爬虫保存html页面的方式无法保证后续数据与此前的一致性,因此将网页内容以图片保存下来,是一种简单而直接的思路。本文档即针对上述诉求的技术可行性进行论证, 并给出可行的技术实现手段。
是Vzn呀
2022/07/14
3.1K0
实现完整网页保存为图片的方法
分享一个小爬虫(爬取必应壁纸)
微软必应(英文名:Bing)是微软公司于2009年5月28日推出,用以取代Live Search的全新搜索引擎服务。为符合中国用户使用习惯,Bing中文品牌名为“必应”。 摘自【百度百科】
netkiller old
2019/12/12
1.2K0
分享一个小爬虫(爬取必应壁纸)
「Python爬虫系列讲解」九、用 Selenium 爬取在线百科知识
前文回顾: 「Python爬虫系列讲解」一、网络数据爬取概述 「Python爬虫系列讲解」二、Python知识初学 「Python爬虫系列讲解」三、正则表达式爬虫之牛刀小试 「Python爬虫系列讲解」四、BeautifulSoup 技术 「Python爬虫系列讲解」五、用 BeautifulSoup 爬取电影信息 「Python爬虫系列讲解」六、Python 数据库知识 「Python爬虫系列讲解」七、基于数据库存储的 BeautifulSoup 招聘爬取 「Python爬虫系列讲解」八、Selenium 技术
荣仔_最靓的仔
2021/02/02
2.7K0
「Python爬虫系列讲解」九、用 Selenium 爬取在线百科知识
Python——爬虫实战 爬取淘宝店铺内所有宝贝图片
之前用四篇很啰嗦的入门级别的文章,带着大家一起去了解并学习在编写爬虫的过程中,最基本的几个库的用法。
Originalee
2018/08/30
3.1K0
Python——如何优雅的爬取公众号信息
最近两个周业余时间在赶的一个项目,因为精力有限所以进展缓慢,索性就先把接近完善的这部分代码,先分享出来吧。
Ed_Frey
2019/09/16
3K0
Python——如何优雅的爬取公众号信息
Python爬虫—爬取小说
选择的小说是你是我的城池营垒,如果要把所有章节爬取下来就要点进每一章然后去爬取,一开始觉得有点击所以要用selenium,但是写到后面发现传每一章的url就可以不用模拟点击,所以可以不用selenium来实现用requests也可以。
SakuraTears
2022/01/13
7050
Python爬虫—爬取小说
用 Python 爬取豆瓣电影海报
之前写过一篇用 Python 爬取豆瓣上的图片,那今天就来写一下爬取豆瓣上的电影海报,算是姐妹篇。
伪君子
2019/03/01
1.5K0
用 Python 爬取豆瓣电影海报
python爬虫学习教程,爬取网易云音乐!
Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及相关电子版书籍,欢迎前来领取!
python学习教程
2019/07/18
9390
python爬虫学习教程,爬取网易云音乐!
内网主机资产扫描那些事
本项目仅进行内网主机资产整理,无漏洞利用、攻击性行为,请使用者遵守当地相关法律,勿用于非授权测试,勿用于未授权扫描,如作他用所承受的法律责任一概与作者无关,下载使用即代表使用者同意上述观点。
释然IT杂谈
2020/05/11
2.4K0
requests----爬取虎嗅网站
# -*- coding:utf-8 -*- # author: street import re
用户2337871
2019/07/19
5920
【Python与SEO】悟空问答自动采集及Zblog博客自动发布一条龙源码!
仅记录,一个简单的网站自动采集发布一条龙源码,程序运行启用了宝塔面板的计划任务,通过定时计划任务实现每日自动运行采集发布文章,理论上只需配置关键词文档及背景源图片!
二爷
2023/09/02
2750
【Python与SEO】悟空问答自动采集及Zblog博客自动发布一条龙源码!
Python3多进程+协程异步爬取小说
之前写了一篇关于用多线程爬小说的博客,但是发现爬取16M的小说需要十几分钟,所以今天更新了一篇用多进程外加使用单线程异步的协程同样爬取之前用多线程爬取的同一篇小说,并进行两者效率的对比
HcodeBlogger
2020/07/14
9360
Python3多进程+协程异步爬取小说
微博爬取热搜榜和热门话题
weibo_spider 微博爬虫: 爬取热搜榜:不需要登录,但是需要处理反扒措施 爬取热门话题:需要登录之后获得cookies和user_id 爬取热搜榜 微博热搜榜地址:https://s.wei
职场亮哥
2020/10/10
2K0
相关推荐
Python 批量爬取猫咪图片实现千图成像
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档