前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >【说站】python中如何使用XPath爬取小说

【说站】python中如何使用XPath爬取小说

作者头像
很酷的站长
发布于 2022-11-23 03:57:03
发布于 2022-11-23 03:57:03
1.1K00
代码可运行
举报
运行总次数:0
代码可运行

python中如何使用XPath爬取小说

说明

xpath是一种在XML文档中搜索信息的语言。

过程

1、获得浏览器中的标题和作者测试。

2、在浏览器安装xpath插件:

3、在html中找到book-mid-info:

4、找到我们想得到小说的名字、作者

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
//div[@class='book-mid-info']/h4/a/txt()

实例

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 作者:
# 开发时间:2021/4/8/0008 8:24
 
import requests
from lxml import etree
url="https://www.qidian.com/rank/yuepiao"
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400'}
#发送请求
resp=requests.get(url,headers)
e=etree.HTML(resp.text) #类型转换,把str转变为class 'lxml.etree._ELement
print(type(e))
names=e.xpath('//div[@class="book-mid-info"]/h4/a/text()')
authors=e.xpath('//p[@class="author"]/a[1]/text()')
print(names)
print(authors)
#名称和作者对应
for name,authors in zip(names,authors):
    print(name,":",authors)

以上就是python中使用XPath爬取小说的方法,希望对大家有所帮助。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python爬虫教程,爬取小说网站
得到每个分类的页面的链接只有上面箭头指的地方变了下,因此这里使用Python自动生成了分类的链接:
python学习教程
2020/03/02
1.5K0
Python的Xpath介绍和语法详解
XPath是一门在XML和HTML文档中查找信息的语言,可以用来在XML和HTML文档中对元素和属性进行遍历
Lansonli
2021/10/09
4.1K0
爬虫篇 | Python爬取大量数据时,如何防止IP被封
最近整理一个爬虫系列方面的文章,不管大家的基础如何,我从头开始整一个爬虫系列方面的文章,让大家循序渐进的学习爬虫,小白也没有学习障碍.
龙哥
2019/10/14
3.1K0
爬虫篇 | Python爬取大量数据时,如何防止IP被封
Python爬取小说并写入word文档
目标网站就是我们知名的笔趣阁:https://www.biquzw.la/,知名的搬运网站,受众很大,书源也是海量的,主要是没限制的话,好爬!
MinChess
2023/03/08
8420
Python爬取小说并写入word文档
XPath解析中的 ‘Element a at 0x5308a80’是什么
以链家网为例,解析网页打印出来的东西居然不是想象中的html文件,而是“<Element html at 0x52e5c10>”这么个东西。这个东西其实是一个元素,后面会介绍到。现在还是说说怎么把这个东西变成我们能看懂的html内容吧。
全栈程序员站长
2022/10/04
7310
XPath解析中的 ‘Element a at 0x5308a80’是什么
Python实战项目1——自动获取小说工具
这里为什么要用get 解释一下: 我们可以打开网页,右键——检查——网络——Ctrl+r刷新 可以发现如图所示:可以看到请求方法是.get方法。
老虎也淘气
2024/01/30
1960
Python实战项目1——自动获取小说工具
python爬虫获取起点中文网人气排行Top100(快速入门,新手必备!)
本篇博客小菌为大家带来的是用python爬虫获取起点中文网人气排行Top100的分享,希望大家能在学习的过程中感受爬虫的魅力! 我们先根据网址https://www.qidian.com/all/来到起点中文网的首页!
大数据梦想家
2021/01/22
1.3K0
python爬虫获取起点中文网人气排行Top100(快速入门,新手必备!)
一起学爬虫——使用xpath库爬取猫眼电
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜
py3study
2020/01/21
9090
手把手带你Python爬虫 | 爬取起点小说网
用python爬取一本仙侠类的小说下载并保存为txt文件到本地。本例为“大周仙吏”。
快学Python
2021/08/09
3.7K0
这个网络爬虫代码,拿到数据之后如何存到csv文件中去?
还是昨天的那个网络爬虫问题,大佬们,帮忙看看这个网络爬虫代码怎么修改?那个粉丝说自己不熟悉pandas,用pandas做的爬虫,虽然简洁,但是自己不习惯,想要在他自己的代码基础上进行修改,获取数据的代码已经写好了,就差存储到csv中去了。
Python进阶者
2024/04/18
1180
这个网络爬虫代码,拿到数据之后如何存到csv文件中去?
【小白必看】Python爬取NBA球员数据示例
设置请求头信息,包括用户代理(User-Agent)。这个信息告诉服务器我们的请求是从一个浏览器发出的,而不是爬虫,这样可以避免被反爬虫机制阻止。
全栈若城
2024/02/29
4130
【小白必看】Python爬取NBA球员数据示例
爬取小说网站章节和小说语音播放
点击进去复制改小说的网址为:起点小说("https://www.qidian.com/")
程序员小藕
2020/07/28
1.6K0
python实战案例
这两个着重说一下,写爬虫用的最多的就是惰性匹配 *?表示尽可能少的让*匹配东西
苏州程序大白
2022/05/27
3.5K0
python实战案例
Spider实战系列-爬取鬼吹灯小说
第一次发表实战类型的爬虫文章,如果有那里不明白或者出现bug的可以找我私信,欢迎大家在下面评论,可以给出我更好的建议,欢迎大家指正.
浅辄
2023/03/02
8120
Spider实战系列-爬取鬼吹灯小说
xpath爬取美女图片
尝试了一下用xpath爬取图集谷上面的美女图片,这次选择的是阿朱小姐姐,下面详细介绍如何爬取该网站中阿朱小姐姐的全部套图
全栈程序员站长
2022/09/18
9690
xpath爬取美女图片
爬取小说案例-BeautifulSoup教学篇
当我们进行爬取各种资源,拿到源码进行解析数据的时候,会用到各种解析方式,本文介绍的爬取小说的一个案例,使用比较受欢迎的python第三方库BeautifuSoup来进行解析数据。
laity
2024/12/22
1170
爬取小说案例-BeautifulSoup教学篇
爬虫必备网页解析库——Xpath使用详解汇总(含Python代码举例讲解+爬虫实战)
本文带大家学习网页解析库Xpath——lxml,并通过python代码举例讲解常用的lxml用法
Python研究者
2021/09/29
3.6K0
Java|“ Java”来爬取小说章节
在上一篇Java|使用WebMagic进行电话爬取“的文章里就已经介绍了如何主要使用Pageprocessor去爬取电话号码,接下来将要学习到的是去爬取起点中文网的小说,并且按照小说名和章节分别保存。
算法与编程之美
2020/04/15
2.3K1
案例对比 Requests、Selenium、Scrapy 谁是yyds?
经常有读者会爬虫学哪个库?其实常用的 Python 爬虫库无非是requests,selenium和scrapy,且每个库都有他们的特点,对于我来说没有最推荐的库只有最合适库,本文就将基于一个简单的爬虫案例(Python爬取起点中文网)来对比分析(从时间角度)三个库
龙哥
2021/08/05
3.6K0
案例对比 Requests、Selenium、Scrapy 谁是yyds?
爬虫_糗事百科 demo(1)
版权声明:Copyright © https://blog.csdn.net/zzw19951261/article/details/80996551
zhengzongwei
2019/07/31
3150
相关推荐
Python爬虫教程,爬取小说网站
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档