开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用Parsel选择器提取类名的内容时绕过em标记

在使用Parsel选择器提取类名的内容时，有时会遇到需要绕过特定标签（如<em>）的情况。以下是解决这个问题的基础概念、方法以及应用场景：

基础概念

Parsel是一个Python库，用于解析HTML和XML文档，并提供了类似于jQuery的选择器语法来提取数据。选择器可以精确地定位到页面中的特定元素。

方法

要绕过<em>标签并提取其父元素中的类名内容，可以使用Parsel的CSS选择器或XPath表达式。以下是两种常见的方法：

使用CSS选择器

from parsel import Selector

html = '''
<div class="container">
    <em>忽略这个</em>
    <span>提取这个</span>
</div>
'''

selector = Selector(text=html)
result = selector.css('.container > *:not(em)::text').getall()
print(result)  # 输出: ['提取这个']

使用XPath表达式

from parsel import Selector

html = '''
<div class="container">
    <em>忽略这个</em>
    <span>提取这个</span>
</div>
'''

selector = Selector(text=html)
result = selector.xpath('//div[@class="container"]/*[name()!="em"]/text()').getall()
print(result)  # 输出: ['提取这个']

应用场景

这种方法在处理网页内容时非常有用，特别是在以下场景中：

数据清洗：从复杂的HTML结构中提取所需的数据。
内容提取：从新闻网站、博客或其他网页中提取文章内容。
自动化测试：验证页面元素的显示和隐藏逻辑。

可能遇到的问题及解决方法

问题：选择器无法匹配到目标元素

原因：可能是选择器语法错误，或者目标元素的结构发生了变化。
解决方法：检查选择器语法是否正确，并确保目标元素的结构与预期一致。可以使用浏览器的开发者工具来调试选择器。

问题：提取的内容包含不需要的空白字符

原因：HTML中的空白字符或换行符可能会影响提取结果。
解决方法：在提取内容后，使用字符串处理方法（如strip()）去除多余的空白字符。

参考链接

通过以上方法，你可以有效地绕过<em>标签并提取所需的类名内容。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

爬取二手房案例--parsel教学篇（CSS选择器）

导航爬取小说案例-BeautifulSoup教学篇爬取二手房案例--parsel教学篇（CSS选择器）爬取美国公司案例-parsel库教学篇（Xpath的详细使用）爬取东方财富网-parsel...教学篇（正则表达式的详细使用+实例）爬取QQ音乐的评论-JSON库的详细使用 parsel的使用安装parsel 因为它是第三方库，所以需要在终端使用pip install parsel 来安装 pip...# get()和get\_all()区别 ## get():用于从通过选择器定位到的元素中提取第一个匹配项的文本内容或属性值,返回的是字符串。...## get\_all():用于通过选择器定位到的元素中提取所有匹配项的文本内容或属性值，返回的是列表 # 标签选择器 res = seleector.css(tagName) # 例如：提取所有...id为bold的span标签的内容 res = selector.css("li.item-0 span#bold:text").get() # 伪类选择器 # 例如：选择父级元素ul下的第二个

821 0

selector的使用

安装parsel库 pip install parsel 构造选择器响应对象公开Selector实例对.selector属性： >>> response.selector.xpath('//span/...('//span/text()').get() 'good' >>> response.css('span::text').get() 'good' 使用选择器为了完整起见，下面是完整的HTML代码：...br /> 通过观察 HTML code 对于该页面，让我们构造一个用于选择标题标记内文本的...('//title/text()').get() 'Example website' .get()始终返回单个结果；如果有多个匹配项，则返回第一个匹配项的内容；如果没有匹配项，则不返回任何匹配项。....image1_thumb.jpg', 'image2_thumb.jpg', 'image3_thumb.jpg', 'image4_thumb.jpg', 'image5_thumb.jpg'] 只提取第一个匹配的元素

6861 0

Python采集网站ip代理, 检测IP代理是否可用

开发环境 Python 3.8 Pycharm 模块使用 requests >>> pip install requests parsel >>> pip install parsel 代理ip结构 proxies_dict...解析数据, 提取我们想要的数据内容解析数据方式方法：正则: 可以直接提取字符串数据内容 xpath: 根据标签节点提取数据内容 css选择器: 根据标签属性提取数据内容哪一种方面用那种, 那是喜欢用那种...正则表达式提取数据内容正则提取数据 re.findall() 调用模块里面的方法正则遇事不决 .*?...', response.text, re.S) print(ip_list) print(port_list) css选择器: css选择器提取数据需要把获取下来html字符串数据(response.text...，所以还是付费的好

9902 0

parsel类库使用

一、parsel类库使用 parsel这个库可以解析HTML和XML，并支持使用Xpath和CSS选择器对内容进行提取和修改，同时还融合了正则表达式的提取功能。...parsel灵活且强大，同时也是python最流行的爬虫框架Scrapy的底层支持 # coding=utf-8 """ 作者：gaojs 功能：新增功能：日期：2022.../3/25 19:35 """ import os.path import requests import parsel def get_address(): """ 获取url地址...os.mkdir(dirname) for page in range(2, 11): print(f'=====================正在爬取第{page}页内容...requests.get(url, headers=headers) res.encoding = res.apparent_encoding selector = parsel.Selector

6572 0

爬虫案例1-爬取图片的三种方式之一：requests篇(1)

@TOC 前言本文分享一个爬虫案例，使用requests库爬取彼岸网中的动物的图片，利用parsel库进行数据解析，并把这些照片保存到本地。...，下面我们就要对数据内容进行分析。...使用parsel库首先需要创建一个Selector对象，然后利用css选择器来解析其中照片数据。 parsel库支持Xpath、css选择器以及正则表达式来提取数据。...) # 利用css选择器提取图片的数据 for li in data_li: # 遍历 img_src=li.css('a img::attr(src...# 完整的图片地址存储数据利用第三方库parsel的css选择器获取到数据后，我们就需要存储数据了。

2100 0

Python爬取当当网书籍数据，并数据可视化展示

parsel 数据解析模块开发环境 Python 3.8 Pycharm 2021.2 专业版模块使用 csv 模块把爬取下来的数据保存表格里面的内置模块 requests >>> pip install...requests 数据请求模块 parsel >>> pip install parsel 数据解析模块 css选择器去提取数据爬虫代码实现步骤: 导入所需模块发送请求, 用python代码模拟浏览器发送请求...解析数据, 提取我们想要数据内容多页爬取保存数据, 保存csv表格里面 1....解析数据, 提取我们想要数据内容 selector = parsel.Selector(response.text) # 对于获取到的html字符串数据进行转换 selector 对象 # css选择器...就是根据标签属性提取相应的数据 lis = selector.css('ul.bang_list li') for li in lis: # .name 定位 class类名name标签 a

4K2 1

CSS学习笔记

一、CSS的三类选择器 1、标记选择器标记 { 属性:属性值; ...属性:属性值; ………… } 在HTML中的引用方式：标记内容 3、ID选择器 ...：名成">标记内容注意： Id不允许重复使用。...二、选择器的申明 1、集体申明 body,p,.class,#id { 属性:属性值; ………… } 2、嵌套使用 h1 em { 属性:属性值;... ………… } 在HTML中的引用方式：我们的首都是em>北京em> 在嵌套中，em样式会继承和h1的样式，h1和em存在一定的父子关系。

8824 0

票房20亿，豆瓣7.0？Python分析电影《孤注一掷》豆瓣评论数据

前言环境使用 Python 3.8 解释器 Pycharm 编辑器所需模块 import parsel >>> pip install parsel import requests >>> pip...评论相关数据抓包分析相关数据来源通过浏览器自带开发者工具进行抓包分析打开开发者工具: F12 或者鼠标右键点击检查选择network 刷新网页: 让本网页的数据内容重新加载一遍关键字搜索...limit=20&status=P&sort=new_score 获取数据, 获取服务器返回响应数据开发者工具 --> response 解析数据, 提取我们想要的数据内容评论相关数据保存数据,...'> 提取具体数据内容 .comment-info a --> 定位class类名为comment-info下面a标签 a::text --> 提取a标签里面文本 get() --> 获取第一个标签内容...attr() --> 提取属性 selector = parsel.Selector(response.text) # 第一次提取, 所有div标签 divs = selector.css('div.comment-item

3662 0

今天刚上手爬虫，当然要从最简单的开始啦，验证一下所学的知识

知识点： requests css选择器全站小说爬取思路开发环境：版本：anaconda5.2.0(python3.6.5) 编辑器：pycharm 社区版代码导入工具 import requests...() # selector.re() # get 获取对象里面的文字内容 # 属性提取器 attr h1 = selector.css('.reader h1::text').get() # print...(index_response.text) book_name = sel.css('h2::text').get() # 提取了所有章节的下载地址 urls = sel.css...www.shuquge.com/txt/5809/index.html') # download_one_book('http://www.shuquge.com/txt/63542/index.html') """下载玄幻类的第一页...(cate_response.text) # 提取了所有章节的下载地址 urls = sel.css('.l.bd > ul > li > span.s2 > a::attr

3813 0

【详细步骤解析】爬虫小练习——爬取豆瓣Top250电影，最后以csv文件保存，附源码

豆瓣top250 主要步骤 1.发送请求，根据url地址，然后送请求 2.获取数据，获取服务器返回的响应的内容 3.解析数据：提取想要爬取的内容 4.保存数据：将得到的数据保存为文档具体实施...#加表头，表的第一列 writer=csv.DictWriter(f,fieldnames=[ '电影名' , '导演演员' , '种类',...response=requests.get(url=url,headers=headers) #传递相应的内容，获取服务器返回的响应数据内容...#第三步：解析数据，提取想要的内容 selector=parsel.Selector(response.text)...#解析css里面的选择器 lis=selector.css('#content > div > div.article > ol > li')

1.1K4 1

用python实现csdn博主全部博文下载，html转pdf，有了学习的电子书了。。。（附源码）

（附源码）我们学习编程，在学习的时候，会有想把有用的知识点保存下来，我们可以把知识点的内容爬下来转变成pdf格式，方便我们拿手机可以闲时翻看，是很方便的先来一个单个的博文下载转pdf格式的操作 ?...python中将html转化为pdf的常用工具是Wkhtmltopdf工具包，在python环境下，pdfkit是这个工具包的封装类。如何使用pdfkit以及如何配置呢？分如下几个步骤。...6、css选择器获取标签文本的主体 7、构造拼接html文件 8、保存html文件 9、文件的转换分析网页： CSDN网页是静态网页，请求获取网页源代码 start_url =“https...css选择器获取标签文本的主体为代码要点部分 css语法部分 html_css = parsel.Selector(响应的数据) html_content = html_css.css('要获取的部分...# css选择器获取标签文本的主体 html_css = parsel.Selector(response_2) html_content = html_css.css(

6952 0

全栈之前端 | 2.CSS3基础知识之选择器学习

weiyigeek.top-类与多类选择器图温馨提示: 在多类选择器中，如果通过把两个类选择器链接在一起，仅可以选择同时包含这些类名的元素（类名的顺序不限），若一个多类选择器包含类名列表中没有的一个类名...温馨提示: 在HTML中类名的第一个字符不能使用数字,否则它无法在 Mozilla 或 Firefox 中起作用，语法格式非常重要。...伪类是选择器的一种，它用于选择处于特定状态的元素，比如当它们是这一类型的第一个元素时，或者是当鼠标指针悬浮在元素上面的时候。...它们表现得会像是你向你的文档的某个部分应用了一个类一样，帮你在你的标记文本中减少多余的类，让你的代码更灵活、更易于维护。... 温馨提示: ::before和::after伪元素与content属性的共同使用，在 CSS 中被叫做“生成内容”，总结：伪类和伪元素选择器属性参考: 伪类选择器：

2391 0

css应知应会第一集

p 标记的文本颜色为蓝色 3、想将所有的 p 标记的颜色，更改为粉色在 HTML 中，想实现标记的样式，只能靠属性完成使用属性设置页面元素样式的问题...黄色(yellow)，文字大小为 24px 2、内部样式表将样式内容定义在标记中，在此定义的样式，可以被页面中的多个元素同时使用 ...2的继承性来取代通用选择器 2、元素选择器作用：使用元素名称来充当选择器，目的是为了匹配页面中指定元素名称的所有标记语法：元素名称...(重难点) 作用：定义好之后，允许被任意元素的 class 属性进行引用的选择器 1、基本类选择器语法：.类名{ ...... } 引用类选择器：类名"> 类名规范：

1K2 0

CSS-02

# 并集选择器并集选择器（css选择器分组）是各个选择器通过逗号连接而成的，任何形式的选择器（包括标签选择器、class类选择器，id选择器等），都可以作为并集选择器的一部分。... 结果 # 复合选择器总结选择器作用特征使用情况隔开符号及用法后代选择器用来选择元素后代是选择所有的子孙后代较多...# 简写属性属性名 background 属性值 color image repeat position 默认值每个属性的默认值描述设置背景图片是否随内容滚动示例如下： .box {...当同一个元素被两个选择器选中时，CSS会根据选择器的权重决定使用哪一个选择器。权重低的选择器效果会被权重高的选择器效果覆盖（层叠）。可以这样理解权重：这个选择器对于这个元素的重要性。...important>行内样式表>ID选择器>类选择器>标签选择器>通配符>继承的样式>浏览器默认样式在考虑权重时，初学者还需要注意一些特殊的情况，具体如下：继承样式的权重为0。

2K3 0

CSS3 属性选择器伪类选择器盒模型圆角阴影 CSS定位和浮动

属性选择器的基本格式：标签名 [ 属性要求 ] { CSS属性名：属性 } ---- 比如最基本的：标签名[属性] p[align]{ color: red; } </style...---- 第三部分：其他选择器 ---- 伪类选择器伪类动态选择器，我觉得就是一个HTML元素在点击之前、之后、点击瞬间和悬停这四种情况的临时样式。...目标伪类选择器如果让你实现一个功能：在HTML中的瞄的基础之上，跳转到瞄内容的时候，背景显示红色。...---- 圆角优化和阴影在上方类选择器的基础代码之上，添加如下代码： border-radius: 2em;/* 基础圆角 */ border-radius: 1em 10em 1em 10em;/*...，方可正常使用。

1562 0

vue项目前端规范

编码规范指令规范 Props 规范 CSS 规范 SASS 规范特殊规范 # 命名规范普通变量方法:驼峰命名规范跟需求的内容相关复数的时候需要加s 常量方法:全部大写规范:使用大写字母和下划线来组合命名...，下划线分割单词 # 组件官方文档推荐及使用遵循规则: PascalCase (单词首字母大写命名)是最通用的声明约定 kebab-case (短横线分隔命名) 是最通用的使用约定组件名应该始终是多个单词的...各组件中重要函数或者类说明复杂的业务逻辑处理说明特殊情况的代码处理说明,对于代码中特殊用途的变量、存在临界值、函数中使用的 hack、使用了某种算法或思路等需要进行注释描述多重 if 判断语句...scoped 中出现官方文档说明:在 scoped 样式中，类选择器比元素选择器更好，因为大量使用元素选择器是很慢的分类的命名方法(使用单个字母加上"-"为前缀) 布局（grid）（.g-）...父级选择器的伪类选择器 (:first-letter, :hover, :active etc) 伪类元素 (:before and :after) 父级选择器的声明样式 (.selected, .active

2.6K5 4

Scrapy学习

response 参数是 textreponse 的一个实例，它保存页面内容，并有其他有用的方法来处理它。...to Scrape'] 另一个是，调用 .getall() 的结果是一个列表：选择器可能返回多个结果，因此我们将它们全部提取出来。...'>] 上面查询返回的每个选择器都允许我们对其子元素运行进一步的查询。...让我们将第一个选择器分配给一个变量，这样就可以直接在特定的引号上运行 CSS 选择器： In [2]: quote = response.css("div.quote")[0] 现在，使用刚刚创建的 quote...您可以使用此选项使爬行器仅获取带有特定标记的引号，并基于参数构建 URL：通过在运行 spider 时使用-a 选项，可以为它们提供命令行参数： <a class="tag" href="/tag/choices

1.3K2 0

CSDN文章爬取前十博主文章并转换为md

#CSDN文章爬取前十博主文章并转换为md CSDN爬取 python+selenium+parsel+tomd tansty创建代码地址： **（1）CSS选择器** 需要先创建一个parsel.Selector...对象之后就可以开始使用了 tags = selector.css(’.content’) 我们平时使用的css中，对某一个标签进行修饰时，使用的是 .class_attr 在这里也是如此 .content...就是指查询所有 class 为 content 的标签查询的结果是一个特殊的对象，不能直接得到需要的数据将css()函数查询到的结果转换为字符串或者列表，需要使用一个函数 • get() • getall...() **（2）属性提取** href\_value = selector.css('a::attr(href)').get() #提取href标签的值 title=page.css(".title-article...::text").get() #提取文本内容 ****2.selenium**** **选择元素的方法** find_element_by_class_name：根据class定位 find_element_by_css_selector

4905 4

CSS知识总结（上）

什么是css 层叠样式表(英文全称：Cascading StyleSheets)是一种用来表现HTML（标准通用标记语言的一个应用）或XML（标准通用标记语言的一个子集）等文件样式的计算机语言。...选择器标签选择器标签名称{ 属性:值; } id选择器 #id名称{ 属性:值; } 类选择器 .类名{ 属性:值; } id相当于人的身份证不可以重复 class相当于人的名称可以重复...:值; } 子元素选择器只会查找儿子, 不会查找其他被嵌套的标签子元素选择器之间需要用>符号连接, 并且不能有空格后代选择器使用空格作为连接符号 | 子元素选择器使用>作为连接符号后代选择器会选中指定标签中...如果都是直接选中, 并且不是相同类型的选择器, 那么就会按照选择器的优先级来层叠id>类>标签>通配符>继承>浏览器默认不同选择器(直接选中) 相同选择器(直接选中) 间接选中就是指继承补充内容...如果id的个数一样, 那么再看类名的个数, 类名个数多的优先级最高如果类名的个数一样, 那么再看标签名称的个数, 标签名称个数多的优先级最高标签理解在HTML中HTML将所有的标签分为两类, 分别是容器级和文本级

1K4 0

用Python爬取COS网页全部图片

（3）抓取内容的命名与抓取内容相衔接。..."进行精确定位 #再按照同样跨节点的方式依次找到，@a标签中的hdata-original属性，并创建一个img_url变量来接收 #使用“.extract_first()”提取出整一个数据...html_2 = parsel.Selector(response_2) page_num = html_2.xpath('//div[@class="ptitle"]//em/text...，并创建一个img_url变量来接收 #使用“.extract_first()”提取出整一个数据，如果不加则只有一张图片 # print(img_url)...# 图片的文件名 img_name = str(url) + '.jpg'#准备文件名称 #取当前for循环的索引做为文件名 #

8624 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭