XPath:排除包含某个单词的文本节点

要在XPath中排除包含某个单词的文本节点，可以使用not()函数和contains()函数。这里有一个例子，展示了如何排除包含单词"example"的文本节点：

//*[not(contains(text(), 'example'))]

这个XPath表达式会选择所有不包含文本"example"的元素。如果你只想选择文本节点，而不是整个元素，可以使用以下表达式：

//text()[not(contains(., 'example'))]

这个表达式会选择所有不包含文本"example"的文本节点。请注意，这里我们使用了.来表示当前文本节点的内容。

相关·内容

如何使用linux命令统计文本中某个单词的出现频率

3.4K2 0

JavaScript 技术篇 - js在一个元素节点下包含多个text文本情况下的指定文本提取方法

结构如下，该元素下包含两个 text 文本，我们只想提取第一个文本内容。常规的 innertext、textContent 和 outerText 方法只能提取到全部的文本。...可以通过 childNodes[索引] 来指定 text 文本来进行提取。当然，childNodes[索引] 返回的是对象，再加个 nodeValue 就能返回文本了。

2.2K3 0

Python网络爬虫基础进阶到实战教程

其中Header包含了很多信息，如日期、内容类型、服务器版本等，而Body包含了页面HTML源代码等具体信息。第四行使用print()函数打印出响应内容的文本形式。...其中，路径表达式用于选择节点或者节点集合，而基本表达式用于指定某个元素、属性或者其他内容。...，或者获取节点的属性和文本内容。...p = soup.body.p print(p.parent) (5) .parents：返回一个包含节点所有祖先节点的迭代器。...正则表达式实战代码是一个简单的Python脚本，可以用于统计某个文件夹下所有文本文件中各个单词的出现频率，并输出前十个出现频率最高的单词及其出现次数。

1851 0

RE(正则)和Xpath

正则表达式 re匹配中文：[u4e00-u9fa5] 是一个计算机科学的概念用于使用单个字符串来描述，匹配符合某个规则的字符串常常用来检索，替换某些模式的文本正则的语法 ....:0次或1次 {m,n}: 出现最少m次，最多n次 ^: 匹配字符串的开始 $: 匹配字符串的结尾 \b: 匹配单词的边界 (): 对正则表达式内容进行分组，从第一个大括号开始，编号逐渐增大验证一个数字...可以输入参数；查到的结果只包含一个表示第一次匹配成功的内容 ------------------------------------------------------------- 结果：节点 nodename: 选取此节点的所有子节点 /: 从根节点开始选取 //: 选取节点，不考虑位置 ....：选取当前节点 … : 选取当前节点的父亲 @: 选取属性 //age[@detail] 或者 //div[@class=‘title’] xpath中查找一般按照路径方法查找

1.3K3 0

关于xpath的应用

1.xpath中使用contains xpath(span[contains(@class, 'xxx')]) Xpath如何选择不包含某一个属性的节点?...这里可以用到 not 例如排除一个属性的节点可以使用 //tbody/tr[not(@class)] 排除一个或者两个属性可以使用 //tbody/tr[not(@class or @id)] 2.xpath...按序选择有时候我们在选择的时候可能某些属性同时匹配了多个节点，但是我们只想要其中的某个节点，如第二个节点，或者最后一个节点，这时该怎么办呢？...第二次选择我们选取了最后一个 li 节点，中括号中传入 last() 即可，返回的便是最后一个 li 节点。...第三次选择我们选取了位置小于 3 的 li 节点，也就是位置序号为 1 和 2 的节点，得到的结果就是前 2 个 li 节点。

5591 0

Web 自动化实战经验硬核总结

一、元素定位常用方法 1. xpath规则说明 "/" : 表示从根节点选取 "//" : 从匹配选择的当前节点选择 "@" : 选取属性 "*" : 匹配任何元素节点 "@*" : 匹配任何属性节点...a[title] 匹配属性有title的a标签属性选择器—匹配单词边界 a[title~=“hello”] 匹配title包含hello的a标签后代选择器(空格表示)，可选取当前层级下的任意层级元素...XPATH：//input[@class="s_ipt"] CSS: input.s_ipt 弟弟元素：after-sibling 继兄弟这对于表单元素非常有用，即页面中位于同一父节点内的下一个相邻元素...页面中位于同一父节点内的上一个相邻元素 XPATH：//a[@name='tj_baike']/berfore-sibling::a CSS：无法实现父节点元素页面中位于一个节点的上级元素 XPATH...,'name')] CSS: input[id$='name'] *=匹配包含 XPATH: input[contains(@id,'sernam')] CSS: input[id*=sernam]

9492 0

爬虫学习(三)

使用Chrome插件选择标签的时候，选中时，选中的标签会添加属性class="xh-highlight" 1.1.1查找某个特定的节点或者包含某个指定的值的节点选取属于bookstore子元素的第一个...元素的值必须大于35.00： /bookstore/book[price>35.00]/title 找到包含下一页这三个字的文本： //*[contains(text(),'下一页')] 1.1.2选取未知节点...xpath方法返回列表的三种情况： 1.返回空列表：根据xpath语法规则字符串，没有定位到任何元素。 2.返回由字符串构成的列表：xpath字符串规则匹配的一定是文本内容或某属性的值。...页面中包含部分文本『hao』的元素点一下： hao = driver.find_element_by_partial_link_text('hao') hao.click() 使用css选择器查找元素：...2、xpath获取标签属性的语法 a:*/@href 3、xpaht获取标签文本的语法 a:*/text() 4、xpath查找特定的节点的语法 a://*[contains(text(),'下一页

5.7K3 0

python爬虫系列之 xpath：html解析神器

result-1 熟悉 html的朋友都知道在 html中所有的标签都是节点。一个 html文档是一个文档节点，一个文档节点包含一个节点树，也叫做 dom树。.../htmldom/dom_nodes.asp 另外，我们把距离某个节点最近的子节点叫做它的直接子节点，如下图所示的 body和 head就是 html的直接子节点 ?...这样就能保证我们总是能获得一个包含文档节点的_Element对象。...//a[contains(@href, "#1233")]' //a[contains(@y, "x")]：选择有 y属性且 y属性包含 x值的 a标签总结使用 xpath之前必须先对 html...文档进行处理 html dom树中所有的对象都是节点，包括文本，所以 text()其实就是获取某个标签下的文本节点通过_Element对象的 xpath方法来使用 xpath 注意！！！

2.3K3 0

爬虫0040：数据筛选爬虫处理之结构化数据操作

Xpath Xpath原本是在可扩展标记语言XML中进行数据查询的一种描述语言，可以很方便的在XML文档中查询到具体的数据；后续再发展过程中，对于标记语言都有非常友好的支持，如超文本标记语言HTML。...print(e_v_attr_name) # 查询所有p标签的文本内容,不包含子标签 p_t = html.xpath("//p") for p in p_t: print (p.text)...# 查询多个p标签下的所有文本内容，包含子标签中的文本内容 p_m_t = html.xpath("//p") for p2 in p_m_t: print(p2.xpath("string(...案例操作：爬虫智联招聘中前10页的某个工作岗位名称、薪水、公司信息 ---- 6....，返回None print(soup.span.string) # 大牧：直接返回包含的文本内容入门第三弹：操作子节点 # coding:utf-8 # 引入BS4操作模块 from bs4 import

3.2K1 0

python学习之xpath使用案例总结

*:匹配任何元素节点 8，@*:匹配任何属性节点 9，node()：匹配任何类型的节点 10，| ：选取若干个路径 xpath谓语的用法：谓语用来查找某个特定的节点或者包含某个指定的值的节点。...()节点的子节点最前面的两个div元素 //div[@id]：选取所有div包含id属性的元素 //div[@id=’kw’]：选取所有div包含id属性等于kw的元素 xpath 轴在...XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档节点（或称为根节点）。...：选择文本中当前节点结束标签后的所有节点 namespace：选取当前节点的所有命名空间节点 parent：选取当前节点的父节点 preceding：选取文档中当前节点的开始标签之前的所有节点 preceding-sibling...2 mod 1，余0 ''' #通过text()定位到标签包含文本内容的位置，利用contains(text(),"文本内容")函数包含关键词文本内容，还可以直接等于文本内容，如：/div[text(

1.3K1 0

学爬虫利器Xpath，看这一篇就够了（建议收藏）

可以看到，返回形式是一个列表，每个元素是Elment类型，其后跟了节点的名称，如html、body、div、ul、li、a等，所有节点都包含在列表中了。...5.获取文本我们用Xpath中的text（）方法获取节点的文本，接下来尝试获取前面li节点中的文本，相关代码如下： from lxml import etree html = etree.parse...分析可知，这里是选取所有子孙节点的文本，其中前面两个就是li的子节点a节点内部的文本，另一个就是最后一个li节点内部的文本，即换行符。...注意，此处和属性匹配的方法不同，属性匹配是中括号加属性名和值来限定某个属性，如[@href=“link1.html”]，而此处的@href指的是获取节点的某个属性，二者需要做好区分。...此时运行结果如下： ['first item'] 此种方式在某个节点的某个属性有多个值时经常用到，如某个节点的class属性通常有多个。

1.3K4 0

R实战——大众点评-汉拿山评论情感浅析

getNodeSet()函数，定位需要使用XPath路径使用谷歌浏览器查看代码，找到需要提取的节点和内容那么我们要的XPath路径就是div[@class='comment-txt']/div 更多...XPath内容请自行查阅资料 str_trim()函数去除前后空格 sapply()函数将节点的内容使用xmlValue()函数提取出来生成向量小结到这里，已经爬取了一个页面的全部点评内容了，假如你还需要爬取别的内容...，比如商家的回应，星级，人均消费，图片等等，都可以通过XPath定位到不同的节点，再抓取数据。...同时也可以自建词典，不同的场景下，同一单词的倾向是不一样的，所以当某个词典在某个场景下使用时，能够很好的完成分词，而当应用在别的场景下时，效果却不理想。本文采用已打标签的情感词典。...第三部分：情感分析在第二部分，我们得到了一个情感词典，一个经过三级清洗的文档-单词矩阵，接下我们只需将这两个矩阵结合就能得到一个文档-单词-得分矩阵。

1.3K10 1

Xpath高级用法

xpath排除某个节点 xpath速度比较快，是爬虫在网页定位中的较优选择，但是很多网页前端代码混乱难以定位，而学习定位也较为不易（主要是全面的教程较少）试验环境：Python环境，lxml.etree...E子元素 xpath="/A/B/C/E[last()]" ; //选择没有属性的B元素 xpath="//B[not(@*)]"; //选择不包含class属性的节点 xpath="....//span[not(@class)]"; //选择不包含class和id属性的节点 xpath="....其兄弟节点中前一个div节点下ul下li中text属性包含“务”字的节点的值 >>print tree.xpath(u'//a[@href]/ancestor::div/preceding::div/ul...xpath排除某个节点主要时应用name()这个函数获取便签名 res = html.xpath("//*[name(.)!='style']")

1.1K1 0

Python爬虫Xpath库详解

那么，在页面解析时，利用 XPath 或 CSS 选择器来提取某个节点，然后再调用相应方法获取它的正文内容或者属性，不就可以提取我们想要的任意信息了吗？在 Python 中，怎样实现这个操作呢？...文本获取我们用 XPath 中的 text 方法获取节点中的文本，接下来尝试获取前面 li 节点中的文本，相关代码如下： from lxml import etree html = etree.parse...注意，此处和属性匹配的方法不同，属性匹配是中括号加属性名和值来限定某个属性，如 [@href="link1.html"]，而此处的 @href 指的是获取节点的某个属性，二者需要做好区分。...此时运行结果如下： ['first item'] 此种方式在某个节点的某个属性有多个值时经常用到，如某个节点的 class 属性通常有多个。 12....第五次选择时，我们调用了 descendant 轴，可以获取所有子孙节点。这里我们又加了限定条件获取 span 节点，所以返回的结果只包含 span 节点而不包含 a 节点。

2691 0

Python之xpath

）　　- attribute（属性节点）　　- text（文本）　　- namespace（命名空间）　　- processing-instruction（命令处理）　　-...　　”/”：表示选择根节点　　”//”：表示选择任意位置的某个节点　　”@”：表示选择某个属性　　nodename（节点名称）：表示选择该节点的所有子节点 xpath功能函数使用功能函数能够更好的进行模糊搜索...(@id,”ma”)]‘) 选取id值包含ma的div节点 and xpath(‘//div[contains(@id,”ma”) and contains(@id,”in”)]‘) 选取id值包含ma...和in的div节点 text() xpath(‘//div[contains(text(),”ma”)]‘) 选取节点文本包含ma的div节点 xpath定位方法 <?...例2： # 我们爬取网页的目的，无非是先定位到DOM树的节点，然后取其文本或属性值 myPage = ''' TITLE <body

4622 0

Python神技能：六张表搞定 Xpath 语法

选取当前节点 xpath('./div') 选取当前节点下的div节点 .. 选取当前节点的父节点 xpath('..')...回到上一个节点 @ 选取属性 xpath（'//@calss'）选取所有的class属性二、谓语谓语被嵌在方括号内，用来查找某个特定的节点或包含某个制定的值的节点实例：表达式结果 xpath...) 选取id值以ma开头的div节点 contains xpath('//div[contains(@id,"ma")]') 选取id值包含ma的div节点 and xpath('//div[contains...(@id,"ma") and contains(@id,"in")]') 选取id值包含ma和in的div节点 text() xpath('//div[contains(text(),"ma")]')...选取节点文本包含ma的div节点 scrapy xpath文档：http://doc.scrapy.org/en/0.14/topics/selectors.html 作者：j_hao104 来源：

5955 0

Python3网络爬虫实战-28、解析库

那么在页面解析时，我们利用 XPath 或 CSS 选择器来提取到某个节点，然后再调用相应的方法去获取它的正文内容或者属性不就可以提取我们想要的任意信息了吗？...，也就是整个 HTML 文本中的所有节点都会被获取，可以看到返回形式是一个列表，每个元素是 Element 类型，其后跟了节点的名称，如 html、body、div、ul、li、a 等等，所有的节点都包含在列表中了...文本获取我们用 XPath 中的 text() 方法可以获取节点中的文本，我们接下来尝试获取一下上文 li 节点中的文本，代码如下： from lxml import etree html = etree.parse...运行结果： ['first item'] 此种选择方式在某个节点的某个属性有多个值的时候经常会用到，如某个节点的 class 属性通常有多个。 12....第五次选择我们调用了 descendant 轴，可以获取所有子孙节点，这里我们又加了限定条件获取 span 节点，所以返回的就是只包含 span 节点而没有 a 节点。

2.3K2 0

【Python爬虫实战】XPath与lxml实现高效XMLHTML数据解析

（二）XPath 的主要功能 xpath的主要功能如下：节点选择：可以选择单个或多个节点，根据层级、属性、文本内容等条件选择目标元素。...文本和属性提取：可以直接提取节点的文本内容或节点的属性值。...例如，//div/* 选择下的所有子节点。（三）条件筛选条件筛选使用 [] 包含特定条件，以筛选符合条件的节点。...//tag[@attribute]：选择具有某个属性的节点。例如，//img[@src] 选择所有带有 src 属性的标签。...（五）常用的函数 text()：获取节点的文本内容。例如，//p/text() 获取所有标签的文本内容。 contains()：检查某个字符串是否包含在节点的值中。

2171 0

认识XPath（确定XML文档中某部分位置的语言）

简介 XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。 XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。...起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。...虽然完整的轴描述是一种更加贴近人类语言，利用自然语言的单词和语法来书写的描述方式，但是相比之下也更加啰嗦。轴定义轴可定义相对于当前节点的节点集。...步（step）包括：轴（axis）定义所选节点与当前节点之间的树关系节点测试（node-test）识别某个轴内部的节点零个或者更多谓语（predicate）更深入地提炼所选的节点集...child::text() 选取当前节点的所有文本子节点。 child::node() 选取当前节点的所有子节点。 descendant::book 选取当前节点的所有 book 后代。

9821 0

Python爬虫：Xpath语法笔记

选取当前节点 xpath(‘./div’) 选取当前节点下的div节点 .. 选取当前节点的父节点 xpath(‘..’)...回到上一个节点 @ 选取属性 xpath（’//@calss’）选取所有的class属性二、谓语谓语被嵌在方括号内，用来查找某个特定的节点或包含某个制定的值的节点实例：表达式结果 xpath...)]‘) 选取id值以ma开头的div节点 contains xpath(‘//div[contains(@id,”ma”)]‘) 选取id值包含ma的div节点 and xpath(‘//div[contains...(@id,”ma”) and contains(@id,”in”)]‘) 选取id值包含ma和in的div节点 text() xpath(‘//div[contains(text(),”ma”)]‘)...选取节点文本包含ma的div节点 scrapy xpath文档：http://doc.scrapy.org/en/0.14/topics/selectors.html 选取未知节点 XPath

6771 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云