各位小伙伴好,很久很久没发过文章了[忙于工作,忙于学习],感觉特别对不起大家,今天开始重新更新!
看视频的小伙伴还是可以看的v.yingjoy.cn。
不过从今天开始本号主打技术知识分享(主要分享Python, 爬虫, 大数据, 算法, 机器/深度学习等内容)。
日后希望可以出一套爬虫教程,还期望大家支持我!
什么是XPath?
XPath(XML Path Language)是基于XML的语言,它主要用于确定XML文档中某位置的语言,是一个W3C标准。
在Python爬虫中我们经常使用XPath获取CSS Selector进行网页元素的定位,通常XPath可以比CSS更准确的获取到元素,CSS依赖着元素的CSS样式进行选择,通常会存在元素的CSS样式很少甚至不同,且同一样式在网页各处可能都会存在,造成我们获取到的元素不准确。
本文将代大家学习如何使用XPath来定位元素的位置,附带几个练习,多多练习就能掌握!
XPath的组成
在XPath中,有以下几种类型的节点:
元素
属性
文本
命名空间
处理指令
注释
文档节点(根节点)
举个例子:
这里的就是文档的根节点
就是根节点的子节点
是元素节点
lang="en" 是属性
XPath的语法
选取节点(这里与CSS进行对比):
参考: http://www.cnblogs.com/ziyunfei/archive/2012/10/05/2710631.html#class
实战
后面结合Beautiful Soup进行元素定位,很方便。
第一次排版很丑,,,以后会慢慢改进,还请见谅!
领取专属 10元无门槛券
私享最新 技术干货