在密集的HTML树中获取XPath href,可以通过以下步骤实现:
//@href
来选择所有具有href属性的元素。
c. 遍历选中的元素列表,并提取href属性的值。from lxml import etree
# 解析HTML文档
html = """
<html>
<body>
<div>
<a href="https://example.com">Link 1</a>
</div>
<div>
<a href="https://example.com">Link 2</a>
</div>
</body>
</html>
"""
# 创建解析器
parser = etree.HTMLParser()
tree = etree.fromstring(html, parser)
# 使用XPath定位到包含href属性的元素
elements = tree.xpath('//@href')
# 遍历选中的元素列表,并提取href属性的值
for element in elements:
print(element)
输出结果为:
https://example.com
https://example.com
领取专属 10元无门槛券
手把手带您无忧上云