大家好,又见面了,我是你们的朋友全栈君。
from lxml import etree
import requests
url = 'https://www.pearvideo.com/' # 首页地址
data = {
}
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
"AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/89.0.4389.82 Safari/537.36"
}
session = requests.Session()
page_one = session.get(url, headers=headers).text
# page_one.encoding = 'utf-8'
print('-------首页请求成功--------')
tree = etree.HTML(page_one)
page_list = tree.xpath('//*[@id="navbar"]/ul/li')
for li in page_list:
# todo 方法1
page_list_li = li.xpath('./a/@href') # @href采用定位的方式 找到需要的key对应的值
print(li[0].text) # 直接获取li下面的文本
print(li[0].tag) #获取<a>标签名a
print(li[0].attrib) # 获取<a>标签的属性href和class值
# todo 方法2
for li_2 in range(len(li)): # todo 从上一个li标签中获取到我要的信息。参考:https://www.jb51.net/article/132145.htm
print(li[li_2].tag) #获取<a>标签名a
print(li[li_2].attrib) # 获取<a>标签的属性href和class
print(li[li_2].text) # 获取到li下面的文本
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/197294.html原文链接:https://javaforall.cn