Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >72 - 使用Beautiful Soup 的CSS选择器获取节点信息

72 - 使用Beautiful Soup 的CSS选择器获取节点信息

原创
作者头像
ruochen
修改于 2021-06-15 02:53:54
修改于 2021-06-15 02:53:54
1.2K0
举报

如何使用Beautiful Soup 的CSS选择器获取节点信息

代码语言:txt
AI代码解释
复制
from bs4 import BeautifulSoup

html = '''
<html>
<head>
    <meta charset="UTF-8">
    <title>Beautiful Soup</title>
</head>
<body>
<div>
    <ul>
        <li class="item" value1="1234", value2="hello world"><a href="https://www.xxx.com">ruochen</a></li>
        <li class="item2"><a href="https://www.xxx.com">若尘</a></li>
    </ul>
    <button id="button1">确定</button>
    <ul>
        <li class="item"><a href="https://www.taobao.com">淘宝</a></li>
        <li id="myli" class="item4"><a href="https://www.microsoft">微软</a></li>
        <li class="item5"><a href="https://www.google.com">谷歌</a></li>
    </ul>
</div>
<body>
'''

soup = BeautifulSoup(html, 'lxml')
tags = soup.select('.item')
print(tags)
print(type(tags))
for tag in tags:
    print(tag)
代码语言:txt
AI代码解释
复制
[<li class="item" value1="1234" value2="hello world"><a href="https://www.xxx.com">ruochen</a></li>, <li class="item"><a href="https://www.taobao.com">淘宝</a></li>]
代码语言:txt
AI代码解释
复制
<class 'list'>
代码语言:txt
AI代码解释
复制
<li class="item" value1="1234" value2="hello world"><a href="https://www.xxx.com">ruochen</a></li>
代码语言:txt
AI代码解释
复制
<li class="item"><a href="https://www.taobao.com">淘宝</a></li>
代码语言:txt
AI代码解释
复制
tags= soup.select('#myli')
print(tags)
代码语言:txt
AI代码解释
复制
[<li class="item4" id="myli"><a href="https://www.microsoft">微软</a></li>]
代码语言:txt
AI代码解释
复制
tags = soup.select('a')
for tag in tags:
    print(tag)
    print(tag['href'])
代码语言:txt
AI代码解释
复制
<a href="https://www.xxx.com">ruochen</a>
代码语言:txt
AI代码解释
复制
https://www.xxx.com
代码语言:txt
AI代码解释
复制
<a href="https://www.xxx.com">若尘</a>
代码语言:txt
AI代码解释
复制
https://www.xxx.com
代码语言:txt
AI代码解释
复制
<a href="https://www.taobao.com">淘宝</a>
代码语言:txt
AI代码解释
复制
https://www.taobao.com
代码语言:txt
AI代码解释
复制
<a href="https://www.microsoft">微软</a>
代码语言:txt
AI代码解释
复制
https://www.microsoft
代码语言:txt
AI代码解释
复制
<a href="https://www.google.com">谷歌</a>
代码语言:txt
AI代码解释
复制
https://www.google.com

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
71 - 使用Beautiful Soup 的节点选择器获取节点信息
如何使用Beautiful Soup 的节点选择器获取节点信息 from bs4 import BeautifulSoup html = ''' <html> <head> <title>获取节点信息</title> </head> <body> <div> <ul> <li class="item1" value1="1234", value2="hello world"><a href="https://www.xxx.com">ruochen</a></li>
ruochen
2021/06/13
1.5K0
71 - 使用Beautiful Soup 的节点选择器获取节点信息
Beautiful Soup (一)
1、Beautiful Soup库可以说是对HTML进行解析、遍历、维护“标签树”的功能库
AiDBA宝典
2019/09/29
6650
Beautiful Soup (一)
04.BeautifulSoup使用
例1: print(type(p.contents)) #list print(p.contents) #可通过索引获取它的某一个元素。
见贤思齊
2020/08/05
2.5K0
04.BeautifulSoup使用
Beautiful Soup库详解安装Beautiful Soup 介绍节点选择器方法选择器css 选择器
只需要在初始化 Beautiful Soup 时,将第二个参数设置为 lxml 即可
章鱼喵
2018/09/26
1.3K0
Beautiful Soup库详解安装Beautiful Soup 介绍节点选择器方法选择器css 选择器
CSS 选择器:BeautifulSoup4解析器
和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。
Lansonli
2021/10/09
7250
Python 系列文章 —— BeautifulSoup 实战
BeautifulSoup 实战 from bs4 import BeautifulSoup html_doc = """ <html><head><title>index</title></head> <body> <p class="title"><b>首页</b></p> <p class="main">我常用的网站 <a href="https://www.google.com" class="website" id="google">Google</a> <a href="https://www
玩转编程
2022/01/15
3050
《手把手带你学爬虫──初级篇》第3课 Beautiful Soup 4 库讲解
Beautiful Soup 4 库它是一个从HTML或者XML文件中提取数据的Python库。使用它,将极大地简化从网页源码中提取数据的步骤。
GitOPEN
2019/01/29
2.7K0
《手把手带你学爬虫──初级篇》第3课 Beautiful Soup 4 库讲解
Python学习笔记(BeautifulSoup选择器)
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。
python与大数据分析
2022/03/11
3560
Python爬虫——Beautiful Soup
Beautiful Soup是Python处理HTML或XML的解析库,使用Beautiful Soup需要安装Beautiful Soup库和lxml的库 Beautiful Soup官方下载地址
羊羽shine
2019/05/28
5740
如何利用 Beautiful Soup 爬取网页数据
Beautiful Soup将复杂的HTML文档转换成树形结构,树中的每个节点都是Python对象,对象可归纳为以下4种;
村雨遥
2022/06/15
3960
如何利用 Beautiful Soup 爬取网页数据
数据获取:​网页解析之BeautifulSoup
Beautiful Soup也有很多版本,不过Beautiful Soup3已经停止更新了,目前最新的都是Beautiful Soup4,而且也已经移植到bs4库中,我们安装bs4库后就可以直接使用。安装库使用pip安装,安装命令:
马拉松程序员
2023/09/02
4540
数据获取:​网页解析之BeautifulSoup
75 - 伪类选择器
解释什么是伪类选择器,以及如何使用伪类选择器 import pyquery from pyquery import PyQuery as pq html = ''' <div> <ul> <li class="item1"><a href="https://geekori.com">geekori.com</a></li> <li class="item2"><a href="https://www.jd.com">京东商城(https://www.jd.com)<
ruochen
2021/06/13
5830
75 - 伪类选择器
爬虫必备Beautiful Soup包使用详解
使用Beautiful Soup解析数据 Beautiful Soup是一个用于从HTML和XML文件中提取数据的Python模块。Beautiful Soup提供一些简单的函数用来处理导航、搜索、修改分析树等功能。Beautiful Soup 模块中的查找提取功能非常强大,而且非常便捷。Beautiful Soup自动输入文档转换为Unicode编码,输出文档转换为UTF-8编码。开发者不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。 Beau
double
2022/05/12
2.8K0
爬虫必备Beautiful Soup包使用详解
Python3.6+Beautiful Soup+csv 爬取豆瓣电影Top250
注:本文获取内容全部使用Beautiful Soup的select方法,使用css选择器。有html+css编程经验的可以使用css选择器,方便快捷。
geekfly
2022/04/24
6390
Python3.6+Beautiful Soup+csv 爬取豆瓣电影Top250
beautiful soup爬虫初识
官方推荐使用lxml作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3中3.2.2之前的版本,必须安装lxml或html5lib, 因为那些Python版本的标准库中内置的HTML解析方法不够稳定
py3study
2018/08/03
8380
『Python工具篇』Beautiful Soup 解析网页内容
而在解析数据时使用的是 Beautiful Soup 这个库,直译过来就是“靓汤”,这是广东人最喜欢的库。
德育处主任
2024/04/11
6210
爬虫系列(7)数据提取--Beautiful Soup。
官网http://beautifulsoup.readthedocs.io/zh_CN/latest/
野原测试开发
2019/07/10
1.4K0
Python爬虫 Beautiful Soup库详解
前面介绍了正则表达式的相关用法,但是一旦正则表达式写的有问题,得到的可能就不是我们想要的结果了。而且对于一个网页来说,都有一定的特殊结构和层级关系,而且很多节点都有 id 或 class 来作区分,所以借助它们的结构和属性来提取不也可以吗?
仲君Johnny
2024/02/08
3770
网络爬虫 | Beautiful Soup解析数据模块
从HTML文件中提取数据,除了使用XPath,另一种比较常用的解析数据模块。Beautiful Soup模块中查找提取功能非常强大、方便,且提供一些简单的函数来导航、搜索、修改分析树等功能。Beautiful Soup模块是Python的一个HTML解析库,借助网页的结构和属性来解析网页(比正则表达式简单、有效)。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。
数据STUDIO
2021/06/24
6600
Python爬虫库-Beautiful Soup的使用
Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。
IT派
2018/07/30
1.8K0
Python爬虫库-Beautiful Soup的使用
推荐阅读
相关推荐
71 - 使用Beautiful Soup 的节点选择器获取节点信息
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档