让 BeautifulSoup 以不区分大小写的方式捕获标签

好的，让我来回答你的问题。

首先，让 BeautifulSoup 不区分大小写地捕获标签很简单。你可以使用 lowercase 参数来设置 BeautifulSoup 是否将标签名称转换为小写。这里是一个例子：

from bs4 import BeautifulSoup

html = '<html><body><h1>Hello, World!</h1></body></html>'
soup = BeautifulSoup(html, 'html.parser', parse_only=True, lowercase=True)

print(soup.prettify())

输出：

<html><body><h1>hello, world!</h1></body></html>

可以看到，所有的标签都被转换为了小写。

接下来，我们可以使用 find_all 方法来获取所有匹配的标签。我们可以使用 soup.find_all 方法来获取所有匹配的标签，并返回一个列表。这里是一个例子：

soup = BeautifulSoup(html, 'html.parser')
tags = soup.find_all(['h1', 'h2', 'h3'])

for tag in tags:
    print(tag)

输出：

<h1>Hello, World!</h1>
<h2>Hello, World!</h2>
<h3>Hello, World!</h3>

可以看到，所有匹配的标签都被输出了。

最后，我们可以使用 tag.name 属性来获取标签的名称，或者使用 tag.string 属性来获取标签中的文本内容。这里是一个例子：

soup = BeautifulSoup(html, 'html.parser')

print(soup.find('h1').name)
print(soup.find('h1').string)

输出：

h1
Hello, World!

可以看到，我们成功地获取了第一个匹配的标签的名称和文本内容。

希望这些信息对你有所帮助！

相关·内容

NLTK-004：加工原料文本

从网络和硬盘访问文本编号 2554 的文本是《罪与罚》的英文翻译，我们可以用如下方式访问它。...请注意，文件中行尾的\r 和\n，是 Python 用来显示特殊的回车和换行字符的方式我们要对其进行分词操作，产生一个词汇和标点符号的链表。...HTML 的全部内容包括： meta 元标签、图像标签、map 标签、JavaScript、表单和表格。...我们可以使用BeautifulSoup或者其他库来从HTML中提取文本，然后我们可以对原始文本进行分词： from bs4 import BeautifulSoup raw = BeautifulSoup...通过将所有字符小写来忽略大小写的区分，并过滤掉非字母字符。

5712 0

Python：基础&爬虫

("商：%d 余数:%d"%(sh,yu)) 9 文件操作 9.1 打开文件(open) 用法：对象=open(文件名，访问模式) f = open('test.txt', 'w') 模式说明 r 以只读方式打开文件...: print('产生错误了') 上例程序，已经使用except来捕获异常，但是还会看到错误的信息提示 except捕获的错误类型是IOError，而此时程序产生的异常为 NameError ，所以...这样做的原因是让程序运行得慢一些。在程序运行的时候，按Ctrl+c中断（取消）程序。我们可以观察到KeyboardInterrupt异常被触发，程序退出。...需要安装C语言库 html5lib BeautifulSoup(markup, “html5lib”) 最好的容错性，以浏览器的方式解析文档，生成HTML5格式的文档速度慢、不依赖外部扩展 3.2...Comment 3.2.1 Tag Tag通俗点讲就是为了获取HTML中的一个个标签 from bs4 import BeautifulSoup file = open('.

1K1 0

正则表达式-锚点及模式修饰符

，计数元字符就可以对整体作用，分组表示括号内的正则表示一个组，并增加捕获计数，在后面可以使用\1 \2等方式来反向引用前面分组正则匹配到的内容。...，加快速度命名捕获相当于将括号内匹配的内容赋值给变量，后面我们不用\1方式来引用，而是可以直接使用name引用固化分组，这个我们中字面上来理解就是已经匹配的内容固化，不会再吐出去让后面的表达式来匹配...i) 开启不区分大小写匹配应用在子表达式中 (?-i) 关闭不区分大小写匹配与(?i)配合使用 \Q.....\E 文字文本范围之间的字符全部当做文本，不解析为元字符在Java中可以在编译Pattern时指定不区分大小写，grep也可以使用-i来启用，但这是针对正则表达式全局的设定，如果我们要对局部进行细微控制的话...i)来指定不区分大小写了，譬如想匹配Petter,首字母不区分大小写，但是后续字母必须全是小写，我们就可以使用(?i)p(?

1.3K3 0

Python网络爬虫入门篇

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等解析json数据：json模块解析二进制数据:以wb的方式写入文件 d....中字符串，格式：.string Comment 标签内字符串的注释部分，一种特殊的Comment类型实例展示BeautifulSoup的基本用法： >>> from bs4 import...标签树的下行遍历 ? 标签树的上行遍历：遍历所有先辈节点，包括soup本身 ? 标签树的平行遍历：同一个父节点的各节点间 ? ?...=0, flags=0) 替换匹配到的字符串函数参数说明： pattern:匹配的正则表达式 string：要匹配的字符串 flags：标记为，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等...groups() 返回包含所有小组字符串的元组，从1到所含的小组 groupdict() 返回以有别名的组的别名为键、以该组截获的子串为值的字典 start() 返回匹配开始的位置 end() 返回匹配结束的位置

2K6 0

BeautifulSoup解析html介绍

爬虫抓取的数据以html数据为主。有时也是xml数据，xml数据对标签的解析和html是一样的道理，两者都是来区分数据的。这种格式的数据结构可以说是一个页面一个样子，解析起来很麻烦。...#pip install beautifulsoup4==4.0.1 #指定版本，不指定会安装最新版本 #pip install lxml==3.3.6 指定版本，不指定会安装最新版本...的数据，而这类数据不止一条，我们以两条为例。...那么需要用到beautifulsoup的find_all函数，返回的结果应该是两个数据。当处理每一个数据时，里面的等标签都是唯一的，这时使用find函数。...最简单的用法，find和find_all不仅可以按照标签的名字定位元素，还可以按照class，style等各种属性，以及文本内容text作为条件来查找你感兴趣的内容，非常强大。

1.8K2 0

定向爬虫-中国大学MOOC-python网络爬虫实例

定向爬虫:仅对输入URL进行爬取，不扩展爬取中国大学排名2018 image.png format格式化输出 image.png 看下所需信息位置 image.png 程序大体框架 import...(html,"html.parser") '''一个tr标签存放一所大学的信息''' for tr in soup.find("tbody").children: if...isinstance(tr,bs4.element.Tag): #仅仅遍历标签,过滤掉非标签类型的其它信息 tds = tr('td') #将所有的td标签存放到列表tds中...isinstance(tr,bs4.element.Tag): #仅仅遍历标签,过滤掉非标签类型的其它信息 tds = tr('td') #将所有的td标签存放到列表tds中...isinstance(tr,bs4.element.Tag): #仅仅遍历标签,过滤掉非标签类型的其它信息 tds = tr('td') #将所有的td标签存放到列表tds中

8781 1

JavaScript正则表达式详细总结

前言作为一名程序猿，对正则表达式一定不会很陌生，但在平时开发中有时依然会遇到这样或那样的问题。本文从基础出发，本着让初学者入门，高手温故的初衷，相对系统性的介绍正了则相关知识。...那么问题来了，如果要表示所有字母，不区分大小写怎么办呢？其实有两种方式： A、第一种是使用修饰符 i，前面提到过。...match(/[cC]an+\s+\1/g); // null 2）非捕获用法，以(?)形式出现 (?...\r\n\f]* ) 这个括号有两部分，第一个 [a-z] 没什么好解释，即标签:\x20\t\r\n\f...]*，及限制标签名必须以字母开始，且第二个字母不能为/ \0 > : \20 t \r \n \f的任意多个字符（思考为什么），() 表示对标签的分组，方便取到标签名 3）[\x20\t\r\n\

1.3K2 1

Python 自动化指南（繁琐工作自动化）第二版：十二、网络爬取

如果我能简单地在命令行中输入一个搜索词，让我的电脑自动打开一个浏览器，在新的标签页中显示所有热门搜索结果，那就太好了。...类似程序的创意标签式浏览的好处是你可以很容易地在新标签中打开链接，以便以后阅读。一个同时自动打开几个链接的程序可能是执行以下操作的一个很好的快捷方式：在亚马逊等购物网站搜索后，打开所有产品页面。...(name) 匹配标签名称的元素（不区分大小写；元素匹配'a'和'A' 除了*_by_tag_name()方法，所有方法的参数都区分大小写。...能够以编程方式下载网页会将您的程序扩展到互联网。requests模块使下载变得简单，有了 HTML 概念和选择器的一些基本知识，您就可以利用BeautifulSoup模块来解析您下载的页面。...2048 这是一个简单的游戏，你可以用箭头键向上、向下、向左或向右滑动来组合方块。通过一次又一次地以向上、向右、向下和向左的方式滑动，你实际上可以获得相当高的分数。

8.7K7 0

Python爬虫抓取唐诗宋词

一说明 Python语言的爬虫开发相对于其他编程语言是极其高效的，在上一篇文章爬虫抓取博客园前10页标题带有Python关键字（不区分大小写）的文章中，我们介绍了使用requests做爬虫开发，...它能处理简单的任务，也是入门爬虫最简单的方式。...: 2020/7/23 5:58 下午 # @Author : Albert Ma # @File : test1.py import requests from bs4 import BeautifulSoup...tangshisanbaishou_' + i + '_0__0.html' r = requests.get(url) demo = r.text # 服务器返回响应 soup = BeautifulSoup...(demo, "html.parser") """ demo 表示被解析的html格式的内容 html.parser表示解析用的解析器 """ html1 =

6001 0

从零开始学正则

正则表达式就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，并让计算机用这个规则去检索符合规则的文本。...比如要匹配html的标签可以这样写：，表示要完全匹配正则里第一个 () 里的规则的内容，比如第一个 () 里的表达式匹配了body，那\1的部分也要完全匹配body捕获组 () 最多9个， \1 ~ \..._、数字或字母的简写表示_、数字或字母 '_123ABC..:‘'.replace(/\w/g,'Q')---"QQQQQQQ..:‘" 简写是区分大小写，那么大写啥意思？...图片文件名的形式为：名称.后缀名，其中名称可以是任意的字符串，但不能为空；后缀名可以是jpg,jpeg,bmp,png和gif，不区分大小写⑤ 承接上题，把匹配的图片文件名里的“名称”和“后缀名”部分取出来...图片文件名的形式为：名称.后缀名，其中名称可以是任意的字符串，但不能为空；后缀名可以是jpg,jpeg,bmp,png和gif，不区分大小写 /^\w+\.

1.3K8 0

如何使用WWWGrep检查你的网站元素安全

Header名称和值同样也可以通过这种方式实现递归搜索。功能介绍使用递归选项在目标站点上搜索名为“username”或“password”的输入字段，快速定位登录页面。...python3 wwwgrep.py 依赖组件（pip3 install -r requirements.txt） - Python 3.5+ - BeautifulSoup...将URL递归限制到目标中提供的域 -ra --recurse-any 允许递归扩展到目标域之外 Matching Criteria -i --ignore-case 执行不区分大小写的匹配（默认为按大小写...搜索响应Header值以查找与搜索规范的特定匹配项工具使用样例递归查找站点上名为login的所有输入字段，匹配不区分大小写： wwwgrep.py -t https://www.target.com...do” -rr 查找特定网页上的所有注释： wwwgrep.py -t https://www.target.com/some_page -i -sc “” 使用站点递归方式查找input.txt文件中包含的

3.7K1 0

JavaScript CSS Style属性对照表「建议收藏」

大家好，又见面了，我是你们的朋友全栈君。为了达到某种特殊的效果我们需要用Javascript动态的去更改某一个标签的Css属性。...JavaScript CSS Style属性对照表盒子标签和属性对照 CSS语法 (不区分大小写) JavaScript语法 (区分大小写) border border border-bottom...CSS语法 (不区分大小写) JavaScript语法 (区分大小写) background background background-attachment backgroundAttachment...CSS语法 (不区分大小写) JavaScript语法 (区分大小写) display display list-style-type listStyleType list-style-image...fontStyle font-variant fontVariant font-weight fontWeight 文本标签和属性对照 CSS语法 (不区分大小写) JavaScript语法 (区分大小写

5034 0

快速入门网络爬虫系列 Chapter07 | 正则表达式

在说正则表达式之前，先说以以下网页结构根据网站的组成结构，网站可以分为以下两种一、网页介绍 1、网站静态网站：纯粹采用HTML语言编写，内容不变动态网站： ①服务器段动态生成：使用...：文件内容(受标签影响的文本) ?...HTML的标签数： ? HTML文件的内容均包含在标签中：嵌入标签的内容作为HTML的头嵌入标签的内容为文件的内容主题 ?...3、从网页中提取数据借助Python网络库，构建的爬虫可以抓取HTML页面的数据从抓取的页面数据中提取有价值的数据，有以下方式：正则表达式 lxml BeautifulSoup 二、正则表达式...5、非捕获组和捕获组非捕获组是指以(?)开头的分组组，它不捕获文本，没有分组编号，也不针对组合计进行计数捕获组会默认把括号里的文本捕获过来以供下次使用。

1.2K1 0

python_爬虫基础学习

header中猜测的响应内容编码方式 r.apparent_encoding 从内容中分析出的响应内容编码方式（备选编码方式） r.content HTTP响应内容的二进制形式...('中文','html.parser') 11 print(soup.p.string) #以[获取标签的非属性字符串/注释]输出标签 12 ''' 13 中文 14 ''...' 15 print(soup.p.prettify()) #以HTML格式输出标签 16 ''' 17 18 中文 19 20 ''' 信息组织和提取：{0.3.py} 信息的标记...，定义相关的键，但无论如何都要用冒号和花括号来区分结构体和键值对 YAML实例（YAML简洁、明了） firstName : Tiam lastName : Song...实例： 1 import requests 2 from bs4 import BeautifulSoup 3 '''#提取HTML中所有的URL链接 4 1、搜索到所有的标签（a标签的内容即

1.8K2 0

检索匹配的利器：正则表达式

比如，还是上面的那个过滤HTML中div标签的例子，如果我们只想过滤出第一个div标签里的内容，而不想要div标签，该怎么实现呢。...先来看一下常用的模式修饰符： modifier 作用 (?i…) 不区分大小写 (?-i…) 取消不区分大小写 (?s…) 点号通配模式 (?...i…) 不区分大小写 有的时候我们想匹配某些字母，但是不区分大小写，比如我们想匹配字母‘ABCDabcd’，最直观的，我们可以这样写： [abcdABCD] //最直白的正则。。 ...i:)里面的字符，不区分大小写，全部匹配 2. (?-i…) 取消不区分大小写 这个更简单，就是在上面那个符号内范围内，如果你想局部区分大小写，可以用这个。不举例了~ 3. (?...UTF-8支持的字符范围和Unicode一样广泛，并且能够区分Unicode字符和ASCII字符，变长编码的方式也使得其存储效率较高，因此在编程中广泛被使用。

4K10 3

爬虫之数据解析

数据解析有三种方式，一是通过正则表达式，在python中就是利用re模块；二是xpath；三是利用BeautifulSoup。　　...re.I : 忽略大小写 re.M ：多行匹配 re.S ：单行匹配 re.sub(正则表达式, 替换内容, 字符串) 　　三、xpath 　　1，常用表达式属性定位：...，而且是一种让人很头疼的反爬机制。　　...=re.compile(r'\s',re.S) #这是循环每个li标签，这里拿到的每个li标签还是一个BeautifulSoup对象，一样拥有find、find_all等方法，对每个li标签处理拿到每个房源的各种信息...都是针对标签的解析方式，意思就是字符串得是一个标签字符串，其次是要先找到标签，然后获取标签的某个属性值　　2，xpath和BeautifulSoup找的标签，依然是一个对象，意思就是同样可以用那些方法

1K2 0

用BeautifulSoup来煲美味的汤

谁能知道那么厉害的Java竟然是开发者在楼下觉得味道不错的一种咖啡的名字呢，哈哈哈哈。算了，我们不纠结这个问题了，我们还是开始介绍它的安装和使用吧。话不多说，走你！...（标签内包括的字符串），在BeautifulSoup中可以采用.string的方式来直接获取标签内的字符串。...但是这里有一个疑问，就是我们通过这种方式可以得到字符串，但是如果我们获取了字符串，我们反过来是不知道这个字符串是Comment注释，还是正常的标签内的文本。...contents contents可以将标签所有的子节点以列表形式返回。...，比方说不止一个title的时候，你还采用soup.title这种方式是不是太慢了，你需要区分那些title的不同，还需要全部输出，用contents直接一步完事，超级easy。

1.8K3 0

初学指南| 用Python进行网页抓取

几乎所有的大型网站，像Twitter、Facebook、Google、Twitter、StackOverflow都提供API以更为结构化的方式访问该网站的数据。...不幸的是，并不是所有的网站都提供API。一些网站是不愿意让读者通过结构化的方式抓取大量的信息，另一些网站是因为缺乏相关的技术知识而不能提供API。在这样的情况下，该怎么做？...可以在它的文档页面查看安装指南。 BeautifulSoup不帮我们获取网页，这是我将urllib2和BeautifulSoup 库一起使用的原因。...DOCTYPE html>：html文档必须以类型声明开始 2.html文档写在和标签之间 3.html文档的可见部分写在和标签之间 4.html...现在，为了只显示链接，我们需要使用get的“href”属性：遍历每一个标签，然后再返回链接。 ? 4.找到正确的表：当我们在找一个表以抓取邦首府的信息时，我们应该首先找出正确的表。

3.7K8 0

聊聊 Chrome 新增的 sizes=auto 属性

" i]：选择具有 sizes 属性且其值为 auto（不区分大小写）的 img 元素。...[sizes^="auto," i]：选择具有 sizes 属性且以 auto, 开头（不区分大小写）的 img 元素。...顺便说一下，CSS 中的伪类 :has 被称为“父选择器”，但目前并没有广泛支持，因此这个选择器可能无法在所有浏览器中正常工作。另外，i 标记表示进行不区分大小写的匹配。...响应式图像自然尺寸的设定可能会让人意想不到的复杂，但实际上：有许多方式可以让已加载资源的自然尺寸影响其对应的的布局尺寸。...对于为什么选择 300×150，是因为这就是和标签所采取的方式；所有这些元素都会使用这种相对小一些但又不为零的默认尺寸，目的在于鼓励你优化你的布局。

1461 0

ExtractText

在下面的列表中，必需属性的名称以粗体显示。...不匹配行的结束符。也可以通过嵌入的标志(?s)指定。...Enable Unicode-aware Case Folding false truefalse 当与“启用不区分大小写的匹配”一起使用时，以与Unicode标准一致的方式匹配。...不匹配行的结束符。也可以通过嵌入的标志(?s)指定。Enable Literal Parsing of the Patternfalse true false 表示不应赋予元字符和转义字符特殊含义。...Enable Unicode-aware Case Foldingfalse true false 当与“启用不区分大小写的匹配”一起使用时，以与Unicode标准一致的方式匹配。

5463 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云