BeautifulSoup是否支持自定义html标记？

文章/答案/技术大牛

发布

2回答

、、、、

我正在尝试建立一个youtube- playlist -downloader，其中包括使用BeautifulSoup抓取播放列表的网页以获取视频的hrefs。因此，我尝试运行以下python脚本 html = urllib.request.urlopen(url).read() soup = BeautifulSoup(html, "html.parser

浏览 33提问于2019-12-04得票数 0

3回答

如何从带有负正则表达式的bs4字符串搜索中排除标题标记

、、、、

我想使用bs4搜索带有特定字符串的第一个标记，并将标题标记排除在搜索中。根据bs4文档，它支持正则表达式。#!/usr/bin/env pythonimport re <html> <title>>soup

浏览 0提问于2017-12-01得票数 0

1回答

BeautifulSoup .select()方法是否支持regex的使用？

、、、

假设我想使用BeautifulSoup解析一个html，而我希望使用css选择器来查找特定的标记。我会通过这样做来“使它更深奥”soup = BeautifulSoup(html)如果我想在当前标签下找到所有的"a“子标记，我们可以这样

浏览 2提问于2014-11-21得票数 2

1回答

在Quill setHTML中包括样式

、、、

我正在尝试将HTML插入到quill编辑器中。HTML可以在样式标记中包含自定义样式。Quill正在用HTML中的span标记替换所有的样式标记，例如，本文中的一个测试：testStr += "<html><head><style type=\"text" Quill在其“编辑器

浏览 7提问于2015-03-18得票数 1

回答已采纳

2回答

用BeautifulSoup保存源html实体

、、

当我用BeautifulSoup解析它时，有什么方法可以在源代码中持久化它吗？from bs4 import BeautifulSoup另外，当将那些保存下来的html实体写回一个文件时。f.write(str(soup))会这么做吗？下面的代码意味着生成一个与原件相同的副本，而当前该副本并不是： from bs4

浏览 11提问于2022-09-07得票数 0

1回答

在BeautifulSoup中解析MS特定的html标记

、、

当试图解析使用MS发送的电子邮件时，我希望能够去掉它添加的恼人的Microsoft标记。其中一个例子是o:p标记。当试图使用Python的BeautifulSoup将电子邮件解析为HTML时，它似乎找不到这些特殊标记。例如：<html> <title>Something to pa

浏览 0提问于2018-02-14得票数 2

回答已采纳

2回答

在使用BeautifulSoup进行解析时，如何考虑元素的祖先？

、、、

我使用的是Python3.7、Django和BeautifulSoup。我目前正在我的文档中查找包含文本"Review“的"span”元素。我是这样做的 rev_elts = my_soup.find

浏览 0提问于2019-04-05得票数 1

3回答

漂亮汤CSS选择-找一个标签，其中没有一个特定的属性(针对ex的样式)

、、、

问题:在上述两个选项中，我都希望能够得到最后一个span标记($195或$199)，而不关心$299。基本上，我只是想提取最终的销售价格，而不是原来的价格。所以我现在知道的两种方式是：现在，我知道not操作符，bs4中没有(只有n-of type可用)，所以我被困在这里了。

浏览 4提问于2017-05-28得票数 1

2回答

我有一个网站更新程序(人们可以更新内容(文本)，而不是网站的外观)，它有HTML，javascript作为前端语言，python作为后端/服务器端。我发现从前端更新HTML非常困难，因为当我从ele.innerHTML或$(Ele)获取更新的HTML时，.html()会根据浏览器(该死的IE)进行修改。您认为解析HTML和抓取信息的最好的python模块是什么？我的要求是：该模块至少在Python2.5或更低版本(因为我的主机)中是，我将解析&查找类的所有HTML元素

浏览 8提问于2011-10-04得票数 5

回答已采纳

1回答

使用Python从本地HTML文件创建具有名称和ID的CSV表

、

我是一个新手，尝试使用Python从本地HTML文件中获取数据，以提取名称，并将ID保存为CSV文件中的表。HTML如下： <a href="https:............" data_id="45498" class="roster_user_name ......

浏览 1提问于2022-01-09得票数 0

2回答

当xml标记名包含大写字母时，BeautifulSoup引发AttributeError。

、、、

我正在尝试获取标记Name的所有XML属性。获取此错误：当我执行以下代码时：<Name ID="57" Value="Switches" langid="1"/> </Category&g

浏览 3提问于2014-02-04得票数 1

回答已采纳

3回答

BeautifulSoup 3.1解析器太容易崩溃

、、、

</BODY>BeautifulSoup在<HTTP-EQUIV...>标记之后放弃了<html> <title> </title></html> 问题很明显是HTTP

浏览 10提问于2009-01-19得票数 4

回答已采纳

1回答

用BeautifulSoup验证HTML

、、

我使用BeautifulSoup 3.2.1解析了许多eTranslation翻译的文件。我发现soup = BeautifulSoup(html_file, "html.parser")有时会剪掉我的HTML文件的一部分。它与无效标记或HTML中发现的问题有关。此外，我发现soup = BeautifulSoup(html_file, "lxml")在编写不好的HTML的情况

浏览 5提问于2022-09-27得票数 0

回答已采纳

1回答

使用python (bs4)获取不位于段落括号之间的第一个常规链接

、

= end: response = session.get(url) body = d.find('div',id = "bodyContent") while

浏览 7提问于2022-05-15得票数 1

回答已采纳

2回答

JSON作为Flex超链接翻转中的HTML数据

、、、、

我使用JSON在Flex中解析带有自定义HTML标记的html数据。Flex对HTML的支持非常少，所以我想知道是否有可能在这些链接上做一个简单的字体颜色更改滚动效果。目前我发现Flex只支持几个HTML标签，但也通过Flex的whack方法支持CSS。我可以通过外部CSS文件操作JSON文件中编写的HTML吗？或者对JSON文件使用简单的标记更好？

浏览 1提问于2010-02-18得票数 1

回答已采纳

1回答

当包含在jekyll站点中时，呈现为html的熊猫数据会奇怪地显示出来(带有文字标记)。

、、、

iPython笔记本，test.ipynb，并运行它：

浏览 3提问于2017-01-30得票数 0

回答已采纳

1回答

美丽的汤不能删除所有的脚本标签

、、、

我在玩bs4，我试着用刮，网站如下：和我想从html中删除所有的脚本标记。它们都有相同的用途，但是它们没有删除脚本标记，例如：<script src="/lib/waves.js"></scriptvar disqus_config = function () { this.page.url = &

浏览 0提问于2021-05-25得票数 1

回答已采纳

1回答

美汤在源文件中找到标签的位置？

、、

我正在使用BeautifulSoup从HTML文件中提取信息。我希望能够捕获信息的位置，即在HTML文件中的标签，BS标签对象的偏移量。有没有办法做到这一点？

浏览 22提问于2018-03-03得票数 0

回答已采纳

1回答

BeautifulSoup:如何忽略虚假的结束标记

、、、

我读过很多关于BeautifulSoup的好东西，这就是为什么我现在正试图用它来刮一组格式错误的HTML的网站。不幸的是，BeautifulSoup的一个特性就是目前的展示障碍：当BeautifulSoup遇到一个从未打开的结束标记(在我的例子中是</p>)时，它决定结束文档。而且，在本例中，find方法似乎没有搜索(自诱导的) </html>标记后面的内容。这意味着当我感兴趣的块恰好在虚假结束标记后面时，

浏览 1提问于2015-12-19得票数 7

回答已采纳

1回答

为什么我没有得到解析器是明确指定的。在代码中要做哪些更改？

、

from bs4 import BeautifulSoupsoup = BeautifulSoup(""<html>data</html>"") 得到这个警告:将BeautifulSoup(您的标记)设置为:BeautifulSoup(您的标记</em

浏览 2提问于2017-05-01得票数 0

点击加载更多