如何在BeautifulSoup中检索html标记的一部分？

、、

我正在尝试使用python获取一篇网站文章的纯文本。我听说过BeautifulSoup库，但是如何在html页面中检索特定的标记呢？这就是我所做的： base_url = 'http://www.nytimes.com'soup = BeautifulSoup(r.text,"html.pars

浏览 14提问于2021-01-27得票数 1

回答已采纳

1回答

如何通过Python BeautifulSoup中的特定文本找到标记？

、、、

您知道如何在pythons BeautifulSoup中搜索特定的文本吗?查找标记？？更好的标记完整路径，包含一些string。例如，BS4的常用用法是：from bs4 import BeautifulSoup website = requests.get(ur

浏览 4提问于2022-09-04得票数 0

回答已采纳

1回答

BeautifulSoup，检索<td>标记的所有子<a>标记的文本

、、

我想检索页面中所有<a>标记的文本，这些标记位于<td>标记中。这里是Html源代码的一部分， <a href="https://random.com"></a> </td&g

浏览 0提问于2017-05-21得票数 0

回答已采纳

2回答

、

这是我用来从网页中提取这个标签的代码： director = movies[0].find_all("a") 我想使用BeautifulSoup从下面的HMTL标记中提取导演Frank Databont

浏览 26提问于2021-10-15得票数 0

回答已采纳

1回答

使用BeautifulSoup清理和删除标记

、、、

到目前为止，我有以下脚本：from BeautifulSoup import BeautifulSoupimporturllib2 br.open("http://www.foo.com") <b><span class="pai

浏览 0提问于2010-06-30得票数 0

回答已采纳

2回答

用BeautifulSoup或Regex解析无效锚标记

、、、、

我希望解析包含html锚标记的原始文档，但不幸的是它包含无效标记，如：我知道href值可能不是一个实际的链接，但让我们把它留在这里吧现在我需要的是检索href值'A 4"drive bay'和链接文本'some text here'。

浏览 4提问于2012-05-07得票数 0

2回答

如何从以下HTML代码中提取文本？

、、、

我正在为一个DS项目做web抓取，我使用BeautifulSoup来实现这个目的。但我无法从"table“类中的"tbody”标记中提取持续时间。以下是HTML代码： <table class="table"> <tr>

浏览 7提问于2020-05-26得票数 0

回答已采纳

1回答

美汤结果缺失的部分

、

我试图在下面的html代码中检索几个<p>标记。这里只是它的一部分 <a class="fBlackLink"></a> <span> … </我的Python代码如下 soup = Beautifu

浏览 3提问于2013-09-04得票数 9

回答已采纳

3回答

如何使用BeautifulSoup删除嵌套标记中的内容？

、、、

如何使用BeautifulSoup删除嵌套标记中的内容？这些帖子显示了反向检索嵌套标记中的内容：和>>> from bs4 import BeautifulSoup as bs >>> html = "<foo>Somethingsomething <bar> blah blah<&#x

浏览 0提问于2014-02-13得票数 3

回答已采纳

1回答

从网站请求完整的javascript呈现html源，并找到所有iframe标记。

、、、、

我目前正在尝试使用selenium和BeautifulSoup从一个网站检索所有iframe标记。问题是，我没有得到所有的iframes，因为网页中有BS4没有搜索的内部html文档，而且我也不认为javascript是在HTML中执行的，所以可能有一些HTML元素没有被呈现。是否有一个web刮取工具，允许我请求一个url，检索完整的js呈现的HTML文件，然后搜

浏览 2提问于2017-11-11得票数 3

回答已采纳

2回答

BeautifulSoup4:打开URL的FileNotFoundError

、

我正在使用BeautifulSoup4抓取一个站点。以下是我所拥有的内容的精简版本： soup = BeautifulSoupid=11325") File "SquashScraper.py", line 21, in getTeamRoster s

浏览 2提问于2015-06-02得票数 2

3回答

Beautifulsoup4删除<span>标记

、、、

我正在使用这一行从网站上抓取信息这给了我这个结果：出于某种原因，当我试图拆开它时，它给了我这个而不是8.668

浏览 4提问于2014-04-03得票数 0

回答已采纳

1回答

如何删除漂亮对象中的所有标记，而不删除特定的标记，如<strong>或<em>？

、、

给定以下html，如何在BeautifulSoup中删除除样式标记(如<strong>或<em> )之外的所有标记？ <ol class="journal"> <li>A.19597-w" rel="nofollow" target="_blank">10.1038/s41467-020-19597-w<&#x

浏览 9提问于2020-12-01得票数 0

1回答

python - html* -如何更改标记的结束部分的位置/移动整个部分*

、、

我想通过从一个地方移除并放置到另一个地方来改变标签结束部分的位置。我尝试使用BeautifulSoup，但是函数似乎在整个标记上工作。我不知道如何移动标签的一部分，比如</div>，而不破坏标签的后续部分。如何更改标记的结束部分的位置html = """ <body>

浏览 0提问于2018-11-29得票数 0

回答已采纳

3回答

如何在BeautifulSoup中添加已删除标记周围的空间

、、、

from BeautifulSoup import BeautifulSoup Poem <a href="http://famouspoetsandpoems.com(html)for p

浏览 4提问于2015-06-30得票数 10

回答已采纳

1回答

用BeautifulSoup验证HTML

、、

我使用BeautifulSoup 3.2.1解析了许多eTranslation翻译的文件。我发现soup = BeautifulSoup(html_file, "html.parser")有时会剪掉我的HTML文件的一部分。它与无效标记或HTML中发现的问题有关。此外，我发现soup = BeautifulSoup(html_

浏览 5提问于2022-09-27得票数 0

回答已采纳

2回答

如何防止BeautifulSoup自动关闭看起来像标签但不是标签的东西？

、、

我使用BeautifulSoup来转义任意文本集中的所有HTML标记(除了一组预先批准的标记，如a)。但是，我只想让它在标记是实际有效的HTML标记时对它们进行转义。如果某个东西看起来像一个标记，但它不是，它最终会添加一些HTML来关闭它，这是我不想要的。示例:如果有人输入文本<integer>，我的代码最终会输出&

浏览 0提问于2012-01-14得票数 2

回答已采纳

3回答

用BeautifulSoup在HTML中搜索和替换

、

我知道如何用urllib2打开，然后解析以提取所有的<a>标记。我想要做的是搜索并用结束标记替换结束标记加上中断。任何帮助，非常感谢。我认为这将类似于：find(text="ahh").replaceWith('Hooray')soup.findAll(tag = '</a>').re

浏览 0提问于2010-01-15得票数 13

回答已采纳

2回答

美丽的汤选择google图像返回空列表

、、

我想使用从BeautifulSoup检索信息。我检查了许多堆栈溢出帖子(、、、、)，但仍然无法检索信息。我希望每个瓷砖(图片)的(li)信息，如href，然而，find_all和select one返回空列表或无。下面是我尝试过的。import requests from bs4 import Beau

浏览 14提问于2021-12-05得票数 3

回答已采纳

4回答

获取特定行的内容

、、、

我想要定位文本是'xyz‘的'td’，这样我就可以在行中找到其他属性。我只带了'xyz‘，并希望获得该行中的其他元素。. .

浏览 0提问于2019-05-31得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用beautifulSoup检索html标记内容

如何通过Python BeautifulSoup中的特定文本找到标记？

BeautifulSoup，检索<td>标记的所有子<a>标记的文本