BeautifulSoup通过html标签中的2个术语查找文本-Python3

文章/答案/技术大牛

发布

0回答

、、、、

我试图从一个html文件中抓取一些文本，但是我需要两种不同类型的文本，它们的标签中有一个术语(contextref)，例如： 1) <ix:nonfraction contextref="cfwd_30numdotdecimal" scale="0" xmlns:ix="http://www.xbrl.org/2008/inlineXBRL">

浏览 0提问于2017-01-03得票数 0

1回答

匹配网页html代码中任何位置的列表中的字符串，包括内部标记、注释等

、

我有一个字符串术语列表，例如mylist = 'herring'，'wix.com'，‘解决方案’，我正在试图找出这些术语中的任何一个是否存在于我在一个单独列表中的任何一个网站的html代码中，包含在html我能够使用请求和BeautifulSoup下载和解析网站，但我正在努力完成上面的任务。我之所以想这么做，是因为它并不总是显而易见的，确切

浏览 2提问于2020-12-02得票数 0

回答已采纳

1回答

如何使用Python查找包含特定文本的特定html行

、、、

我正在通过HTML查找存储在一行中的名称值对。我不知道如何在漂亮的soup find命令中指定要搜索的文本。from bs4 import BeautifulSoup <tr> <td> 112120<

浏览 111提问于2018-08-02得票数 0

回答已采纳

3回答

需要帮助解析python3中的html，对于xml.etree.ElementTree来说格式不够好

、、、

我到处都收到不匹配的标签错误。我不确定为什么，这是craigslist主页上的文本，我看起来很好，但我还没有看得够彻底。有没有更好的东西可以让我使用，或者这是我用标准库解析html的最佳选择？

浏览 0提问于2011-02-13得票数 3

2回答

Python:从html文件中获取和解析文本

、、

我正在尝试做一个关于页面排名的项目。我想做一个索引(字典)，看起来像这样：file2.html -> [狗，叫，跑，文件1.html，文件4.html] 获取链接很容易-查找锚点标记。我的问题是-如何获取文本？html文件中的文本

浏览 0提问于2010-10-17得票数 0

回答已采纳

7回答

Python/BeautifulSoup -如何从元素中删除所有标签？

、

如何才能简单地从BeautifulSoup中找到的元素中剥离所有标记？

浏览 1提问于2013-04-25得票数 88

2回答

我需要使用漂亮汤python从类标记中检索数据，而内部标记中没有数据。

、、

我只需要得到“显示131个广告中的1-25”部分使用美丽汤库。

浏览 0提问于2019-02-12得票数 0

1回答

为了实践，我一直在学习Python和BeautifulSoup的web抓取。我要做一个程序，可以找到一个网站上的团队页面，并抓取团队成员的名字。我如何浏览一个网站的主页，找到一个“团队”，或者任何有特定主题的页面呢？这和查找联系人页面的问题是一样的，你如何让抓取器找到它呢？这是我的代码的完整部分：(这只是加载站点) #Pre: url is a string containing the address of

浏览 1提问于2017-04-09得票数 0

2回答

解析HTML以检索术语

、、

所以，现在我有了一堆被爬行的URL。我需要创建一个使用向量空间的索引，或者至少一个HTML中所有术语的列表。如何解析该网页中的所有术语？我有点不明白，我应该在特定的标签之间获取文本，或者其他的东西，或者我应该使用哪个库？我完全迷路了。下面是我需要对HTML所做的事情：您可以在线使用html解析器，但原则上

浏览 0提问于2018-12-08得票数 1

回答已采纳

1回答

如何使用美汤在标签之外查找和更改文本？

、、

我有一个这样的文件：我想要在tag1之外提取字符串，并用漂亮的汤将其更改为如下所示：如何用beautifulSoup替换标签外的单词？

浏览 2提问于2017-08-18得票数 1

2回答

带有正则表达式的Python BeautifulSoup find_all与文本不匹配

、、、、

Shop prog = re.compile('\s*Shop\s*') print(soup.find_all("a&qu

浏览 28提问于2020-04-30得票数 0

回答已采纳

1回答

美汤在源文件中找到标签的位置？

、、

我正在使用BeautifulSoup从HTML文件中提取信息。我希望能够捕获信息的位置，即在HTML文件中的标签，BS标签对象的偏移量。有没有办法做到这一点？我目前使用的是lxml解析器，因为它是默认的。

浏览 22提问于2018-03-03得票数 0

回答已采纳

1回答

如何使用BeautifulSoup查看闭合标签的总数？

、

下面的代码检查是否有一个以上的打开html标签， <html> </html>""" soup = BeautifulSoup(invalid, 'html.

浏览 0提问于2014-03-02得票数 1

2回答

Python BeautifulSoup -在找到的关键字周围添加标签

、、、、

我目前正在做一个项目，在这个项目中，我希望允许在大量HTML文件中/对其进行正则表达式搜索。然而，我也想在我找到的关键字周围添加我自己的-Tags。使用BFSoup提供的find()-functions

浏览 0提问于2013-02-02得票数 2

回答已采纳

3回答

使用bs4进行超文本标记语言解析

、

我正在解析一个HTMl页面，并且很难弄清楚如何在没有类或id的情况下拉出某个'p‘标签。我正在试着用lat和long来达到'p‘的标签。下面是我当前的代码： from urllib import urlopen as uReq #this opens the URL my_

浏览 0提问于2018-04-03得票数 4

回答已采纳

4回答

使用BeautifulSoup从img标签中提取源属性

、、

div class="someClass"> <img alt="some" src="some"/></div> 我想使用BeautifulSoup从图像(即img)标签中提取源(即src)属性。

浏览 1提问于2017-05-15得票数 50

4回答

如何使用Beautiful soup查找没有兄弟姐妹的P标签

、、

一些标签有<img>标签和<h4>标签，但我只想要那些标签，其中没有兄弟标签在它只是内容。 <img src="any url"/> hello world 我想要没有使用漂亮汤的<img>标签的<

浏览 8提问于2019-01-28得票数 2

1回答

有关请求url响应404的问题，但在浏览器和刮取标记中成功。

、、、

我试图在上刮网站上的标签。我可以在Chrome上成功地打开url，但是当在Python3中使用Python3时，它显示的是404 error。这是我的代码：from bs4 import BeautifulSoup url = "https://vote4.hk/zh/district/2019/A04"r = requests.get(

浏览 3提问于2019-11-14得票数 1

回答已采纳

2回答

在beutifulsoup中查找字符串

、、

我正在搜索紧接在我想要的标签之前的文本City：城市和州字符串。下面是html： <a href="/city/New-York-New-York.html">New York, NY</a>zipCode = str(11021) url = "http://www.city-data.com/z

浏览 1提问于2013-12-02得票数 0

2回答

在BeautifulSoup中，如何在一个元素中搜索另一个元素？

、、、

我使用的是Django 2，Python3.7和BeautifulSoup 4。我有下面的代码，它应该在一个元素中找到一个元素……html = urllib2.urlopen(req, timeout=settings.SOCKET_TIMEOUT_IN_SECONDS).read()patte

浏览 20提问于2020-03-03得票数 0

回答已采纳

点击加载更多