用Beautifulsoup提取HTML的无标签文本

文章/答案/技术大牛

发布

1回答

、、

我试图提取文本的这一部分，但我不知道怎么做，我在本地处理了几个html文件。编辑:我试过使用这段代码，但有时会打印h1标记from bs4 import BeautifulSoup with open(file) a

浏览 6提问于2016-08-10得票数 1

回答已采纳

2回答

使用BeautifulSoup在标记边界上断开单词

、

我正在尝试用BeautifulSoup将html解析为文本，但我遇到了一个问题:一些单词被没有空格的标签分割：所以当我提取文本时有没有一种简单的方法可以用BeautifulSoup在标签上强制进行单词分隔？也可能是我可以修复一些标签上<e

浏览 13提问于2018-08-10得票数 0

2回答

在BeautifulSoup4，Python3中，如何停止在已找到的标记中递归？

、、

我的html文档看起来如下：<body> outer font我想要提取‘字体’标签之间的所有文本。预期产出：inner font我试过的是： <e

浏览 5提问于2015-05-22得票数 1

回答已采纳

3回答

如何使用BeautifulSoup查找第一个锚标签的文本

、

我有一个这样的HTML结构 <a href="abc.com"> </a> <ahref="xyz.com">comments</a> 我想提取第一个锚标签<em

浏览 1提问于2016-04-28得票数 1

1回答

如何告诉BeautifulSoup将特定标签的内容提取为文本？(不接触它)

、、

我需要解析一个包含"code“标签的html文档。我得到的代码块如下：code_blocks = soup.findAll('code') List<Person> persons = new List<Person>();

浏览 0提问于2011-02-07得票数 4

回答已采纳

2回答

从包含br标记的td标记中提取文本

、、

我想从td标签中提取包含br标签的文本。from bs4 import BeautifulSoupsoup= BeautifulSoup(html, '

浏览 0提问于2018-03-14得票数 1

回答已采纳

1回答

BeautifulSoup :从html标记中提取/解析数据

、、、

我试图使用Python代码中的Beautiful从url中提取体育数据。这个数据源的问题是数据出现在html标记中。具体来说，这个标签的标题是"“返回:无如何从"“html标记中提取这些数据。在此之后，我希望将其保存为XML文件，或者更好的是，CSV文件将是理想<e

浏览 5提问于2021-04-08得票数 0

回答已采纳

3回答

如何提取带有标签的标签内的文本？

、

我想使用beautifulsoup解析html页面。我希望在不删除html标签的情况下提取标签中的文本。Router link not working样本输出：我试过这样做： from bs4 import Beautiful

浏览 10提问于2019-10-11得票数 2

回答已采纳

3回答

如何解析html文件中的文本

import urllib2from HTMLParser import HTMLParser l = ""TransMembrane prediction using Hidden Markov Models: <a href="http://tuberculist.epfl.ch/tmhmm/Rv3676.html><big>Genomic sequence<&#

浏览 3提问于2016-10-04得票数 1

回答已采纳

1回答

从html文档中提取标记内的文本

、、、、

我有一个类似于这样的html文档：，所以我需要在标记<span id="1“和</span内提取文本，但我不知道如何提取。我试着写这段代码： soup = BeautifulSoup(fp,features="html.parser") for

浏览 5提问于2021-05-19得票数 3

回答已采纳

3回答

用BeautifulSoup提取标签中的文本

、、、、

Putonghua </div> 我想提取第5行中的“男性”，但我不知道怎么做。

浏览 8提问于2016-09-05得票数 0

回答已采纳

2回答

Python BS4美汤HTML.Parser在网站上不起作用

、

我有Python3.7代码，尝试从以下网站()提取足球统计数据。看起来我在BS4美丽汤中使用的超文本标记语言解析器根本没有提取网站中的任何标签。我首先尝试提取特定的标签，比如表示主队和客队的两个不同的div标签，以及包含球员姓名的标签。当这呈现了一个空的标签列表时，我只是简单地尝试提取该网站上

浏览 26提问于2019-07-13得票数 2

回答已采纳

2回答

如何提取bs4.element.Tag的第一个元素？

、、

我想提取在自以为是之前的数字，我可以找到包含它的span，但我无法检索它。-- --> opiniones}] 如何提取评论数量中的数字？

浏览 5提问于2021-10-29得票数 0

回答已采纳

1回答

如何从网页上的特定部分中提取链接

、、

有没有办法从html检查器中提取所有部分的链接(我用红色圈出的地方)，它看起来像是在"performance-section“类下面，也在"heading”类下面。我的想法是从“性能部分”开始，最后到达"a“标签href以获得链接。 ? ? 我尝试使用下面的代码，但它给我的结果是“无”。我停在这里，因为如果我在得到"a“标签之前就已经没有得到任何东西，那么我认为继续下去

浏览 28提问于2021-10-02得票数 0

回答已采纳

1回答

在使用lxml剥离html标记时插入空格

、、、

当我剥离标签并使用lxml提取文本时，我希望在结果文本中插入空格。import lxml return str(lxml.html.fromstring(s).text_content())strip_html("This what you want.&

浏览 1提问于2022-04-13得票数 0

回答已采纳

2回答

一种带有美汤的咏叹调标签的数据采集

、、、

从下面，我试图提取分析师的价格目标。我对咏叹调标签里的信息很感兴趣。我尝试使用以下设置在网上找到多个版本的BeautifulSoup：from bs4 import BeautifulSoupr = requests.get(url, headers=headers) soup = BeautifulSoup(r.text, '

浏览 3提问于2021-02-17得票数 0

回答已采纳

1回答

(Python、BeautifulSoup)创建或修改不带锚点标记的锚点文本列表

、、、、

我是Python的新手，我正在尝试构建一个从网站提取一些文本并将其粘贴到Google电子表格中的脚本。文本是用标签包装在网站上的标题。我使用BeautifulSoup (也导入了pygspread )来提取标题，如下所示： target_url = 'WEBSITE URL' r = requests.get(target_url)soup = BeautifulSoup(r.

浏览 16提问于2019-12-24得票数 0

回答已采纳

1回答

如何从Beautiful Soup中的嵌套标签中提取文本？

、、、

我希望网络抓取谷歌的结果，并希望获得出现的第一块信息。如何指定要从中提取文本的特定HTML路径？import requestsfrom bs4 import BeautifulSoup suffix = "Weather"results = requests.get(url) # Extract all conten

浏览 0提问于2019-06-25得票数 0

1回答

利用优美汤提取span标签

、

我试着用漂亮汤来提取跨度标签，代码没有输出。soup = BeautifulSoup(html, "html.parser")for tag in tags:标签：<tr><

浏览 7提问于2021-12-26得票数 0

回答已采纳

1回答

使用python从html中提取&lt和&gt

、、

我有一个UTF-8编码的HTML，如下所示。我想用python和bs4从这里提取OWNER，NVCODE，CKHEWAT标签。但是<>被转换为<和>我不能从OWNER，NVCODE，CKHEWAT标签中提取文本。请指导我从这些标签中提取文本。 <?xml version="1.0" encoding="utf-8"?><htm

浏览 37提问于2019-03-23得票数 0

点击加载更多