使用html.parser提取文本/解析文本(Python)

、、

我想从html文件中提取文本，特别是从<p>和<h1>标记中提取文本。我确实看到了python文档中有关此主题的代码:来自html.parser导入HTMLParser class MyHTMLParser(HTMLParser): def handle_starttag</h1></body></html>') 但我不确定如何从这里开始，以便只提取某些标记内的<

浏览 15提问于2020-11-05得票数 1

回答已采纳

1回答

尝试使用python解析html时重定向到主页

、、、、

www.csgolounge.com/api/mathes"data = page.text我尝试使用此代码从获取文本，但每次尝试从页面获取文本时，我都会被重定向到主页，并且我的代码会从主页输出html。我试图抓取的页面是一个.php文件，而不是html或文本文件。我想从页面中获取文本

浏览 0提问于2016-11-02得票数 0

1回答

AttributeError：'str‘对象在使用BeautifulSoup时没有属性’子代‘错误

、、

所以我对Python的使用完全陌生，我只是想打印一个网页的标题。我使用的代码主要来自google：import requests url = "https://www150.

浏览 0提问于2019-06-24得票数 2

1回答

统一码在html.parser中的消失

、、、、

我从一些具有Unicode字符的网页中提取HTML，如下所示： """ Adapted from Python3_Google_Search.py """我使用html.parser来解析超文本标记语言并子类化它：class Parser(HTMLParser): def __init__(

浏览 2提问于2013-05-04得票数 0

1回答

将cp1251 pdf解析为python中的文本

、、、

有什么方法可以用俄文(cp1251)从pdf文件中提取文本吗？对于解析pdf文件，我使用pdfminer包。

浏览 7提问于2015-08-26得票数 1

回答已采纳

3回答

如何使用BeautifulSoup查找第一个锚标签的文本

、

abc.com"> </a> <a href="xyz.com">comments</a></p>下面是我如何使用Beautifulsoup从锚标记中提取文本 soup = BeautifulSo

浏览 1提问于2016-04-28得票数 1

1回答

如何用Python中的BeautifulSoup解析多体标记中的文本？

、、

我想解析这个网站：<span class="sharenumber" id="fb_share_span">2830</span>from bs4 import BeautifulSoup res = requests.get("https://ww

浏览 2提问于2015-12-20得票数 2

回答已采纳

2回答

美丽的汤和表格抓取- lxml与html解析器

、、、、

我正在尝试使用BeautifulSoup从网页中提取表格的超文本标记语言代码。我想知道为什么下面的代码与"html.parser"一起工作，并打印回none，如果我将"html.parser"更改为"lxml"。 #!/usr/bin

浏览 3提问于2014-09-08得票数 14

回答已采纳

2回答

Python BS4美汤HTML.Parser在网站上不起作用

、

我有Python3.7代码，尝试从以下网站()提取足球统计数据。看起来我在BS4美丽汤中使用的超文本标记语言解析器根本没有提取网站中的任何标签。我首先尝试提取特定的标签，比如表示主队和客队的两个不同的div标签，以及包含球员姓名的标签。当这呈现了一个空的标签列表时，我只是简单地尝试提取该网站上的所有div标签，但我仍然得到了一个空列表。下面是我使用的代码：from bs4 impor

浏览 26提问于2019-07-13得票数 2

回答已采纳

2回答

美丽汤UserWarning:没有显式指定解析器

、、

我只想从源代码中提取文本(html代码是div id“col”)。当我只想提取source_code中的文本时，会发出警告。page_response = requests.get(page_link, timeout=5)Warning (from warnings module): File "C:/Users/Emre

浏览 0提问于2019-02-18得票数 1

回答已采纳

2回答

将Python* BeatifoulSoup中的结果保存到文件*

、、

我正在尝试将从Wikipedia URL提取/解析文本的BeatifoulSoup迭代的结果保存到文本文件中。当我迭代我的循环来解析句子时，我没有成功地创建文本文件并添加文本。我想将我的代码输出发送到一个文本文件。打印到屏幕工作正常。希望你能指引我到这里来。en.wikipedia.org/wiki/Santiago" soup = Be

浏览 35提问于2021-08-09得票数 1

1回答

从docx表中提取URL

、、、

我用python3编写了一个解析器，使用python-docx库提取现有.docx中的所有表，并将其存储在python3中。到目前一切尚好。它应该起作用的。未提供url或显示文本。我发现很多人对此也有类似的担忧，但大多数人似乎并没有“只是这样”的两难处境。我考虑解压缩.docx并扫描_ref文档以找到相应的“rid”，并使用在_ref xml中找到的链接填充实际数据。

浏览 4提问于2018-11-12得票数 0

1回答

BeautifulSoup -从JS中提取特定的JSON键值

、、、、

SID is used by the Moving Leads Service我能够通过BeautifulSoup提取

浏览 1提问于2017-05-08得票数 5

回答已采纳

3回答

如何提取带有标签的标签内的文本？

、

我想使用beautifulsoup解析html页面。我希望在不删除html标签的情况下提取标签中的文本。"> </a>'print(soup.text)'Angular2 Ro

浏览 10提问于2019-10-11得票数 2

回答已采纳

1回答

用BeautifulSoup提取文本

、

我正在尝试从一个旧的网页中提取文本，并且遇到了麻烦。检查网页()的来源时，文本开始：我尝试使用以下方法提取文本： link = "http://w

浏览 2提问于2017-11-25得票数 0

回答已采纳

3回答

将PDF转换为.ipynb (从PDF中恢复木星笔记本)

、、

我有一个PDF文件是从木星笔记本创建的，但是原始的.ipynb文件丢失了。有什么工具可以帮助将PDF转换成.ipynb吗？

浏览 2提问于2020-06-24得票数 0

1回答

BeautifulSoup:不可序列化

、

我有其他人为Python 2编写的代码，我将其转换为Python 3： r = self.make_request", line 201, in encode File "/usr/local/lib/python3.5/json/encoder.py", line&

浏览 0提问于2016-09-07得票数 0

1回答

以输入表单和刮页、Python、请求库发送POST数据

、、、

我有问题。我不知道我怎么能发送的文章数据和刮内容的下一页。更好地理解的简单例子：输入：我想要制作

浏览 1提问于2017-04-02得票数 1

3回答

Python循环或输出-仅在我的计算机上

、、

我有一个奇怪的问题，我的计算机对这个python脚本的反应与其他人的计算机不同(我在macOX Mountain Lion python v=2.7上)。

浏览 1提问于2013-04-10得票数 2

回答已采纳

4回答

漂亮的汤类html.parser错误

、

我正在尝试使用BeautifulSoup来解析来自网址的超文本标记语言数据。然而，我一直收到警告： BeautifulSoup([your

浏览 0提问于2016-03-24得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

尝试使用python解析html时重定向到主页

AttributeError：'str‘对象在使用BeautifulSoup时没有属性’子代‘错误

统一码在html.parser中的消失

将cp1251 pdf解析为python中的文本

如何使用BeautifulSoup查找第一个锚标签的文本

如何用Python中的BeautifulSoup解析多体标记中的文本？

美丽的汤和表格抓取- lxml与html解析器

Python BS4美汤HTML.Parser在网站上不起作用

美丽汤UserWarning:没有显式指定解析器

将Python* BeatifoulSoup中的结果保存到文件*

从docx表中提取URL

BeautifulSoup -从JS中提取特定的JSON键值

如何提取带有标签的标签内的文本？

用BeautifulSoup提取文本

将PDF转换为.ipynb (从PDF中恢复木星笔记本)

BeautifulSoup:不可序列化

以输入表单和刮页、Python、请求库发送POST数据

Python循环或输出-仅在我的计算机上

漂亮的汤类html.parser错误

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐