美丽的汤在实际结束前有额外的</body>

、、、

我在我的一个测试用例中发现，当我从一首特定的诗中拉出html时，它会在实际的诗的结尾之前包含一个额外的</body>。我可以在网上查看这首诗的源代码，在诗的中间没有(正如预期的那样)。我用一个特定案例的url创建了一个例子，这样其他人就可以尝试复制这个问题：fro

浏览 4提问于2016-09-19得票数 1

回答已采纳

1回答

如何在python中获取html页面中文本的偏移量

、、

我正在做一个网页抓取，以提取一些文本使用美丽的汤。请提供您的想法和建议... 谢谢

浏览 5提问于2016-06-08得票数 2

2回答

不统计文件中的正确字符

、

我有以下代码，它按预期运行，但在计算字符数和最长行的长度时有一些问题。下面是我的代码： n_chars = 0 n_lines = 0输入如下：美丽的汤，如此浓郁和青绿，在热腾腾的图腾中等待！对于这样的美味，谁不会屈尊呢？晚上的汤</e

浏览 11提问于2018-08-13得票数 0

回答已采纳

2回答

使用python获取网页正文中的内容

、

我正在尝试扫描使用python的各种网站。下面的代码对我来说很好。import urllibhtmlfile =urllib.urlopen("http://google.com")regex='<body</body>'title= re.findall(pattern,htmltext)上面的代码给

浏览 4提问于2014-03-05得票数 5

回答已采纳

1回答

如何在"br“之前提取文本？

、、、

我正在尝试提取应该在<br>之前的文本。我喜欢：<body><p>Here is a listing of C interview questions on “Variable<br>b) 6<br>d) 14</p></body

浏览 1提问于2015-12-08得票数 3

回答已采纳

2回答

Pyquery使html代码无效

、、

"/><script type="text/javascript" src="tools.min.js"/></head><body/></html>同样的事情也发生在<iframe/>

浏览 1提问于2011-02-19得票数 1

回答已采纳

1回答

with用python和漂亮的汤抓取一个凌乱的网页

、、、、

在Python中使用“漂亮的汤”和“请求”，这就是我试图获得公司名称的方法：import requests 然而，美丽的汤不会接受这条路。我也试过不带符号<e

浏览 4提问于2014-11-28得票数 2

回答已采纳

1回答

我正在使用selenium从一个用JavaScript加载数据的中抓取体育比赛结果。我已经编写了一个简单的函数来获取html代码，并将其发送到美丽汤，然后解析相关部分(见下文)。不幸的是，这不能正常工作-该函数只返回最初可见的结果： url="'http://www.flashscore.com/tennis/wta-singles/australian-open-2016/resultsbody</

浏览 1提问于2017-01-18得票数 0

1回答

在python中查找字符串的出现

、、、、

我有一个很长的字符串，我已经通过美丽的汤分析，我需要关于从这个汤对象中提取数据的最佳方法的建议。什么是最有效的方法来定位这个，并得到它的数字。然后循环直到找到结尾)，获取

浏览 3提问于2014-05-27得票数 0

回答已采纳

3回答

如何刮除YouTube频道创建者并链接到他们的频道？

、、、

我试着用漂亮汤从视频页面中提取频道创建者的名字，以及他们频道的链接。我试过使用class_关键字参数。因此，我得到了[]。我该怎么办？我是否需要通过父母的div标签，然后“下去”，就像他们在“美丽汤”中说的那样？对于特定的标记和类，我应该如何/可以使用soup.find呢？html.parser") videotitle = soup.find("meta", {"pro

浏览 2提问于2020-02-06得票数 2

回答已采纳

2回答

用硒美汤寻找元素

、、、

根据不同的消息来源，美丽的汤比硒更快的抓取网页。我正在写一些在社交媒体评论中爬行的代码。我使用Selenium自动单击检索旧注释的按钮，并使用以下命令从注释中获取文本我知道feature没有允许我直接输入xpath来查找元素的特性在这种情况下，我是否应该摆脱对xpath的依赖，并尝试更轻松地使用可以由漂亮的汤使用<em

浏览 18提问于2019-07-24得票数 0

回答已采纳

2回答

无法使用Selenium检索表主体内容

、、、、

试图通过在注册编号中添加值来获取表id = mytable中的body内容。但没能得到。body= table.find('tbody') p

浏览 1提问于2019-09-11得票数 0

回答已采纳

1回答

使用“另存为”下载的HTML与使用Python请求下载的HTML略有不同

、、、

但是，当我在实际网站上测试我的网络爬行器时，输出略有偏差。，直到几个未闭合的标签。“另存为html”页具有正确的结束标记，但“请求”页缺少某些标记的结尾。例如，另存为文档的所有标记都已关闭： <td>stuff</td>但是下载的请求文档缺少一些结束标记： <td>stuff &

浏览 0提问于2019-05-13得票数 0

1回答

Python BeautifulSoup:在<br>标记之后提取分组文本

、、

我试图使用BeautifulSoup将html文件解析为CSV中的文本项组，但我不确定如何解析该模式。我对蟒蛇和美丽的汤很陌生。html文件看起来有点像这样： <body> <br> <b>Group 1 title</b> <pre> Group 1 descriptionBlah blah blah &

浏览 3提问于2022-08-22得票数 0

回答已采纳

2回答

在页面上发现所有“Php”的出现忽略case BeautifulSoup

、、

我希望在一个页面(忽略Php )上找到BeautifulSoup在Python3中发生的所有事件from BeautifulSoup import BeautifulSoup school_urls = ['somesite1.com','somesite2com'] posting_

浏览 4提问于2017-01-25得票数 0

0回答

HTML不能在美汤浏览器中反映网页内容

、、

我正在尝试从一个网站使用美丽的汤内容。在做一些测试时，我得到了以下输出(这只是最后一点)： <my-app>“加载”部分就是我想要的。为什么这个html不能加载？如果我在Google中查看源代码，也会发生同样的事情。如果我看不到代码，我如何抓取

浏览 4提问于2017-01-06得票数 3

回答已采纳

1回答

使用python漂亮汤无法使用json模式在html文件中获取<script>标记之间的引用

、、

我需要使用json模式访问本地html文件中的json引用。引用位于文件中的第一个标记之间。</style><body> // Script section to load models into a JS Var "enum" : [ "ACTIVE", "INACTIVE", "

浏览 1提问于2020-07-01得票数 0

1回答

从熊猫栏解码HTML

、、、、

我有一个数据框架，其中一个列是西班牙语fos US Dolares中的货币名称，它是我尝试使用不同的编码/解码库，如美丽汤、HTMLParser和其他几个。知道有什么问题吗？

浏览 0提问于2018-01-29得票数 1

回答已采纳

1回答

用美丽汤显示onmouseover属性中的文本

、、、、

这个问题的不同版本已经提出：我可以使用“美丽汤”成功地获得onmouseover属性： <td class="right odds down"><div onmouseout="delayHideTipdelayHideTip()" onmouseover="pag

浏览 2提问于2018-11-04得票数 1

回答已采纳

1回答

如何利用美丽汤找到网页的主体

、、

我想看看是否有任何内容在500多个网页上，使用美丽的汤。这是我写的is脚本。它起作用了，但在某个地方它停止了。如果我修正了错误，它会显示一个不同的错误。下面是我尝试过的代码。我只想确定页面上有身体。也许网站需要更多的时间。full_https_url, timeout=40)elems = soup.select('<e

浏览 1提问于2022-10-31得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在python中获取html页面中文本的偏移量

不统计文件中的正确字符

使用python获取网页正文中的内容

如何在"br“之前提取文本？

Pyquery使html代码无效

with用python和漂亮的汤抓取一个凌乱的网页

Selenium不会在点击按钮后等待页面重新加载

在python中查找字符串的出现

如何刮除YouTube频道创建者并链接到他们的频道？

用硒美汤寻找元素

无法使用Selenium检索表主体内容

使用“另存为”下载的HTML与使用Python请求下载的HTML略有不同

Python BeautifulSoup:在<br>标记之后提取分组文本

在页面上发现所有“Php”的出现忽略case BeautifulSoup

HTML不能在美汤浏览器中反映网页内容

使用python漂亮汤无法使用json模式在html文件中获取<script>标记之间的引用

从熊猫栏解码HTML

用美丽汤显示onmouseover属性中的文本

如何利用美丽汤找到网页的主体

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐