漂亮汤不能解析html页面中的所有链接

漂亮汤（Beautiful Soup）是一个Python库，用于从HTML或XML文档中提取数据。它提供了一种简单而灵活的方式来遍历解析文档，并提供了强大的搜索功能，使得提取特定数据变得非常方便。

然而，漂亮汤并不能解析HTML页面中的所有链接。漂亮汤主要用于解析和提取HTML或XML文档中的数据，而不是用于处理链接。要解析HTML页面中的链接，可以使用其他库或工具，如正则表达式、lxml、PyQuery等。

正则表达式是一种强大的文本匹配工具，可以用于从HTML页面中提取链接。通过编写适当的正则表达式模式，可以匹配并提取出链接的URL。

lxml是一个Python库，提供了高性能的XML和HTML解析功能。它支持XPath和CSS选择器等强大的选择器语法，可以方便地提取HTML页面中的链接。

PyQuery是一个类似于jQuery的Python库，它提供了类似于jQuery的语法和方法，可以方便地解析和操作HTML文档。通过PyQuery，可以轻松地提取HTML页面中的链接。

总结起来，漂亮汤是一个用于解析和提取HTML或XML文档数据的Python库，但并不适用于解析HTML页面中的所有链接。要解析HTML页面中的链接，可以使用正则表达式、lxml、PyQuery等其他工具。

漂亮汤不能解析html页面中的所有链接

、

我已经创建了这个小程序来从文件中加载url并解析数据，但是当我运行这个程序时，漂亮的load不能正确解析链接。虽然我已经验证了，如果我把一个文件中的url单独放在程序中并运行它，我会得到我需要的数据。程序使用文件中的url时出现问题： with open('software.txt', 'r') as s:

浏览 25提问于2019-01-14得票数 0

1回答

在python中，表解析是如何工作的？那个漂亮的汤有什么简单的办法吗？

、、、、

我试图了解如何使用漂亮的汤提取href链接的特定列下的内容，在一个表的网页。例如，考虑一下链接：。在这个页面中，带有类wikitable的表有一个列标题，我需要提取列标题下每个值后面的href链接，并将它们放在excel工作表中。做这件事最好的方法是什么？我在理解漂亮的汤表解析</em

浏览 4提问于2015-04-06得票数 3

回答已采纳

1回答

Selenium未完全下载文件

、、、、

我已经用漂亮的汤、硒(铬)和蟒蛇建立了一个网络刮板。它非常简单，漂亮的汤解析了一个充满链接的页面，selenium每次遵循这些链接1。Selenium在每个页面上找到一个特定的下载链接，然后单击它，开始下载。我会用这个漂亮的汤，但如果我不使用浏览器点击链接，它将发送我到一个

浏览 0提问于2014-09-06得票数 1

回答已采纳

1回答

用id网络抓取python <span>

、、、、

我想要在<span/>属性中使用BeautifulSoup为给定的网站报废数据。你可以在屏幕截图中看到它所在的位置。但是，我使用的代码只是返回一个空列表。我找不到我想要的名单上的数据。我做错了什么？opener.addheaders = [('User-agent', 'Mozilla/5.0')] soup = BeautifulSoup(data, '<em

浏览 2提问于2018-02-22得票数 0

回答已采纳

1回答

链接的BeautifulSoup Django解析

、、、

我试图获得所有的链接，a和class=fl，我正在使用机械获得原始的html输出，然后漂亮汤试图解析链接。rawGatheredGoogleOutput的值输出类似于(这只是谷歌的结果)：红色部分显示了我想要获取的东西，那就是a.fl

浏览 4提问于2013-08-14得票数 0

回答已采纳

1回答

我一直在探索如何使用python登录到一个安全的网站(例如。( Salesforce)，导航到某个页面，并将页面打印(保存)为pdf格式。我试过使用： pdfkit.from_url:使用请求获取会话cookie，解析它，然后将它作为cookie传递到wkhtmltopdf的选项设置中。由于pdfkit无法识别我传递的cookie，此方法无法工作。pdfkit.from_file:使用Request.get获取要打印的页面的<em

浏览 11提问于2016-11-21得票数 1

1回答

python中的页面外部链接计数

、、

我在python中需要这样的函数：如果某个链接出现在给定页面上，则返回-check。有没有人知道这个任务的好的解决方案/库？，也许有更多的库可以帮助我？

浏览 4提问于2010-09-03得票数 1

回答已采纳

1回答

如何从大多数网站抓取twitter链接- Python

、、

我正在建立一个网络爬虫，扫描网站的twitter链接。我刚喝过漂亮的汤，现在很难喝。我尝试过使用正则表达式来解析页面的整个HTML，但这比漂亮的汤更不管用。目前，我的代码抓取一个网站，并试图将其解析为twitter URL。当然，我知道这并不总是有效的，但是现在所有的东西都会以无的形式返回，并且永远不会返回tw

浏览 5提问于2017-09-01得票数 1

回答已采纳

1回答

使用urllib和漂亮汤查找“隐藏”标记中的值

、、

我想知道是否可以显示隐藏标记的值。我用的是易拉布和美丽的汤，但我似乎得不到我想要的东西。下面编写了使用html代码im：(保存为hiddentry.html) ) <script type="text/javascript">我要打印的是id hiddenElem元素<

浏览 2提问于2011-03-14得票数 0

回答已采纳

1回答

Python:当我使用requests.get('url')和打印r.text时会返回什么？

、、

www.machinefinder.com/ww/en-US/categories/used-drawn-planters', headers=header)但我不知道它返回的文本到底是什么我希望它是JSON，这样我就可以复制我已经找到的解析JSON的其他示例。注意:我的工作安全阻止网页，当我使用 'Content-Type': 'application&

浏览 0提问于2016-05-11得票数 0

回答已采纳

2回答

即使显示更多链接，也可以从html获取所有链接

、、

我正在使用python和漂亮汤进行html解析。() print a[href]同样重要的是，这里有107条路径。但我不会得到所有的链接，因为其他链接依赖于页面底部的“显示链

浏览 3提问于2013-02-17得票数 1

1回答

通过python的lxml包与非restful网页进行交互。

、、

谷歌已经发布了其安卓API的互动形式，这是友好的人类用户。是否有任何编程方法来更改API级别(select)并获取与API级别对应的html内容(选择的响应)？

浏览 6提问于2013-10-22得票数 0

回答已采纳

1回答

、、

我开始了一个研究项目，使用带有本地链接和镜像选项的wget抓取页面。我当时这样做是为了获得数据，因为我不知道这些网站会活跃多久。所以我有60-70个网站完全镜像的本地化链接坐在一个目录。我现在需要从他们那里得到我能做的。有没有一个很好的例子来解析这些页面呢？我意识到漂亮汤的设计是为了获取http请求并从那里解析。老实说，我对美汤还不是很了解，我

浏览 5提问于2017-01-10得票数 1

1回答

如何在漂亮的汤中获取分页数据

、、

我正在尝试从这个特定的页面获取数据-- 用漂亮的肥皂。因为这个页面包含分页，问题是我只能通过漂亮的汤获得第一页的数据，我想要所有分页页面的数据。我用inspect元素检查了HTML部分，但那些href标记不包含任何链接。锚标签调用一些java脚本函数来获取下一页的数据。

浏览 13提问于2020-05-18得票数 0

2回答

尝试使用Beautiful Soup从网站中抓取数据，但它只从嵌套的Div中返回空列表

、、、

然而，尽管所有的文档都说bs4能够找到嵌套的div，但如果我有他们的类，它只会返回一个空列表。下面是url：https://overwatchleague.com/en-us/schedule?stage=regular_season&week=1 这是我想要得到的： bs = BeautifulSoup(req.text, "html.parser") matches = bs.find_all("div", cl

浏览 54提问于2021-10-10得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

漂亮汤不能解析html页面中的所有链接

相关·内容

漂亮汤不能解析html页面中的所有链接

在python中，表解析是如何工作的？那个漂亮的汤有什么简单的办法吗？

Selenium未完全下载文件

用id网络抓取python <span>

链接的BeautifulSoup Django解析

登录到安全的网站，自动打印页为pdf

python中的页面外部链接计数

如何从大多数网站抓取twitter链接- Python

使用urllib和漂亮汤查找“隐藏”标记中的值

Python:当我使用requests.get('url')和打印r.text时会返回什么？

即使显示更多链接，也可以从html获取所有链接

通过python的lxml包与非restful网页进行交互。

返回RSS的所有页面

用于NLP的漂亮的汤条页内容

从网站下载所有.pdf文件的Python/Java脚本

用优美汤提取链接的等价正则表达式

Python相当于Javascript的jQuery或Node的cheerio？

在本地内容上使用漂亮的汤

如何在漂亮的汤中获取分页数据

尝试使用Beautiful Soup从网站中抓取数据，但它只从嵌套的Div中返回空列表

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐