如何在Python中用Beautifulsoup抓取结构不好的html表格？

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

2回答

、、、、

这个网站的表似乎组织得不太好。表格单元格的唯一标识符是每个tr标记内的宽度。我想要抓取全部60页的信息。我怎样才能找到一种方法来适当地抓取每一行表格？我知道header的大小是10列，但是因为对于一些tr标签，我有5个td标签，而对于其他一些标签，我有或多或少的td标签，根据它的列准确地抓取数据是不容易的。在这里，您可以看到代码的一部分，它只提取

浏览 7提问于2019-03-29得票数 2

2回答

如何使用python从网站的搜索栏中提取数据？

、

我想从一个包含许多医生和医院名称的网站中提取数据，我想做一些评估，所以我决定使用搜索栏，但不幸的是，似乎无法得到我想要的结果！import requests

浏览 3提问于2018-06-11得票数 2

回答已采纳

1回答

从pdf表格中提取数据为结构化格式

、、、

我想要抓取任何结构化格式的pdf表格数据，如html，xml，json。我使用的是python。我首先使用pdftotext命令行函数将pdf转换为文本。但是我不能区分pdf中表格的数据。

浏览 4提问于2018-04-17得票数 1

1回答

使用BS4从python中抓取团队统计表

、、、

我正在尝试从职业足球参考中抓取一个表格，特别是来自的团队进攻表。每当我尝试下面的代码时，我都会得到一个空列表或一个NoneType。我已经抓取了其他网站，如ESPN，没有任何问题。import requests url = 'https://www.pro-football-reference.com/years/{}= soup.find('table',

浏览 2提问于2020-08-13得票数 1

3回答

用python刮网站

、、、、

我已经看过多个教程和博客，最常见的库是漂亮汤和scrapy。如果有一种方法可以在不使用任何第三方库(如beautifulsoup和scrapy )的情况下抓取一个网站，那么就可以使用beautifulsoup。

浏览 1提问于2020-06-09得票数 1

回答已采纳

2回答

尝试将数据从网站加载到json文件中。

、、

m=1" print(r.text)print(r.json)继续：：import json“，s，err.value)到None json.decoder.JSONDecodeError: err.value:第1列(char 0)”程序完成“★★ 我只想在json文件中加载数

浏览 2提问于2020-05-10得票数 0

2回答

使用BeautifulSoup创建循环并将结果放入列表中

、

我有以下代码，我正在尝试获取GEC列中的所有内容，并将其放入列表中。我下面的代码可以抓取第一个'AF‘，我可以继续添加find_next('tr')来抓取下一个，但我很难弄清楚如何在这个场景中用漂亮的汤创建一个循环。import jsonimport htmlfrom functoolspa

浏览 25提问于2020-07-15得票数 1

回答已采纳

1回答

如何使用美丽的汤和熊猫从这个网站上捕获结构化格式的表格？

、、、、

我想从这个网站上抓取表格，因为它每小时都在更新，所以我也想跟踪变化。我尝试过使用selenium抓取数据，但它们都在一个列中，没有任何表。如何使用pandas和Beautiful Soup以结构化的格式抓取表格并跟踪更改。这就是我想弄明白的代码。import pandas as pdsoup = BeautifulSoup(html, &

浏览 7提问于2020-09-23得票数 0

回答已采纳

2回答

days=7days“中抓取数据

、、

我正在尝试从"“网站上抓取表格，因为python的输出正在抓取表格。import requests url = 'https://www.nseindia.com/companies-listing/corporate-filings-event-calendar/79.0.3945.117 Safari/537.36'

浏览 3提问于2020-10-27得票数 0

2回答

我需要通过使用Python中的BeautifulSoup库进行web抓取，从网站抓取一个表。来自URL https://www.nytimes.com/interactive/2021/world/covid-vaccinations-tracker.html 当我运行这段代码时，我得到了一个空表/interactive/2021/world/covid-vaccinations-trac

浏览 0提问于2021-04-18得票数 3

回答已采纳

4回答

使用PHP或Python的PHP抓取技术

、、

我需要刮大约100个网站，在他们提供的内容非常相似。第二项质询。我的主要语言是PHP，但在Stackoverflow上搜索此处后，我发现Python中的"Beautiful Soup“是最高级的</

浏览 2提问于2011-01-03得票数 3

1回答

如何访问谷歌搜索结果的第一个结果(突出一个视频链接)？

、、、

在上面提供的链接中，第一个结果就是视频链接到youtube，我想访问提供的链接。我怎么能在蟒蛇身上做到这一点呢？编辑:我的输入将是我在谷歌搜索框中查询的字符串。就像这个“黑色安息日铁人”

浏览 1提问于2014-12-11得票数 0

回答已采纳

1回答

如何通过python向服务器提交表单并从服务器获取csv文件？

、、、、

我需要提交一个表格到服务器，并从服务器获得csv文件通过互联网与python。到目前为止，我总是选择项目和日期，然后单击按钮。然后，当显示文件保存对话框时，我从服务器保留csv文件。我想用python自动完成这些手工工作。我研究过python和web抓取，并使用过p

浏览 0提问于2014-07-23得票数 1

1回答

如何在没有分页请求和美观的情况下抓取页面？

、、

我正在抓取web (使用Python请求和漂亮的汤)，我需要浏览项目列表中的所有页面，但我需要单击下一页，到目前为止，代码只返回代码中的第50行import requestsfrom bs4 import BeautifulSoup url = 'http://sistemas.anatel.gov.br/se/public/view/b/licenciamento&

浏览 2提问于2021-02-23得票数 0

2回答

将数据从Tripadvisor导入Google电子表格或Excel

、、、

是否可以获取此数据的列表：阿姆斯特丹所有餐馆的名单。如果可能的话，还有详细的地址等等。非常感谢！

浏览 1提问于2020-09-17得票数 0

1回答

从Tableau公共仪表板中抓取数据

、、、

我对从网站上抓取数据的世界非常陌生，不知道如何从使用Tableau Public的网站上抓取数据网址：https://showmestrong.mo.gov/data/public-health/我一直在阅读一些关于如何检查元素并找到其中的表的资料，但我不知所措。我试过在Python、requests和BeautifulSoup中使用，但不知道如何工作。import requests from bs4

浏览 17提问于2020-09-30得票数 1

回答已采纳

2回答

使用python抓取AJAX电子商务站点

、、、、

我在使用BeautifulSoup抓取电子商务网站时遇到了问题。我做了一些谷歌搜索，但我仍然无法解决问题。但是当我运行python程序时，我无法在python结果中得到相同的代码和标记。在googling之后，我发现这个网站使用AJAX查询来获取数据。任何人都可以通过抓取AJAX站点来帮助我获得这些产品的数据。我想用在表格中显示数据。我的代码：from bs4 import Beautiful

浏览 0提问于2019-01-28得票数 2

回答已采纳

1回答

将lxml输出传递给BeautifulSoup

、、

我的离线代码运行得很好，但我在通过lxml将网页从urllib传递到BeautifulSoup时遇到了问题。我使用urllib进行基本身份验证，然后使用lxml进行解析(对于我们需要抓取的特定页面，它提供了很好的结果)，然后再转换为BeautifulSoup。# TypeError: expected stri

浏览 7提问于2012-12-12得票数 1

回答已采纳

1回答

使用python中的BeautifulSoup从url的源代码中提取特定部分下的文本

、、、、

我是python的初学者，对HTML没有真正的经验。我刚看了一段关于网络抓取的youtube视频()，并对从python的URL中提取文本感兴趣。from bs4 import BeautifulSoup url = "https://

浏览 4提问于2021-08-23得票数 0

回答已采纳

1回答

<script>在<div id="xxxxx">下找不到

、、、

我正在尝试从这个URL中用python来抓取历史价格。我在chrome浏览器上查看了开发工具，其中有我想在<script>中获得的信息，它位于我附加了元素图像的<div id="market-stats">下面。我使用了漂亮的汤来清除数据，但似乎<script>中的信息从未出现在终端中。我的假设是这部分信息可能不允许抓取？KHTML, like Gecko) Chrome

浏览 2提问于2022-11-26得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云