使用Beautiful Soup和Pandas从网页中获取表格

、

使用Python 3.6.1运行代码import pandas as pd# url_addr = "httpslist() df = pd.read_html(str(table))[0] print(df)Empty DataFrame Columns: [Ticker, Fun

浏览 2提问于2018-08-23得票数 0

2回答

美汤找不到桌子

、

我正在尝试用Python和Beautiful Soup从网页上的一个表格中收集一些数据。然而，当我从页面中进行选择时，我得到的结果与在浏览器中得到的结果不同。具体地说，这些表完全缺失。以下是Firefox开发工具检查器中表格的屏幕截图： ? 这是我从Beautiful Soup得到的输出： ? 我尝试过使用urllib而不是requ

浏览 15提问于2020-04-25得票数 0

回答已采纳

3回答

find方法未提取已存在的div标记

、、、

我正在尝试抓取这个webpage 我想从下表中获取内容： ? sr-handball-playerstats sr-normal 我使用了以下代码： from selenium import webdriver soup= BeautifulS

浏览 46提问于2021-03-20得票数 1

回答已采纳

1回答

Python 3.6美丽的汤-在Web抓取过程中获取嵌入式视频URL的麻烦

、、、、

我正在尝试抓取一个网页，并使用Python3.6中的Beautiful Soup和requests模块检索网页上嵌入的视频的URL。当我在Chrome中查看网页上的超文本标记语言时，我可以看到视频的.mp4链接。但是当我使用requests和Beautiful Soup获取页面时，我找不到"video“节点。特别是，我想要抓取这个<em

浏览 25提问于2020-08-26得票数 4

1回答

使用Python Selenium在JavaScript中渲染页面

、、、

我正在使用Python Splinter Selenium (Chromedriver)进行网页抓取。该页面有一个用JavaScript创建的表，但是当Beautiful Soup解析它时，该表不在那里。我在渲染表格时遇到了问题，所以我可以用Beautiful Soup来解析它。它如何在Selenium中做到这一点呢？如果我不能，我应该使用什么库？下面是我所拥有的一个示例： import pandas as pd f

浏览 27提问于2020-12-09得票数 0

1回答

解析源代码(Python)方法:漂亮的汤，lxml，html5lib的区别？

、、、

我一直在研究一些解析器，似乎Beautiful Soup，lxml，html5lib是最受欢迎的。从这个网站上看，lxml似乎是最常用和最快的，而Beautiful Soup速度较慢，但会导致更多的错误和变化。我对Beautiful Soup文档、和像BeautifulSoup(markup，"lxml")或BeautifulSoup(markup，html5lib)这样的命令感到有点困惑。在这种情况下，它是否同时

浏览 0提问于2012-06-08得票数 1

1回答

如何解决漂亮汤在获取html内容时出现“不可接受”的错误？

、、

在尝试从网站获取数据时，我无法使用Beautiful soup获取网站的html内容。我正在使用一个基本的get函数和请求来获取html，但输出为空。url= 'https://www.turbobearings.com/application.php'soup_= soup(html.conte

浏览 32提问于2020-10-20得票数 0

回答已采纳

1回答

如何使用美丽的汤和熊猫从这个网站上捕获结构化格式的表格？

、、、、

我想从这个网站上抓取表格，因为它每小时都在更新，所以我也想跟踪变化。我尝试过使用selenium抓取数据，但它们都在一个列中，没有任何表。如何使用pandas和Beautiful Soup以结构化的格式抓取表格并跟踪更改。这就是我想弄明白的代码。import pandas as pdsoup = BeautifulSoup(html, &

浏览 7提问于2020-09-23得票数 0

回答已采纳

1回答

使用Selenium & Beautiful Soup从网站数据中获取动态表格

、、

executable_path = path)soup= BeautifulSoup(driver.page_source,"lxml") for items in soup.select('#profile table.table tr'):data

浏览 0提问于2020-11-20得票数 1

3回答

“汤”和“美汤”中的“汤”是什么意思？

、

“汤”和“美汤”中的“汤”是什么意思，为什么它被称为“汤”？

浏览 1提问于2014-05-19得票数 10

2回答

从重命名的网页下载链接

、、、

我正在尝试找到一种自动从网页下载所有链接的方法，但我也想重命名它们。我知道我可以获取页面源代码，然后解析所有链接，然后手动下载所有链接，但我想知道是否有内置的工具可以做到这一点。lynx --dump | grep http:// | cut -d ' ' -f 4 将打印所有可以使用wget批量获取的链接--但是有没有办法动态地重命名这些链接呢？

浏览 3提问于2011-07-03得票数 0

回答已采纳

2回答

使用Python 3和Beautiful Soup 4删除HTML标签并将抓取的数据保存为CSV文件

、、

我试图从网页上的表格中抓取数据，然后使用Python 3和Beautiful Soup 4将其保存到CSV文件中。我已经能够提取数据，但我无法删除数据周围的标签，也无法找到将其保存到CSV文件的方法。下面是我的脚本：import pandas as pdfrom bs4 import BeautifulSoup url="enter urlhere

浏览 10提问于2017-01-20得票数 2

回答已采纳

1回答

我能用selenium webdriver读取浏览器的url吗？

、、、

我在beautiful Soup4 and Selenium webdriver中使用python2.7。现在，在我的webautomation脚本中，我将打开链接或URL并进入主页。现在，当我要转到一个新页面时，我需要从浏览器获取新的URL，因为我需要传递用于网页抓取的Beautiful Soup4。所以现在我关心的是如何以动态的方式获得这样的URL？如果有建议，请多多指教！

浏览 0提问于2013-01-05得票数 8

回答已采纳

1回答

不同环境下的不同搜索结果

、、、、

问题是使用python在Beautiful主页上打印字符串“Soup”的出现次数。奇怪的是，在iPython笔记本和Python中出现的次数不同，当我在网页上进行手动搜索时，结果完全不同。我附上了代码片段和结果： In Pandas手动正如您所看到的，结果在所有环境中都是不同的，它显示了Python中的39次、Pandas中的41次和</e

浏览 6提问于2016-06-17得票数 1

回答已采纳

1回答

对于web抓取和xml解析，这是最好的学习库。

、、、、

我想学习一个库，它将同时处理xml和html解析。Do元素树与html解析兼容。我听说了lxml，xml.elementtree，漂亮汤，迷你，刮刮。有人能帮我吗。

浏览 4提问于2020-02-03得票数 0

回答已采纳

1回答

使用Python/Beautiful* soup/*pandas仅从表格中抓取选定的文本

、、、

我是Python的新手，我正在为一个项目使用漂亮的汤来进行web抓取。url = "http://eng.mizon.co.kr/productlist.asp" soup = BeautifulSoup(response.text, 'html.parser') tables = soup.find_all('

浏览 1提问于2017-02-08得票数 2

回答已采纳

1回答

遍历多个网页，抓取相同的信息: Python和Beautiful Soup

、、

我正在使用Python和Beautiful Soup来抓取一个包含非洲和亚洲的许多居民点的网页，每个都有自己的网页。这是网站：from requests import getresponse =

浏览 0提问于2020-09-04得票数 0

1回答

如何使用漂亮的汤获取除特定类之外的所有文本

、

我试图使用soup.get_text从网页中获取一些文本，但我想排除特定的类。我尝试使用a = soup.find_all(class_ = "something")和b=[i.get_text() for i in a]，但这允许我选择一个类，而不允许我排除一个特定的类。我也尝试过：a = soup.select('span:not([class_ ="something&q

浏览 1提问于2022-11-29得票数 2

1回答

pandas.read_html和BeautifulSoup都找不到网页上的所有表。

、、

我正在尝试从一个网页()中获取第3和第6表，但是pandas.read_html和BeautifulSoup都只在页面上找到前两个表。这是我试过的。pd.read_html(url)输出：而且还soup= BeautifulSoup(r

浏览 2提问于2022-07-01得票数 1

回答已采纳

2回答

滴下一部分汤

、

我正在学习如何使用美丽的汤。我设法解析了html，现在我想从页面中提取一个链接列表。问题是，我只对一些链接感兴趣，我能想到的唯一方法是在某个单词出现后获取所有链接。and return the html to the variable pagesoup = BeautifulSoup(pa

浏览 12提问于2019-09-20得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

美汤找不到桌子

find方法未提取已存在的div标记

Python 3.6美丽的汤-在Web抓取过程中获取嵌入式视频URL的麻烦

使用Python Selenium在JavaScript中渲染页面

解析源代码(Python)方法:漂亮的汤，lxml，html5lib的区别？

如何解决漂亮汤在获取html内容时出现“不可接受”的错误？

如何使用美丽的汤和熊猫从这个网站上捕获结构化格式的表格？

使用Selenium & Beautiful Soup从网站数据中获取动态表格

“汤”和“美汤”中的“汤”是什么意思？

从重命名的网页下载链接

使用Python 3和Beautiful Soup 4删除HTML标签并将抓取的数据保存为CSV文件

我能用selenium webdriver读取浏览器的url吗？

不同环境下的不同搜索结果

对于web抓取和xml解析，这是最好的学习库。

使用Python/Beautiful* soup/*pandas仅从表格中抓取选定的文本

遍历多个网页，抓取相同的信息: Python和Beautiful Soup

如何使用漂亮的汤获取除特定类之外的所有文本

pandas.read_html和BeautifulSoup都找不到网页上的所有表。

滴下一部分汤

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐