用BeautifulSoup抓取Json表太多熊猫_用BeautifulSoup实现Web抓取表 - 腾讯云开发者社区

、、、

我试着用Python2.7从一个网站上抓取网页，那里有一个必须加载的表。如果我试图在网络上抓取它，我只得到它：“加载”或“对不起，我们没有关于它的任何信息”，因为它必须先加载。我读了一些文章和代码，但都没有用。我的密码： import urllib2, sys from BeautifulSoup import BeautifulSoup import json site= "https://www.flightradar24.com/data/airports/bud/arrivals" hdr = {'User-Agent': 'Mozil

浏览 2提问于2017-07-25得票数 0

回答已采纳

1回答

使用BeautifulSoup找不到深度嵌套标记ID

、

我试图从中抓取NBA数据，但我遇到了BeautifulSoup抛出深度嵌套标记的问题。我试着用soup.find(id='opponent-stats-per_game')来抓取“对手每个游戏统计”表。然而，我得到了None的结果。如果我试图找一个在树上更高的div，那么它会剪辑更深的孩子。有人能给我一些指导吗？我对使用BeautifulSoup进行网络抓取相当陌生。

浏览 1提问于2019-04-03得票数 0

回答已采纳

1回答

我如何自动扩展整个网页，以便与熊猫(蟒蛇)擦拭？

、、

我正在尝试从中抓取html表。在页面上，有一个“加载更多”按钮。单击此命令时，会显示更多行，但URL不会更改。当我使用pd.read_html(url(将这个URL传递给熊猫时，它会拉出前100行，而没有其他任何内容。如何通过URL或命令自动加载所有表？任何帮助都是非常感谢的。代码： import json import requests import pandas as pd from bs4 import BeautifulSoup import lxml import html5lib url = "https://coinmarketcap.com/exchanges/bi

浏览 73提问于2022-05-19得票数 -1

2回答

WebScraping一张表不适用于

、、、、

我只是从web抓取开始，想尝试从这个中抓取表，但是当我开始查找表的类时，它不工作，而是显示了None 以下是我的守则： from bs4 import BeautifulSoup import requests import json url = 'https://www.nseindia.com/market-data/top-gainers-loosers' headers = {'User-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHT

浏览 7提问于2021-04-02得票数 0

回答已采纳

1回答

用漂亮汤将硒html表格放入熊猫数据

、、

我已经成功地使用selenium来抓取一个html表，它需要在抓取之前点击按钮。因此selenium可以工作，并成功地将html表存储为变量‘r’。不过，我很难把这个解析成熊猫的数据。与URL一样，dataframe应该有5列和大约30行。有人能看到问题出在哪里吗？ import pandas as pd from selenium import webdriver from bs4 import BeautifulSoup browser = webdriver.Firefox(executable_path=r'/Users/computer_name/Documents

浏览 1提问于2020-04-03得票数 2

回答已采纳

2回答

从维基百科上用漂亮的汤刮掉整张桌子，然后装进熊猫里

、、、、

我目前正在抓取下面的维基页面：，只有一个表开始于比较。我正试着把整张桌子都刮掉，然后把它输出给熊猫。我知道如何添加初始列，飞机，但在从卷开始抓取列时遇到问题。如何将表中的所有行或列添加到数据帧中？不确定哪种方法更好。 from bs4 import BeautifulSoup import requests import pandas as pd #this will use request library to call wikipedia page = requests.get('https://en.wikipedia.org/wiki/Cargo_aircraft'

浏览 0提问于2019-12-18得票数 1

1回答

用于抓取表的BeautifulSoup和小工具选择器

、、

我拼命地试图抓取这个表：https://futures.huobi.com/en-us/linear_swap/info/realtime_fee/，但不幸的是，通过运行以下代码： from bs4 import BeautifulSoup import requests url = "https://futures.huobi.com/en-us/linear_swap/info/realtime_fee/" res = requests.get(url) soup = BeautifulSoup(res.text) soup 我没看见那张桌子上有汤。我相信这是因为数据不是

浏览 6提问于2021-05-05得票数 0

回答已采纳

1回答

Python中请求/优美汤库的限制

我试图使用Python和BeautifulSoup4来抓取一个网站，下面是我的代码： import requests import bs4 result = requests.get("https://wolt.com/en/svk/bratislava/restaurant/la-donuteria-bratislava") soup = bs4.BeautifulSoup(result.content,"html5lib") for i in soup.find_all("div", {"class": re.compile(

浏览 1提问于2022-02-15得票数 0

1回答

在web抓取ASP.NET站点时，同一会话中的多个post请求不起作用

、、、、

我正在尝试从我的大学网页(链接在代码中提供)抓取时间表数据。在网页上，我必须在下拉列表中选择课程和学习年份(1-4)。选择后，我将能够看到时间表。我已经尝试过使用python和它的库来实现同样的功能。requests，urllib，beautifulsoup以前曾帮助我用普通页面抓取数据，但在这种情况下我不能这样做。请帮我弄一下这个。 from bs4 import BeautifulSoup import urllib.request from urllib.parse import * import requests import json if __name__ == "__

浏览 11提问于2021-05-07得票数 0

1回答

如何使用美丽的汤和熊猫从这个网站上捕获结构化格式的表格？

、、、、

我想从这个网站上抓取表格，因为它每小时都在更新，所以我也想跟踪变化。我尝试过使用selenium抓取数据，但它们都在一个列中，没有任何表。如何使用pandas和Beautiful Soup以结构化的格式抓取表格并跟踪更改。这就是我想弄明白的代码。 import pandas as pd from bs4 import BeautifulSoup soup = BeautifulSoup(html, "html.parser") table = soup.find('table', attrs={'id':'subs noBorders

浏览 7提问于2020-09-23得票数 0

回答已采纳

1回答

如何从承载HTML之外的表数据的网站中刮表？

、、、、

我正在尝试从这个表URL：中抓取表数据在之前的测试中，我使用了以下Python包:从bs4导入BeautifulSoup导入请求导入mysql.connector作为pd从sqlalchemy导入create_engine 但是这个url的HTML不包含表数据，而是从外部数据库中提取数据。有人能告诉我用这种HTML设置使用python脚本来抓取表数据的正确方向吗？我试着用我以前刮过的方法做一次盲刮。 from bs4 import BeautifulSoup import requests import mysql.connector import pandas as pd

浏览 3提问于2022-04-02得票数 -1

回答已采纳

1回答

从Tableau公共仪表板中抓取数据

、、、

我对从网站上抓取数据的世界非常陌生，不知道如何从使用Tableau Public的网站上抓取数据网址：https://showmestrong.mo.gov/data/public-health/ 我一直在阅读一些关于如何检查元素并找到其中的表的资料，但我不知所措。我试过在Python、requests和BeautifulSoup中使用，但不知道如何工作。 import requests from bs4 import BeautifulSoup import json import re r = requests.get("https://showmestrong.mo.gov

浏览 17提问于2020-09-30得票数 1

回答已采纳

1回答

在Morningstar上无法使用Beautiful Soup找到桌子

、、

我正试着用BeautifulSoup来抓取晨星财经。由于某些原因，我甚至找不到包含财务数据的表。我尝试过使用div标签和table标签。两个都不走运。 from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup urls= [ 'http://financials.morningstar.com/ratios/r.html?t=AAPL&region=usa&culture=en-US' ] for url in urls: try:

浏览 11提问于2019-06-21得票数 1

2回答

文本一维数组从网络抓取到一个2D熊猫DF

、、

嗨，我用下面的代码在数据表上做了一个网络抓取： import requests from bs4 import BeautifulSoup import pandas as pd import numpy as np df = pd.DataFrame() for row in links2get: url = row response = requests.get(url) html_page = response.content soup = BeautifulSoup(html_page, 'html.parser') tex

浏览 0提问于2020-05-13得票数 1

回答已采纳

1回答

Python web从asx抓取-无法获取公告表

、

我试图从asx页面中抓取公告表，然而，当我使用BeautifulSoup解析html时，这个表不在那里。 import requests import pandas as pd from bs4 import BeautifulSoup url='https://www2.asx.com.au/markets/trade-our-cash-market/announcements.cba' page = requests.get(url) soup = BeautifulSoup(page.text, 'html.parser') table = soup.

浏览 17提问于2021-02-26得票数 0

2回答

我怎样才能从bloomberg上抓取这张表并获得熊猫数据帧呢？

、、、、

我试着从这个页面上抓取所有的亿万富翁：https://www.bloomberg.com/billionaires/ 页面看起来像是有一个表，但它是加密的或其他什么(?)。当我运行下面的代码时，我找不到任何名字，比如html中的"Jeff Bezos“： import pandas as pd from bs4 import BeautifulSoup import requests url = "https://www.bloomberg.com/billionaires/" req = requests.get(url) soup = BeautifulSo

浏览 15提问于2020-11-08得票数 0

回答已采纳

1回答

Python使用变量作为键和值写入BS4

、、、

所以我正在做一个小的web抓取项目，并且我正在尝试迭代一个表。然后将表的左侧(tr)作为键，将表的右侧(td)作为键的值放入JSON文件中。它在某种程度上起作用了，这意味着它写入了正确的键/值。但它只写入表中的最后一个单元格。我试着用几种不同的方法写入JSON文件，我在google上找到了一些关于它的帖子，但什么也没做。 from bs4 import BeautifulSoup import requests import json def writeToJSONFile(path, fileName, data): filePathNameWExt = './

浏览 20提问于2021-02-07得票数 0

回答已采纳

1回答

json.decoder.JSONDecodeError:期望值:第1行第1列(char 0) Scrapy

、、、、

嗨，伙计们，我正试着用scrapy/Beautifulsoup抓取这个基于json的站点。我编写了下面的代码来运行，从网站读取/获取json： website_text = response.body.decode("utf-8") jobs_soup = BeautifulSoup(website_text.replace("<", " <"), "html.parser") script_tag = jobs_soup.find('script', {"type": 'a

浏览 3提问于2022-04-10得票数 1

回答已采纳

3回答

网络刮擦冠状病毒互动图

、、、、

我正在尝试抓取新冠肺炎的相关数据。我可以从网站上下载一些数据，例如，病例总数，但不能从交互式图表中下载数据。我通常通过在inspect element页面的'network‘中查找源代码来获取json的交互图。然而，我找不到交互式图形的“网络”来抓取。有没有人可以帮我从“总死亡人数”图中抓取数据？或者来自网站的任何其他图表。谢谢。只是想说清楚。我不想从国家/地区表中抓取数据。我已经这么做了。我想做的是从图表中获取数据。例如，死亡比率图与日期或活动病例与时间日期图中的数据。谢谢 import requests import urllib.request import time i

浏览 2提问于2020-03-06得票数 0

1回答

如何让一个包含两个元组的变量进入SQLite3表？

、、

因此，我从一个网站上抓取了一些地点名称和地址，现在我想使用一个函数将它们添加到一个数据库表中。不幸的是，每当我尝试对多个元素集执行此操作时，都会收到incorrect bindings错误。当我只填充一列时，代码可以正常工作，但现在我试图同时填充两列，但它不起作用。我想知道这是否与我如何构造testsuburb变量有关，该变量包含两个元组作为元组……我一直在遵循这个tutorial (相关部分接近底部)，但他们使用手动输入的数据，而我正在尝试使用抓取的数据。如果有任何指导，我将不胜感激！这是网页抓取代码： #cafeNames url = 'https://www.broads

浏览 7提问于2020-07-26得票数 0

回答已采纳

1回答

无法使用openpyxl将数据追加到excel文件中的工作表

、、、

如何使用openpyxl将数据附加到现有工作表？我用python创建了一个抓取器，它能够从网页上抓取标题和链接。我希望用openpyxl把它们写成excel文件。但是，我的刮刀既不将这些新填充的数据写入excel文件，也不抛出错误？我哪里错了？提前感谢大家来看一看。这是我的尝试： import requests from bs4 import BeautifulSoup from openpyxl import load_workbook wb = load_workbook("scraper.xlsx") ws = wb.worksheets[0] res = requ

浏览 5提问于2018-01-11得票数 0

回答已采纳

1回答

问题网刮--一个Javascript表

、、、

我对网络抓取很陌生，我正试着从这个网站上刮表： import pandas as pd import requests from bs4 import BeautifulSoup url = 'https://www.eloratings.net/2016_European_Championship' r = requests.get(url).text soup = BeautifulSoup(r, "html.parser") df = pd.read_html(str(soup.find_all('table'))) 我得到了“找不到表”

浏览 1提问于2021-05-18得票数 1

回答已采纳

1回答

使用Python将<pre>标记内的文本从HTML复制到字符串变量

、、、

我试图用python抓取网页响应，但遇到了问题。在这种情况下，我想要的网页，给我一个输出响应(这是json文本)，它在一个前置标签中，如下所示： <pre style="word-wrap: break-word; white-space: pre-wrap;">{"WANTED TEXT AS JSON TEXT"} </pre> 我这样做了： import requests from bs4 import BeautifulSoup url = "urlforwantedwebpage" (THIS

浏览 15提问于2021-02-22得票数 0

2回答

Python抓取JSON网页

、

我试着用这个JSON数据来抓取一个页面： {"supply": 33391639424594933, "circulation": 34239675266895397, "delegations": 1190828, "stake": 24567963450666814, "d": 0, "k": 500, "ADABTC": 2.669e-05, "ADAUSD": 1.17, "ADAEUR": 1.066, "ADAJPY": 1

浏览 4提问于2022-03-24得票数 -1

回答已采纳

1回答

按"*\n“将列表内容拆分到熊猫数据

、、、

我正在使用漂亮的汤，通过下面的代码从Wikipedia中抓取一些内容： import requests from bs4 import BeautifulSoup import urllib.request, json s = 'September%2011' url = 'https://en.wikipedia.org/w/api.php?action=query&titles={0}&prop=revisions&rvprop=content&rvsection=1&format=xml&formatversion

浏览 0提问于2018-08-04得票数 0

回答已采纳

2回答

如何抓取既包含纯文本又包含“双引号”文本的表数据？

、、

我试图从zone-h.org网页上抓取数据。首先，我通过在脚本中添加cookie绕过了网页captcha错误。然后我用BeautifulSoup抓取这个表并存储它。但是，其中一列没有纯文本；信息存在于引号("...")中。 from bs4 import BeautifulSoup import requests import pandas as pd url = "http://www.zone-h.org/archive/filter=1/published=0/domain=twitter/fulltext=1/page=1?" cookie = {

浏览 29提问于2019-08-01得票数 0

回答已采纳

2回答

蟒蛇，美汤，WebScraping，熊猫，数据帧

、、、

我逐渐熟悉了Beautiful Soup和Pandas的Dataframe，但我似乎无法将两者结合起来。 import urllib.request from bs4 import BeautifulSoup import pandas as pd connection = urllib.request.urlopen('http://www.carfolio.com/specifications/models/?man=557') soup = BeautifulSoup(connection, "html.parser", from_encoding=

浏览 0提问于2015-09-02得票数 2

3回答

Python网络抓取

、、

我试着用Python从网站上抓取数据。当我查看浏览器中的源代码时，我可以看到我正在寻找的所有东西。但是，当我用BeautifulSoup下载代码时，我只得到我想要的部分数据。我知道BeautifulSoup不适用于javascript (我一点也不知道javascript )，我想知道是否有办法下载所有原始源代码(基本上是一个硬拷贝)，即使站点的一部分是用javascript完成的。到目前为止，这是我的代码： r = requests.get('https://www.example.com/example/example') data = BeautifulSoup(

浏览 3提问于2016-12-02得票数 1

回答已采纳

1回答

将熊猫DataFrame (插入新列)调用到Python脚本中

、、

我试图在我正在抓取的表中添加一个“游戏Id”列(见下面的脚本)。我不知道在哪里广告pd.Dataframe和调用什么(在我的网络刮取)，以便我可以插入一个名为“游戏id”的新列，然后我将脚本写入一个csv文件(以便它用新的游戏id列写入刮除)。 (只是一些背景信息：“Game”是循环中的I，刮取器正在从url中迭代) 我试着进入 df.insert(0，“GameID”，范围(1，1+len(Df)或 df‘’GameID‘= (df.index / 18 + 1).astype(int) 但是我不知道用什么来调用我的dataframe (我尝试了pd.Dataframetab

浏览 1提问于2017-11-16得票数 0

回答已采纳

1回答

范围循环在not擦除中不起作用

、

我已经用BS4写了一个小的网页抓取器，用这个代码我可以一次刮掉一个页面，下面是相关代码。 import csv from bs4 import BeautifulSoup import requests html = requests.get("http://www.gbgb.org.uk/resultsMeeting.aspx?id=129867").text soup = BeautifulSoup(html,'lxml') 这段代码抓取一个页面，但是我想一次抓取多个页面(一个范围)，所以我尝试像这样添加这个for循环。 import csv from bs

浏览 1提问于2016-04-02得票数 0

1回答

使用漂亮的汤来模拟页面点击来访问页面上的所有HTML？

、、

我正在尝试抓取以下网站： https://www.bandsintown.com/?came_from=257&sort_by_filter=Number+of+RSVPs 使用下面的代码，我可以成功地抓取页面上列出的事件： from bs4 import BeautifulSoup import requests url = 'https://www.bandsintown.com/?came_from=257&sort_by_filter=Number+of+RSVPs' response = requests.get(url) soup = Beauti

浏览 6提问于2019-01-07得票数 2

1回答

如何从源码中没有任何表的javascript环境中抓取数据？

、、、、

我正在开发一段进入javascript环境的代码，然后我想使用BeautifulSoup从网站上抓取数据。重点是我意识到环境中没有任何表，所以我想知道如何从网站上抓取数据。有什么建议吗？这是为了完成我的课程作业，我试图抓取数据，想知道有一个表，但它失败了。 from selenium import webdriver from selenium.webdriver.common.keys import Keys from bs4 import BeautifulSoup import re import pandas as pd from tabulate import tabulate

浏览 8提问于2019-06-19得票数 0

回答已采纳

1回答

用python抓取表

、、、

试图从开放访问的学术文章中抓取表格，出于某些原因，我无法从本文中抓取这些表，这就是我所做的，但由此产生的ResultSet“表”是一个空列表。谢谢你的帮助。 from bs4 import BeautifulSoup import requests url_page = "http://www.sciencedirect.com/science/article/pii/S0378874116301696" content = requests.get(url_page).content soup = BeautifulSoup(content, "lxml"

浏览 4提问于2017-08-26得票数 0

1回答

使用python抓取URL不变的多个表的最佳资源

、、

我想在有下一步链接的网页上抓取表格，但是当你点击这些下一步按钮时，URL不会改变。使用python (BeautifulSoup，请求)学习抓取这类表的最好/最简单的资源是什么？例如，我如何抓取上的表。

浏览 1提问于2017-11-15得票数 0

0回答

Python BeautifulSoup找不到表ID

、、

我在使用BeautifulSoup抓取表时遇到了一些问题。以下是我的代码 from urllib.request import urlopen from bs4 import BeautifulSoup site = "http://www.sports-reference.com/cbb/schools/clemson/2014.html" page = urlopen(site) soup = BeautifulSoup(page,"html.parser") stats = soup.find('table', id = 't

浏览 4提问于2017-06-08得票数 1

回答已采纳

1回答

网站上有熊猫点餐的美汤刮板

、、、

我正在尝试下载这个网站上的数据 ...in，以便稍后在Python或Pandas中操作它。我曾尝试通过请求直接对Pandas进行操作，但不起作用，使用以下代码： res = requests.get("https://coinmunity.co/") soup = BeautifulSoup(res.content, 'lxml') table = soup.find_all('table')[0] dfm = pd.read_html(str(table), header = 0) dfm = dfm[0].dropna(axis=0, thr

浏览 10提问于2018-01-22得票数 2

2回答

请求返回响应447

、、、、

我正在尝试使用requests和BeautifulSoup抓取一个网站。当我运行代码来获取网页的标记时，soup对象是空的。我打印出了请求对象以查看请求是否成功，但没有成功。打印结果显示响应447。我找不到447作为HTTP状态码是什么意思。有谁知道我怎样才能成功地连接和抓取这个站点？代码： r = requests.get('https://foobar) soup = BeautifulSoup(r.text, 'html.parser') print(soup.get_text()) Output: '' 当我打印请求对象时： print(r

浏览 88提问于2018-12-31得票数 1

回答已采纳

1回答

抓取oddsportal信息

、、、、

我使用的是Python3.5，实际上我关注的是使用BeautifulSoup/lxml/Selenium/PhantomJS进行3.5抓取我只是想用Python代码抓取我需要的所有数据。我可以很容易地用BeautifulSoup从静态HTML中抓取信息。我最近也发现了如何从动态url中获取信息，使用Chrome的网络选项卡，并在XHR选项下查看出现的HTTPrequest。它通常会给我从JS生成的html代码，在这种情况下，我可以继续使用正则表达式，用BS4抓取它。但实际上我正在做一个关于从www.oddsportal.com中抓取赔率的新项目，在这种情况下，我真的很困惑如何继续进行，因为

浏览 2提问于2016-01-14得票数 1

3回答

从使用BeautifulSoup python中获得前100个作业结果

、、

我是python网络抓取的新手，我想从indeed中抓取前100个工作结果，我只能抓取第一页的结果，即前10个。我正在使用BeautifulSoup框架。这是我的代码，有人能帮我解决这个问题吗？ import urllib2 from bs4 import BeautifulSoup import json URL = "https://www.indeed.co.in/jobs?q=software+developer&l=Bengaluru%2C+Karnataka" soup = BeautifulSoup(urllib2.urlopen(URL).read(

浏览 7提问于2019-03-11得票数 1

回答已采纳

2回答

美丽的汤-巨蟒桌刮

、、、

试图用漂亮的汤从网站上抓取一张表，以便解析数据。我将如何用它的头来解析它呢？到目前为止，我甚至无法提前打印整个table.Thanks。以下是代码： import urllib2 from bs4 import BeautifulSoup optionstable = "http://www.barchart.com/options/optdailyvol?type=stocks" page = urllib2.urlopen(optionstable) soup = BeautifulSoup(page, 'lxml') table = soup.fin

浏览 3提问于2016-10-10得票数 3

回答已采纳

1回答

用python抓取出现在单击中的表

、、、、

我想从这个中抓取信息。具体来说，我想刮表，当你点击“查看所有”下的“十大控股”(你必须在页面向下滚动一点)。我对网络抓取很陌生，并且尝试过使用BeautifulSoup来做这件事。但是，似乎存在一个问题，因为我需要考虑"onclick“函数。换句话说:我直接从页面中抓取的HTML代码不包括我想要获得的表。我对我的下一步感到有点困惑:我是应该使用selenium之类的东西，还是应该以更简单/更有效的方式来处理这个问题？谢谢。我现在的代码是： from bs4 import BeautifulSoup import requests Soup = BeautifulSoup

浏览 1提问于2017-09-10得票数 1

回答已采纳

2回答

我得到TypeError:列表索引必须是整数或切片，而不是字符串

、

我试图抓取这个页面的json脚本，但是由于某种原因，我得到了这个错误 import requests import json from bs4 import BeautifulSoup url = "https://www.amongstfew.com/drops" r = requests.get(url) soup = BeautifulSoup(r.content, 'html.parser') script = soup.find("script", class_="draw_data_json").string

浏览 14提问于2021-05-02得票数 0

2回答

使用Python读取和与HTML表交互

、、、

我正在尝试从一个HTML表中抓取信息，该表具有交互能力，可以在不同的时间段中筛选信息。示例表位于这个URL：上。我想在9:30开始，然后通过向前跳1分钟与桌子互动。我想将所有数据导出到DataFrame。我尝试过使用pandas.read_html()，也尝试过使用BeautifulSoup。这两种方法都不适合我，尽管我对BeautifulSoup缺乏经验。我的要求是可能的，还是网站保护这些信息免受网络抓取？任何帮助都将不胜感激！

浏览 5提问于2017-01-11得票数 0

回答已采纳

3回答

在谷歌学者上的网络抓取一直返回一个空列表

、、

我正在尝试通过网络抓取uni，但从谷歌学者那里很难做到这一点。我尝试过很多东西，显然都和.json()有关。我想做一个函数，输入像Apple和Samsung这样的品牌，并返回一个带有各自摘要的头部列表。有人能帮帮我吗？谢谢!下面，我已经写下了我到目前为止所做的事情，并讨论了我已经尝试过的其他一些事情。 from bs4 import BeautifulSoup import requests import csv import json brand = input("Enter Technology: ") source = requests.get('http

浏览 5提问于2020-07-23得票数 2

2回答

当web在Python中搜索表时，返回一个空表。

我需要通过使用Python中的BeautifulSoup库进行web抓取，从网站抓取一个表。来自URL https://www.nytimes.com/interactive/2021/world/covid-vaccinations-tracker.html 当我运行这段代码时，我得到了一个空表： import requests from bs4 import BeautifulSoup # vaacineProgressResponse = requests.get("https://www.nytimes.com/interactive/2021/world/covid-vacc

浏览 0提问于2021-04-18得票数 3

回答已采纳

1回答

抓取content-Type为application/ld+json的脚本标记

、、、

错误在jsn = json.loads(data.string)中。我想抓取评论者和收视率，但getting string as attribute error。你能帮帮我吗? 代码： from bs4 import BeautifulSoup import json import requests import pandas as pd r= requests.get('https://www.zomato.com/beirut/divvy-ashrafieh/reviews') soup = BeautifulSoup(r.text, "lxml")

浏览 91提问于2021-08-12得票数 1

回答已采纳

2回答

BeautifulSoup不抓取动态内容

、、、

我的问题是，我想从这个页面获取相关链接：如果我检查Chrome或Safari中的元素，我可以看到<div id="outer_related_articles">和列出的所有文章。如果我试图用BeautifulSoup抓取它，它将抓取页面和除相关文章以外的所有内容。到目前为止，我的情况如下： import urllib2 from bs4 import BeautifulSoup url = "http://support.apple.com/kb/TS1538" response = urllib2.urlopen(url) soup = Be

浏览 2提问于2013-04-07得票数 1

1回答

Web抓取- Understat顶级球员数据

、、

我一直在尝试从Understat网站()上抓取数据，虽然我可以很容易地抓取顶级球员的数据，但我不能对顶级球队的数据做同样的事情。请帮我弄一下这个。这是我的代码。 import pandas as pd from bs4 import BeautifulSoup from urllib.request import urlopen scrape_url="https://understat.com/league/EPL/2020" page_connect = urlopen(scrape_url) page_html=BeautifulSoup(page_connect,

浏览 14提问于2021-06-06得票数 0

1回答

抓取表仅返回“table”，而不返回表的内容

、、

图片描述如下： ? 抓取表只返回“table”，而不返回表的内容。这是我的code from urllib.request import urlopen from bs4 import BeautifulSoup url = "http://data.eastmoney.com/gdhs/detail/600798.html" html = urlopen(url) soup = BeautifulSoup(html, 'lxml') table = soup.find_all('table') print(table)

浏览 51提问于2020-05-04得票数 0

2回答

表的多个类名

、

我正在尝试使用BeautifulSoup抓取这个网页： import requests from bs4 import BeautifulSoup url = "https://en.wikipedia.org/wiki/List_of_countries_by_GDP_sector_composition#GDP_from_natural_resources" response = requests.get(url) wiki_soup = BeautifulSoup(response.text, "html") right_table= wiki_soup

浏览 4提问于2020-08-25得票数 1