使用R从网页中抓取表格和链接

我使用的数据来自印度尼西亚的一个网站，其中包含一个动态生成的表格(针对不同年份和省份)(在我看来) javascript。我尝试使用R(使用R Studio)实现自动化。网站是http://dibi.bnpb.go.id，表格在子网站“箭头-->标签”上(我不能直接提供到页面的链接，因为它是动态生成的) 我已经搜索了解决这个问题的api，但还没有成功。即使我点击整个页面，链接也不会更新。我通

浏览 13提问于2019-08-26得票数 0

回答已采纳

1回答

分析链接时，BeautifulSoup返回空列表

、、

我是网络抓取的新手，我正在尝试使用BeautifulSoup从网站中提取链接和表格数据。但是，即使网页中有链接，它也会返回none。我可以通过在浏览器中查看网页来找到链接。下面是我使用的代码 from bs4 import BeautifulSoup as soup driver = webdriver.Chromed

浏览 23提问于2020-04-04得票数 0

1回答

R编程Web抓取

、

我试着从下面的链接中抓取网页，使用R编程中的R背心包。我抓取的链接是library("xml2") url<-read_html("http://dk.farnell.com/c/office-computer-networking-productsView(tbls_

浏览 13提问于2017-12-22得票数 1

3回答

从Morningstar网站抓取财务数据

、、

到目前为止我的代码如下：

浏览 3提问于2016-02-27得票数 3

1回答

从R中的网页中抓取链接

、

我也想获得到属性的链接--但出于某种原因，我并不是从每个页面获得所有链接，这段代码可以工作，但只适用于第一页。关于link提取，我缺少什么？

浏览 3提问于2022-04-15得票数 0

回答已采纳

1回答

用BeautifulSoup超链接访问表格数据

、、、、

对于使用BeautifulSoup，我仍然有一些不理解的地方。import requests data = r.text# soup.find_all('a') grabs all elements with <a> tag for hyperlinks 然后，要检索和打印具有“href”属性

浏览 2提问于2015-10-14得票数 2

回答已采纳

1回答

使用R刮取链接列表

、、

我想使用R抓取和提取所有相关链接的列表，例如：这里的菜系被划分为区域、种族等，它们本身就是链接，进一步细分为更多的链接和等级。我想在R中提取整个层次结构，使用通用的RegEx来定义链接将返回网页中的所有链接，但我希望有一个表，其中列出了所有依赖项，例如：中欧菜系一览表我知道如何使

浏览 3提问于2015-10-16得票数 0

回答已采纳

1回答

使用BeautifulSoup在Python上抓取列表

、、

我是Python的新手，我试着学习如何使用BeautifulSoup来刮网页。首先，我只是使用yahoo.com的HTML代码：我想刮掉从第577行开始，以633结尾的链接列表，然后获取它们的URL和标题，并将其放在Python中的表中。yahoo = BeautifulSoup(myPage.content) YahooList = yahoo.find('ul',

浏览 2提问于2016-02-09得票数 1

1回答

在R中使用JavaScript从网页中抓取链接

、

我试图从中抓取单个提供商的urls。我查看了页面源代码并确定了感兴趣的urls。

浏览 0提问于2017-01-03得票数 0

1回答

如何使用autoHotKey从网页中抓取表格？

如何使用autoHotKey AHK从网页上抓取表格？我使用AHK登录到一个页面，现在只想从该页面抓取表格，该页面有很多数据，包括多个表格。

浏览 53提问于2020-02-04得票数 0

3回答

Python -抓取谷歌的简单方法，为给定的搜索下载前N个命中结果(整个.html文档)？

、、、

有没有一种简单的方法来抓取谷歌，并为给定的搜索写出前N个(比如说1000个) .html (或其他任何)文档的文本(只是文本)？举个例子，想象一下搜索短语“大灰狼”，只下载前1000个点击量中的文本--也就是说，实际上是从这1000个网页中下载文本(但只下载那些页面，而不是整个网站)。我假设这将使用urllib2库？如果有帮助的话，我会使用Python 3.1。

浏览 2提问于2011-03-16得票数 10

回答已采纳

1回答

使用python抓取URL不变的多个表的最佳资源

、、

我想在有下一步链接的网页上抓取表格，但是当你点击这些下一步按钮时，URL不会改变。使用python (BeautifulSoup，请求)学习抓取这类表的最好/最简单的资源是什么？例如，我如何抓取上的表。

浏览 1提问于2017-11-15得票数 0

2回答

正在尝试从R中的url加载数据

、

所以我想从这个url加载所有格式化的数据：XML content does not seem to be XML: 'https://data.mo.gov/Government-Administration

浏览 3提问于2016-04-07得票数 0

0回答

使用多个下拉选项从.aspx网页中抓取表格

我想从这个页面中抓取表格的数据。它们要求选择多个选项，如“商品”、“状态”、“年”和“月”。然后需要按提交按钮才能获得表格。我的尝试是收集与"Commodity"="Tomato"，"state"="Karnataka"，"year"="2016“和”MONTH“=所有月份数据相关联的表。我正在使用R中的以下代码 url<

浏览 8提问于2017-06-07得票数 0

回答已采纳

1回答

使用Mechanize将HTML注入页面

、、、、

我正在写一个网页抓取程序，以便从网站上获得我的成绩。我使用Mechanize登录页面并导航到我要抓取的区域。不幸的是，页面使用Javascript对页面进行加密(可能是为了阻止我抓取)。它起作用了，我用它从页面中提取加密的字符串，当我转换它时，它变成了HTML中的一个表。那么，为了达到我的观点，有没有什么方法可以把HTML重新注入到页面中，并使用mechanize来使用表格上的<e

浏览 3提问于2013-01-14得票数 1

回答已采纳

2回答

使用漂亮的汤从网页中的url中抓取数据。Python

、、

我正在尝试从网页内的url中抓取数据(insta id和关注者计数)：，https://starngage.com/app/global/influencer/ranking/india url的元素id是：@priyankachopra 类似地，我想从同一个表中的所有链接中抓取数据有人能告诉我怎么做吗？import requests from bs4 impor

浏览 20提问于2021-07-17得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云