使用Rvest抓取文本、表格，并从多个页面中组合这两者

、、、、

我有一种情况，我想要在不同的urls上抓取多个表。我确实设法抓取了一个页面，但是当我试图抓取页面并将表堆叠为dataframe/list时，我的函数就失败了。library(rvest)library(purrr) urls <- paste0("https:results <- list() results[[i]] <- m

浏览 21提问于2020-11-02得票数 2

回答已采纳

1回答

使用rvest抓取名称相似的表

、、、

我正在尝试使用rvest从fbref.com上的不同页面抓取数据表。我已经能够使用以下命令从一个页面中抓取数据：URL <- "https://fbref.com/en/squads/822bd0ba/Liverpool"passStats <- WS %>

浏览 5提问于2020-06-02得票数 1

回答已采纳

1回答

如何将最优惠产出转化为表

、、、

我一直在玩数据抓取使用"rvest“包。在这个例子中，我从维基百科上的一个表格中抓取了美国的州人口。我使用的代码是：statepop = read_html("https://en.wikipedia.org/wiki/List_of_U.S.[17] "698,487"

浏览 6提问于2017-02-17得票数 0

1回答

抓取每个链接页面并将其存储为XML表

、、

你好，我刚开始使用R从互联网上抓取数据，不幸的是，我对HTML和XML知之甚少。我试图抓取以下父页面上的每个故事链接：我不关心父页面上的任何其他链接，但需要创建一个表，为网址，故事的标题列，然后为页面的完整文本(可以是几个文本段落)休息。我尝试使用rvest包，得到了urls，但真正的问题是遍历所有文章，提取文本并将所有内容存储在一个表中。对于谷歌新闻应用程序： library(<

浏览 2提问于2018-06-04得票数 0

2回答

在R中从Wikipedia中抓取多个表

、、、

我正在尝试使用R中的rvest库来抓取这个Wiki页面的内容。我想提取4个表格，其中包含2019年宝莱坞电影wrt发行的数据(1月至3月、4月至6月、7月至9月、10月至12月)。已经做了url <- "https://en.wikipedia.org/wiki/List_of_Bollywood_films_of_2019" webpage <-ignore

浏览 2提问于2019-12-31得票数 2

回答已采纳

1回答

使用rvest和map函数将使用相同url的两个单独的网页抓取合并为一个抓取

、、

我已经成功地组合了两个独立的抓取函数，它们可以正常工作，但我想通过弄清楚如何使用purrr中的map函数将它们组合成一个抓取函数来继续我的学习。这两个抓取甚至来自活动页面的索引，我称之为"url_final“。下面是使用大索引"url_final“作为.x的第一个单独的抓取函数：library(curl) n

浏览 18提问于2020-06-03得票数 0

回答已采纳

1回答

从具有跨越多个页面的表格的网页中抓取信息

、、

我正在使用R中的rvest包，我想从一个只包含大约40%的总信息的表中抓取一些数据。我关注了HTML，但它没有指定当不同页面的地址没有差异时如何抓取数据。我正在尝试从获取一些工作列表数据。我已经使用以下代码成功地检索了第一页上的数据： read_html( ) html_node('

浏览 2提问于2018-06-20得票数 0

1回答

在R中使用`read_html`时缺少元素

、、、

我正在尝试使用rvest包中的read_html函数，但遇到了一个我正在努力解决的问题。例如，如果我试图读取出现在页面上的底部表格，我将使用以下代码：html_content <- read_html("https://projects.fivethirtyeight.com/2016-election-forecast/washington/#now") 通过检

浏览 17提问于2016-08-31得票数 3

回答已采纳

2回答

+选择器小工具返回空列表

、、

我试图从维基百科表格(一个相当通用的抓取任务)中收集政治支持数据，而在选择器小工具标识的css路径上使用rvest的常规过程正在失败。wiki页面是，css路径.jquery-tablesorter:nth-child(11) td似乎选择了页面的右边部分。 "https://en.wikipedia.org/wiki&#x

浏览 2提问于2015-08-24得票数 1

回答已采纳

1回答

使用rvest抓取多个URL

、、、

在rvest中使用read_html时如何抓取多个urls？目标是从相应的urls中获得一个由文本主体组成的单个文档，以在其上运行各种分析。但是，我是否可以使用不同的函数或转换，以便同时抓取几个页面？

浏览 8提问于2020-02-25得票数 1

回答已采纳

2回答

在使用rvest抓取时缺少值的地方输入NA

、、

我想使用rvest来抓取一个页面，该页面包含最近一次会议上的演讲的标题和运行时间，然后将这些值组合到一个tibble中library(rvest) html_nodes(".tile .caption") %>%

浏览 41提问于2017-08-27得票数 2

回答已采纳

2回答

抓取器刮不出页面。

、、

我正在使用Rcrawler提取维基百科页面的信息框。我有一个音乐家的名单，我想提取他们的名字，道布，死亡日期，乐器，标签等。然后我想创建一个所有艺术家的数据作为行和数据存储为列/向量。当我单独使用rvest时，代码中使用的xpath是有效的。我的密码怎么了？

浏览 2提问于2018-07-31得票数 1

回答已采纳

1回答

我试图在多个页面中获取网页抓取的分数，遗憾的是，我在选择器中遇到了问题(我使用了SelectorGadget，但没有成功)。我已经成功了，只有个人网页抓取 library(rvest) points <- read_html("https://www.winemag.com/buying-guide/lagar-de-bezanaaluvion-ensamblaje-red-cachapoal-v

浏览 13提问于2020-01-24得票数 0

回答已采纳

1回答

R编程Web抓取

、

我试着从下面的链接中抓取网页，使用R编程中的R背心包。我抓取的链接是library("xml2") 我的要求是希望从结果中删除\\n,\\t。我想

浏览 13提问于2017-12-22得票数 1

1回答

在Wiki的网球桌上使用Rvest进行Web抓取

、、

我在这里，完全是一个R的初学者，我正在努力学习更多关于rvest的知识和如何从网络上抓取。这是维基页面()，下面是我想转移到R的表格。library(rvest) tennis <- read_html("https://en.wikipedia.org/wiki/Andy

浏览 2提问于2016-08-19得票数 2

回答已采纳

1回答

从R中的HTML中刮取类似表格的索引

、、、

我目前正致力于从ICPSR的路径调查数据中抓取表，该表包含变量ID、问题文本、变量类型和原始数据集。我的最终目标是通过在R中抓取这些信息来创建一个包含变量it及其相应的问题文本的电子表格库存矩阵，但是我很难让它正常工作。简单地说，，，我的目标是将上面的url中显示的表放入电子表格中。我尝试过使用rvest、XML和许多其他包/策略(read.table、htmltab、h

浏览 1提问于2021-08-13得票数 0

回答已采纳

1回答

在R中刮取HTML文本的某一部分

、、

我试图刮一个国家气象局的网页，只取一部分文本，并将其变成R中的字符对象，这将是一个小段落，如NWS页面所示。(见下文) html_nodes("#localcontent") %>%我还尝试用下面的代码同时使用product=AFD&format=txt

浏览 5提问于2017-05-24得票数 1

回答已采纳

1回答

and抓取选择器小工具和rvest的问题

、、、

我正在尝试使用SelectorGadget和rvest从https://3g.dxy.cn/newh5/view/pneumonia中抓取数据我用下面的代码成功地抓取了页面中的一些文本。library(rvest) url <- 'https://3g.dxy.cn/newh5/view/pneumoni

浏览 16提问于2020-01-28得票数 1

回答已采纳

1回答