如何使用rvest收集此表中的所有urls？

rvest是一个R语言的网络爬虫包，用于从网页中提取数据。要使用rvest收集表中的所有URLs，可以按照以下步骤进行操作：

安装rvest包：在R语言环境中，使用以下命令安装rvest包：

install.packages("rvest")

导入rvest包：在R语言环境中，使用以下命令导入rvest包：

library(rvest)

获取网页内容：使用read_html()函数获取目标网页的HTML内容。假设目标网页的URL为https://example.com/table.html，可以使用以下代码获取网页内容：

url <- "https://example.com/table.html"
page <- read_html(url)

定位表格：使用CSS选择器或XPath表达式定位包含目标URL的表格。假设目标表格的CSS选择器为table#urls-table，可以使用以下代码定位表格：

table <- html_nodes(page, "table#urls-table")

提取URLs：使用html_nodes()和html_attr()函数提取表格中的URLs。假设URLs所在的HTML元素为<a>标签，可以使用以下代码提取URLs：

urls <- html_nodes(table, "a") %>% html_attr("href")

处理URLs：根据需要进行URL的处理，例如去除重复的URL、过滤特定条件的URL等。

通过以上步骤，你可以使用rvest包收集表中的所有URLs。请注意，以上代码仅为示例，实际应用中需要根据具体情况进行调整。

腾讯云相关产品和产品介绍链接地址：

腾讯云官网：https://cloud.tencent.com/
腾讯云爬虫服务：https://cloud.tencent.com/product/crawler
腾讯云数据万象（用于图片、音视频等多媒体处理）：https://cloud.tencent.com/product/ci
腾讯云人工智能：https://cloud.tencent.com/product/ai
腾讯云物联网：https://cloud.tencent.com/product/iotexplorer
腾讯云移动开发：https://cloud.tencent.com/product/mobdev
腾讯云对象存储（用于存储）：https://cloud.tencent.com/product/cos
腾讯云区块链服务：https://cloud.tencent.com/product/tbaas
腾讯云元宇宙：https://cloud.tencent.com/product/tencent-metaverse

如何使用rvest收集此表中的所有urls？

、、、

我正在尝试获取表here第一列中的所有链接我只能获得第一个链接/行。library(rvest) url <- "https://di.hkex.com.hk/di/NSSrchPersonList.aspx?

浏览 26提问于2019-06-23得票数 3

1回答

在网页中查找元素- Rselenium/rvest

、、

我正在尝试从这个网站- 收集所有的个人网址(律师的网址)。我找不到一种方法来提取URLs当我使用CSS选择器时，它不工作。你能推荐其他在网页中找到特定元素的方法吗？另外，为了收集所有需要的数据，我点击按钮"Load More“，我使用的是RSelenium。我认为我在通过docker运行Rselenium时没有做正确的事情，因为它出现了错误- checkError(res

浏览 1提问于2018-11-11得票数 1

1回答

错误:无效的下标类型'list‘(Webscraping)

、、

我正在尝试从以下url中抓取数据-：我想单击每个大学的名称并获取每个大学的特定数据。首先，我收集了一个矢量形式的所有大学网址：library(xml2)library(stringr) #Create an html document from the url webpage <- xml2::read_html(url

浏览 0提问于2019-02-04得票数 1

2回答

使用R提取html_table中每个单元格中的链接而不是字符

、、、、

我尝试使用R中的rvest包使用脚本提取多个html_table：library(dplyr)library(tidyverse)urls <- paste('https://asbdavani.org/horse/foals/', jump, sep=

浏览 6提问于2021-10-02得票数 3

回答已采纳

1回答

我想使用r中的rvest遍历包含url的数据。

、、

首先，我从一个网站上抓取了一定数量的urls，并将它们收集到一个数据文件中。但是，我想循环我收集到的urls到dataframe中。这是我的密码：library(XLConnect) urls &l

浏览 2提问于2016-10-24得票数 0

回答已采纳

1回答

R:网络抓取: XML内容似乎不是XML:使用HTMLParse

、、、、

我试图通过网络抓取多年来的数据(由不同的网页表示)。我的2019年数据完全按照我想要的那样工作，但当我尝试像2019年数据一样准备2016年的数据时，我得到了一个错误。filter(cleanData19, cleanData19$combine.Pos == 'CB' | cleanData19$combine.Pos == 'S') cleanData19正是我想要的，但是当我尝试用2016年的数据运行它时，我得到了错误: X

浏览 3提问于2020-11-14得票数 0

回答已采纳

2回答

错误:当前工作目录中不存在“NA”(Webscraping)

、、

我试图从下面的url-：网站上抓取数据，我想点击每一所大学的名称，并为每一所大学获取特定的数据。首先，我收集了所有的大学网址在一个向量-：library(xml2)library(stringr)到目前为止工作还不错，但是当我对每个url使用read_html时，它会显示出一个错误。我甚至使用了“中断”命令，但仍然是相同的错误-： #Readi

浏览 0提问于2019-02-04得票数 5

回答已采纳

1回答

r:使用purrr：：安全地处理urls抓取失败的urls

、、

我正试图用rvest和purrr::map在网上刮几个页面。但是，我不知道如何使用purrr::safely来处理失败的链接。请使用以下代码：library(purrr) urls <- list("https://en.wikipedia.org/wiki/FC_Barcelona","https://en.wikipedia.org

浏览 1提问于2019-05-09得票数 1

回答已采纳

1回答

网络抓取数据:哪个口袋妖怪可以知道哪些攻击？

、、

我正在尝试创建一个表(150行，165列)，其中：以下是所有的名字： [1] "Bulbasaur" "Ivysaur" "Venusaur" &quo

浏览 6提问于2022-04-04得票数 1

回答已采纳

1回答

从r中的多个urls中进行from抓取

、

我正在尝试从多个urls中抓取表。我使用以下代码从单个url中抓取表：library(rvest) html_element('table.table_subtle') %>% html_ta

浏览 4提问于2022-08-05得票数 0

回答已采纳

1回答

抓取每个链接页面并将其存储为XML表

、、

你好，我刚开始使用R从互联网上抓取数据，不幸的是，我对HTML和XML知之甚少。我试图抓取以下父页面上的每个故事链接：我不关心父页面上的任何其他链接，但需要创建一个表，为网址，故事的标题列，然后为页面的完整文本(可以是几个文本段落)休息。我尝试使用rvest包，得到了urls，但真正的问题是遍历所有文章，提取文本并将所有内容存储在一个表中。对于谷

浏览 2提问于2018-06-04得票数 0

1回答

R:使用rvest和purrr:map_df构建一个数据框架:如何处理不完全输入

、、

我正在用rvest在网页上抓取网页，并使用purrr::map_df将收集到的数据转化为数据。我遇到的问题是，并不是所有的网页都有我指定的每个html_nodes上的内容，而map_df忽略了这些不完整的网页。我希望map_df包含上述网页，并在NA与内容不匹配的地方编写html_nodes。请使用以下代码：library(tidyverse) <

浏览 1提问于2019-05-02得票数 1

回答已采纳

1回答

使用rvest包跨多个页面抓取内容

、、

我是一个非常新手的R程序员，但我一直在尝试使用rvest包从一所在线大学的网站上进行一些网络抓取。我从网页上抓取的第一个信息表是所有提供的博士水平课程的列表。("http://www.capella.edu/online-phd-programs/") 使用chrome中的选择器小工具，我可以在想要提取的

浏览 2提问于2016-03-18得票数 0

2回答

使用rvest从ballotpedia.org中抓取表格数据

、、

我正在尝试收集以前美国全州选举结果的表格数据，我认为ballotpedia.org是一个很好的地方来获取这些数据-因为所有州的URL格式都是一致的。下面是我用来测试它的代码：library(rvest) senate_base_url<- "https://ballotpedia.org/Un

浏览 6提问于2018-08-01得票数 1

回答已采纳

1回答

使用rvest解析R中的表和urls

、、、

很抱歉又问了一个尖锐的问题。我需要这个表中的数据：http://rspp.ru/tables/non-financial-reports-library/它包含俄罗斯公司的非财务报告。刮掉它是合法的。为了研究的目的，我需要做一些文本挖掘。理想情况下，我需要以下输出: company - year - report URL。下面是我的脚本： library(rvest) librar

浏览 9提问于2020-12-11得票数 0

回答已采纳

1回答

使用rvest和purrr::map_df构建一个数据框架:处理多元素标记

、、

(以我自己的问题及其答案为基础，@astrofunkswag ) 我正在用rvest在网页上抓取网页，并使用purrr::map_df将收集到的数据转化为数据。我遇到了这样的问题：map_df只选择带有多个元素的html标记的第一个元素。理想情况下，我希望在生成的dataframe中捕获标记的所有元素，并且希望回收元素较少的标记。请使用以下代码：

浏览 0提问于2019-05-03得票数 2

回答已采纳

1回答