使用不同长度的R向量进行网页抓取的循环页面

、、

我正在努力收集工作岗位和公司的数据。我的目标是创建一个循环，这样它就可以抓取给定数量的页面。问题是，抓取的向量的长度对于所有人来说都不是相同的，因为，例如，不是所有的工作机会都显示工资。有没有办法用NA值“填充”相应的空格，使向量具有相同的长度？

浏览 4提问于2021-03-04得票数 1

1回答

使用循环/自动化进行html web抓取

、、、

我正在执行网络抓取在R(使用rvest)的一个特定的数据集在各种网页上。所有的网页都是相同格式的，所以我可以从每个页面的位置提取目标数据，使用正确的节点，没有问题。然而，有100个不同的网页，都有相同的网址(除了结尾)。是否有一种方法可以使用循环自动执行流程？我使用以下代码：

浏览 11提问于2022-07-05得票数 1

回答已采纳

1回答

从一组节点中删除特定的html节点

、

我想从R中的中抓取报告，所有的工作都与我的以下代码很好，此外，一些报告包含一个嵌入在报告下的元素，这是报告文本的CSS节点的一部分。例如，有一个嵌入的文本"How to get a LPG gas connection“。因此，我最终得到了不同页面的不同长度的字符向量，这取决于具有嵌入元素的报表的数

浏览 0提问于2020-01-10得票数 0

1回答

为什么NA==NULL，NULL==NULL打印逻辑(0)？

为什么NULL==NULL的结果是logical(0)而不是TRUE？

浏览 0提问于2019-09-29得票数 3

1回答

使用rvest和for循环进行高效抓取

、、、

我正在尝试使用rvest来收集大量的辩论。辩论发生在不同的网页上，我从搜索结果中收集这些网页的urls。有超过1000页的搜索结果，其中有20,000页的辩论(即20,000个urls)。我目前的方法成功地从辩论页面中抓取了我需要的数据，然而，对于任何超过20页的搜索结果(即20,000个urls中只有400个)，处理过程需要非常长的</

浏览 18提问于2019-12-11得票数 1

1回答

如何重新调整点阵的比例？

=csvdata[,'X'])for(i in 1:nrow(csvdata)) {} 我在这里做的是重新缩放密度函数，它总是高于0，从我的图表底部显示，它是-20，并且总是适合顶部，它是+20，所以我更容易发现线条中的任何不规则。现在如你所见，我是通过循环来做这件事的，但也许有一些内置的内嵌代码？

浏览 0提问于2010-12-10得票数 3

回答已采纳

1回答

结合变长向量R

、

我想把不同长度的向量结合在一起。我查找了线程，但不清楚如何使用追加或cbind创建矩阵/列表。举个例子，让我们取两个不同长度的随机向量：> d<-sample(10,10)> cbind(b[9,] 4 9 [10,

浏览 5提问于2013-08-21得票数 0

回答已采纳

2回答

R for循环中的变量

、

我在R中运行一个循环，当向量的元素等于参考向量的元素时，查找向量的索引。k <- 1 for(i in 1:length(Lid.tim

浏览 2提问于2012-11-10得票数 0

回答已采纳

1回答

在木星笔记本上使用python请求和异步抓取JavaScript页面

、、、

--这与大不相同，因为这个问题甚至不使用请求进行抓取，而是只用于会话和获取页面内容。我对美汤的使用方式也是如此。我也尝试过。但他们也没有解释如何有效地使用请求获取JavaScript内容。我试图从JavaScript代码呈现的网页中抓取信息。我在木星笔记本中使用requests模块。r = await asession.get('http://p

浏览 3提问于2019-10-29得票数 1

2回答

==给出奇怪的结果R

、、

我正在尝试用R编写下面的代码，并期望两个条件语句给出相同的结果，但事实并非如此。请帮助理解这种行为。

浏览 2提问于2020-04-28得票数 1

1回答

跳过R循环中的错误，并在每次迭代中暂停该过程

、、、

我有两个关于R循环的问题。 big.data <- rbind(newdata, big.data)} 但是，有时web页面没有相应的表(在本例中

浏览 0提问于2018-04-14得票数 0

回答已采纳

2回答

R语言:如何处理动态大小的向量？

我正在学习R编程，并试图理解当您不知道向量的最终大小时，使用向量的最佳方法。例如，在我的例子中，我需要在for循环中构建向量，但只针对一些事先不知道的迭代。方法1 我可以第一次遍历循环以确定最终的向量长度，将向量初始化为正确的长度，然后第二次遍历循环以填充向量</em

浏览 1提问于2015-06-04得票数 0

1回答

当我使用dplyr过滤时，为什么只打印部分数据？

、、

我的代码如下：7 2 449 3 5311 3 59如何查看满足过滤器的整个数据集

浏览 0提问于2018-07-26得票数 0

1回答

R编程Web抓取

、

我试着从下面的链接中抓取网页，使用R编程中的R背心包。我抓取的链接是library("xml2") 我

浏览 13提问于2017-12-22得票数 1

1回答

如何按字典顺序遍历所有可能的长度一定的向量？

、、、

假设我们有一个长度为4的向量，其中每个元素都可以是一个从0到9的数字。例如：<1, 8, 0, 3> 我希望以特定的顺序循环，而不是简单地循环所有10^4个可能的向量。., <9, 0, 0, 0>, <0, 1, 0, 0> 以此类推(注意最后两个中的顺序)。我想不出一种方法来为可变向量长度写这个。假设我们在第i次迭代中，拥有我上面提到<em

浏览 6提问于2019-05-16得票数 0

回答已采纳

1回答

Python :如果满足特定条件，如何使用不同的抓取页面重复“bs4”循环？

、、

我正在尝试创建一个for循环，一旦它到达抓取的页面中的最后一个search_result属性，它将重复该循环，但会使用新抓取的网页的数据。在for循环到达最后一个属性后，它将在网页上查找链接，并对新抓取的网页重复该循环。我已经写了下面的代码，但循环不会重复从原始网页

浏览 7提问于2019-08-16得票数 1

回答已采纳

1回答

R中“from”循环中不同长度的向量:数据帧中的合并

、、

我在R中有以下基本问题。 data[k,] <- ... 其中，点表示生成<

浏览 0提问于2013-08-20得票数 0

回答已采纳

1回答

HTML -请求，如果呈现HTML时为TimeoutError，则跳过

、、、、

我正在使用HTML请求的网页抓取脚本工作。我抓取URL，然后遍历它们并提交到数据库。我已经能够抓取链接，并创建了一个for循环来呈现页面，然后抓取特定的产品信息。对于大多数链接，这是有效的，但对一些人来说，页面不会呈现，我得到了一个pyppeteer.errors.TimeoutError。我不会刮掉一些链接，因为大多数网站信息都是抓取的。我已经

浏览 54提问于2021-04-22得票数 1

3回答

当URL具有产品id而不是真值时，抓取网站中的信息

、、

我猜是它的php，但是最好的方法是做一个循环，从一个使用id的网页中抓取cURL信息，比如(?ProductId=103)大约有1200个页面。我需要找到每页上第9个跨度的innerHTML。此信息将只存储在一个mySQL表(id->值)中，以备将来对此站点进行抓取。

浏览 2提问于2011-01-28得票数 1

回答已采纳

1回答

从具有跨越多个页面的表格的网页中抓取信息

、、

我正在使用R中的rvest包，我想从一个只包含大约40%的总信息的表中抓取一些数据。我关注了HTML，但它没有指定当不同页面的地址没有差异时如何抓取数据。我正在尝试从获取一些工作列表数据。我已经使用以下代码成功地检索了第一页上的数据： read_html( ) data_raw <- job_pa

浏览 2提问于2018-06-20得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用循环/自动化进行html web抓取

从一组节点中删除特定的html节点

为什么NA==NULL，NULL==NULL打印逻辑(0)？

使用rvest和for循环进行高效抓取

如何重新调整点阵的比例？

结合变长向量R

R for循环中的变量

在木星笔记本上使用python请求和异步抓取JavaScript页面

==给出奇怪的结果R

跳过R循环中的错误，并在每次迭代中暂停该过程

R语言:如何处理动态大小的向量？

当我使用dplyr过滤时，为什么只打印部分数据？

R编程Web抓取

如何按字典顺序遍历所有可能的长度一定的向量？

Python :如果满足特定条件，如何使用不同的抓取页面重复“bs4”循环？

R中“from”循环中不同长度的向量:数据帧中的合并

HTML -请求，如果呈现HTML时为TimeoutError，则跳过

当URL具有产品id而不是真值时，抓取网站中的信息

从具有跨越多个页面的表格的网页中抓取信息

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐