从id更改的下拉框中使用Rselenium和Rvest进行网络抓取

文章/答案/技术大牛

发布

0回答

、、、

我希望从numberfire网站上获得一些NBA的日期：我正在尝试进入下拉框并将显示的数据从Fanduel切换到Draftkings。遇到的第一个问题是网页不会随着对下拉菜单的更改而改变。然而，下一个问题是这个站点上的下拉菜单的id (以及所有下拉菜单的id )会随着每次刷新而改变。这在R中导致了一个错误，因为它说有"NoSuchElement&quo

浏览 0提问于2016-12-29得票数 1

1回答

R/ Rvest / RSelenium:从JS站点刮取数据

、、、、

我是新的与R和Rvest的网络刮刮主题。使用rvest，您可以刮静态HTML，但是我发现，从基于JS的重站点中抓取数据是非常困难的。我找到了一些文章或博客文章，但它们似乎像一样被贬低了。在我的例子中，我想从体育博彩网站中获得赔率，但在我看来，由于JS，这在我看来是不可能的。2018年有一篇关于从PaddyPo

浏览 2提问于2020-09-13得票数 1

回答已采纳

1回答

R中的Web抓取作业门户

、、

我正在抓取一个求职门户网站。即使我更改了关键字搜索条件，它也返回相同的结果。看起来我在下面的代码中做错了什么-library(httr)candidate_title <- sas_indeed %>% htm

浏览 1提问于2017-03-30得票数 1

1回答

在R中使用`read_html`时缺少元素

、、、

我正在尝试使用rvest包中的read_html函数，但遇到了一个我正在努力解决的问题。例如，如果我试图读取出现在页面上的底部表格，我将使用以下代码：html_content <- read_html("https://projects.fivethirtyeight.com/2016-election-forecast/washington/#now&q

浏览 17提问于2016-08-31得票数 3

回答已采纳

1回答

rvest::html_text和RSelenium::getPageSource之间有什么区别？

、、、、

我正在抓取许多网页，在那里我注意到rvest (read_html，然后是html_text)提供的不同结果，以及RSelenium (getPageSource())提供的结果。更具体地说，当涉及下拉菜单时，使用html_text只给出选项的名称，而使用RSelenium时，您可以获得一旦选择一个页面的网址。我在这里的问题是：(1)为什么有差别，区别的本质是什么？(2)是否有一种方法可以获得与RSelen

浏览 1提问于2019-08-06得票数 3

回答已采纳

1回答

从404错误抓取URL中的数据-抓取

、、

我试图从一个网页上抓取数据，但我得到了一个404错误的网址如下。但是，我需要从浏览器中获取404链接中的数据。示例如下：library(rvest) url <- "http://www.uscho.com/scoreboard/division-i-men/20172018现在，例如，在您的web浏览器中搜索第200个示例()。你会得到这样<e

浏览 3提问于2018-05-28得票数 0

1回答

R数据抓取返回空表

、、

新编程和试图从下面的网站报废数据。当我运行下面的代码时，它返回一个空的数据集或表。任何帮助或替代将是非常感谢的。id=2003010003" html_node("dogruns_wrapper") %>% 尝试使用xpath和相同的结果，html_table()而不是文本返回一个错误，不适用于应用于

浏览 0提问于2018-09-09得票数 1

1回答

在R中抓取Javascript生成的内容

、、

我发现，通过获取生成网页的html代码，可以轻松地使用rvest包实现R中的web抓取任务。然而，当网站使用Javascript显示相关数据时，这种“通常”的方法(我可以这样称呼它)似乎遗漏了一些功能。作为一个工作的例子，我想从网站上抓取新闻标题。通常方法的两个主要障碍是底部的“load more”按钮和使用xpath提取标题。也就是说，在这种情

浏览 3提问于2016-01-05得票数 0

2回答

用无限滚动抓取动态电子商务页面

、、、

我正在使用R中的rvest进行一些抓取。我知道一些HTML和CSS。Linio_Celulares <- html("http://www.linio.com.co/celulares-telefonia-gps/&qu

浏览 22提问于2015-04-25得票数 22

回答已采纳

1回答

当页面末尾出现"Load more“选项时，使用rvest抓取数据

、、、、

我正在学习网络抓取，并试图从抓取信息。下面是我的代码: rm(list=ls())library(rvest)library(curl) html_text() a <- data.frame(quote, rating, date, stringsAsFactors = F

浏览 0提问于2016-05-31得票数 2

1回答

使用rvest进行Web抓取。返回为NA

、、

我对网络抓取非常陌生，我正在尝试从一个链接在这里()的五三八网站上获取5年的市场价值。这是我从rvest包中运行的代码。编辑:我尝试过使用RSelenium来做这件事，但是仍然没有返回值。我真的不知道问题出在哪里。代码如下： remD

浏览 0提问于2018-04-24得票数 0

2回答

使用R的rvest包和RSelenium进行网页抓取

、、、

我通常可以在rvest中使用read_html命令来抓取超文本标记语言的表格，但是对于一个特定的网站，我却遇到了一些麻烦。任何帮助都将不胜感激。下面是我的工作流程：library(rvest)url2 <- "http://priceonomics.comhotels/rankings/#airbnb-a

浏览 1提问于2016-08-09得票数 3

回答已采纳

1回答

如何使用rselenium并在R中单击锚标记链接？

、、、、

我一直在练习使用rselenium和rvest包在R中进行网络抓取。因此，对于登录到许多网站，有一个登录按钮，当点击弹出窗口打开询问用户的id和密码。这是锚标记的html (示例)。 <a href="/profile/login_input.htm?gd-btn-locked-transparent susiLink sign-in strong nowrap&

浏览 2提问于2020-04-19得票数 2

回答已采纳

1回答

使用R抓取包含Ajax表的网站

、、、

我是R的新手，一直在尝试抓取这个网站：单击表单下方的搜索按钮后，将显示该表。到目前为止，我已经尝试使用Rvest，但没有成功，因为我似乎找不到url或分页更改变量来尝试爬行站点上的表。我是否应该使用其他工具或Rselenium？

浏览 1提问于2018-07-16得票数 1

2回答

使用Rselenium滚动整个页面，然后将表格数据提取到数据框中

、、、

我目前正在尝试抓取一个网站与Rselenium，rvest和tidyverse的组合。目标是转到此this website，单击其中一个链接(例如，“促销”)，然后使用rvest提取整个数据表(例如，卡和分级价格)。使用下面的代码，我可以很容易地提取到表： library(RSelenium)library(tidyverse) pokemon <- read

浏览 48提问于2021-11-02得票数 2

回答已采纳

2回答

来自网站的节点不会抓取内容

、、

我曾尝试抓取新闻网站的内容(“标题”、“内容”等)，但我使用的节点不返回内容。library(rvest) url_test <- read_html('https:&#x

浏览 3提问于2019-08-15得票数 1

1回答

RSelenium -如何获取节点的子节点号及其xpath

、、、、

我正在使用RSelenium进行网页抓取。现在，我从一个动态生成的web页面中获得了某个XML节点的xpath。子节点属于同一类型。但是，我没有关于子节点数量的先验知识。1)节点的子节点数。2)上面的xpath。我的目标是在每个子节点中应用操作(例如，填充、检查或单击，这取决于节点的类型)。我在chrome中看到一些使用xpath helper的xpath。优选

浏览 16提问于2016-08-05得票数 0

回答已采纳

2回答

网络刮削中空白的NA

、、、

我想刮一下下面提到的页面，但是在“.trans-区段”节点中有一些空白。横截面节点捕获“标题”和“描述”。在某些表中，标题将出现，但缺少描述。，我希望当描述是空白的时，数据被NA填充。因为两个节点都是相同的，所以我不会得到任何空行。请帮我一下。网站链接：library(httr) rm(Data),Others$sequence == 1

浏览 3提问于2017-08-23得票数 1

1回答

查找带有最后页号的html节点

、、、

我正在学习网络抓取，并为自己创建了一个小小的练习来刮除菜谱网站的所有标题：。(我受到这篇文章的启发：)。我想刮掉最后一个页码的值，也就是(在写文章时)编号64。您可以在底部找到页数。我看到这是存储为“.a.facetwp page的最后”，但由于某种原因不能访问此节点。我可以看到，页码值被存储为'data- page '，但是我无法通过'html_attrs‘获得这个值。我相信父节点是“div.facetwp寻呼机”，我可以按以下方式访问

浏览 2提问于2020-05-29得票数 2

回答已采纳

1回答

如何使用xpath检查对象在网页中是否可见？

、、、、

我正在使用R中的RSelenium包进行网络抓取。有时在加载网页之后，需要检查一个对象在网页中是否可见。例如：RSelenium::startServer()remDr <-，我应该使用什么功能“存在”？我还找到了用于使用"<em

浏览 2提问于2015-12-07得票数 8

回答已采纳

点击加载更多