首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Rstudio Webscraping - Rvest返回字符(0)

Rstudio Webscraping - Rvest返回字符(0)
EN

Stack Overflow用户
提问于 2020-03-05 13:35:56
回答 1查看 570关注 0票数 1

我正在做一个本科生项目,我需要从多个airbnb列表中通过网络抓取以下数据。

下面是一个示例:https://www.airbnb.com.sg/rooms/49091?_set_bev_on_new_domain=1582777903_ZWE4MTBjMGNmYmFh&source_impression_id=p3_1582778001_lB%2BjT8%2BWgIsL%2FrBV

我需要的以下数据是1位客人,1间卧室,1张床,1间浴室。然而,当我使用CSS选择器工具时,我的以下路径是"._b2fuovg“。

当我运行以下代码时,这将返回字符(0)。

代码语言:javascript
运行
复制
library(rvest)
library(dplyr)

url1 <- read_html("https://www.airbnb.com.sg/rooms/49091?_set_bev_on_new_domain=1582777903_ZWE4MTBjMGNmYmFh&source_impression_id=p3_1582778001_lB%2BjT8%2BWgIsL%2FrBV")
url1 %>%
  html_nodes("._b2fuovg") %>%
  html_text()

下面的输出是

代码语言:javascript
运行
复制
> url1 %>%
+   html_nodes("._b2fuovg") %>%
+   html_text()
character(0)

非常感谢任何正确方向的建议或指导!:)

EN

回答 1

Stack Overflow用户

发布于 2020-03-05 14:02:21

我推荐使用Selector Gadget来确定要抓取的节点:https://selectorgadget.com/

它的工作原理是点击你想要的信息。也将包括的其他信息将以黄色显示。如果你不想要它们,点击它们将它们变成红色。你会注意到在你的屏幕底部有一个带有一些文本的小工具栏。这就是您想要包含在html_nodes()中的内容。在本例中,我得到了"._1b3ij9t+ div“。果然,这似乎起作用了:

代码语言:javascript
运行
复制
url1 %>%
  html_nodes("._1b3ij9t+ div") %>%
  html_text()
[1] "1 guest · 1 bedroom · 1 bed · 1 bathroom"
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60538787

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档