首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >R中的WebScraping动态页

我会改变网站,把这个问题做得更好。仍然面临着类似的问题,不能只使用rvest包,也许用RSelenium可以更容易地获得答案。网站:http://ravimaailma.fi/cg/tulokset/20/和我想从主要文章获得链接,这将引导我到个人比赛结果。链接看起来像这样:http://ravimaailma.fi/article/tulokset/pori-18-11-2017-tulokset/8718/

我正在尝试使用简单的Rvest,因为我认为这是这里所需要的。SelectorGadget以.article-title a的形式给出了链接CSS,所以我的代码很简单

代码语言:javascript
运行
AI代码解释
复制
url %>%
  read_html() %>% 
  html_nodes(".article-title a") %>% 
  html_text()

这将不会返回任何内容。当你向下滚动时,网站会加载更多的结果,但我想我至少会得到第一个结果。下面给出了一些链接,链接28:32看起来很有希望,但我认为它们是来自侧边栏的链接,而不是来自文章的链接。

代码语言:javascript
运行
AI代码解释
复制
url %>%
  read_html() %>% 
  html_nodes("a") %>% 
  html_attr("href")

我在这里做错了什么,RSelenium能帮助我吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-11-19 08:32:49

这是我的部分答案,仍然没有得到全部,但可能对某些人有帮助。代码将为第一个结果返回1个链接。不知道为什么它不能给他们全部。我正在使用

代码语言:javascript
运行
AI代码解释
复制
library(RSelenium)
rD <- rsDriver(port = 4444L,  browser = "chrome")

remDr <- rD[["client"]]
remDr$navigate("http://ravimaailma.fi/cg/tulokset/20/")

elem <- remDr$findElement(using="css selector", value=".article-title a")
elemtxt <- elem$getElementAttribute("href")

#Click button to load more results
#button <- remDr$findElement(using="id", value="loadmore")
#button$clickElement()

remDr$close()

我还没有使用按钮点击,但它似乎工作得很好。唯一的问题是我不能从网站上得到所有的结果。

票数 1
EN

Stack Overflow用户

发布于 2017-09-15 09:32:20

我还不被允许写评论,所以我选择让这篇文章成为一个答案,RSelenium并不总是必要的,你也可以直接使用PhantomJS (参见this example)与网站交互。

如果您提供了一个来自网站的示例,而不是指向.pdf的本地链接,我可以尝试找出如何检索数据。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45585575

复制
相关文章
唯美动态404网页
超可爱的唯美动态404单页,图片我已上传至仓库并使用jsDelivr CDN加速,各位不用担心,好看各位自取吧 (我已经换了)
qiangzai
2021/12/21
6150
唯美动态404网页
EasyUI 动态添加标签页(Tabs)
我们使用 'exists' 方法来判断 tab 是否已经存在,如果已存在则激活 tab。如果不存在则调用 'add' 方法来添加一个新的 tab 面板
故久
2019/09/29
1.4K0
【R语言】R中的因子(factor)
R中的因子用于存储不同类别的数据,可以用来对数据进行分组,例如人的性别有男和女两个类别,根据年龄可以将人分为未成年人和成年人,考试成绩可以分为优,良,中,差。
生信交流平台
2022/09/21
3.4K0
【R语言】R中的因子(factor)
Android:启动页设置以及动态权限跳转
在我遇到这个实际问题之前,我一直认为启动页的作用是美化产品,提升软件逼格。但实际上,它更重要的是起到了一个拦截器的作用。比如,当App首页需要动态得从网上加载数据时,就必须请求网络权限,如果没有启动页,用户将直接看到一堆空数据。因此,启动页主要有两个作用:1、拦截用户访问,只有用户授予必要的权限才准入;2、为主页动态数据加载争取时间。
zstar
2022/06/14
8780
C# WPF 实现Tab页动态增减
Tab页面是一个很常用的控件,针对页面固定的场景,直接给Item进行数据绑定就行,如下所示:
用户9127601
2022/06/09
1.6K1
C# WPF 实现Tab页动态增减
「R」R 中的方差分析ANOVA
方差分析主要通过F检验来进行效果评测,若治疗方案的F检验显著,则说明检验样本组间均值不同。
王诗翔呀
2020/07/02
4.8K0
「R」R 中的方差分析ANOVA
「R」说说r模型中的截距项
很多读者在使用 R 的模型构建时可能会对其中的截距项感到困惑。上述两个模型都描述了简单的线性回归,是等同(完全一致)的。第一个模型隐含了截距项,而第二个模型显式地进行了指定。
王诗翔呀
2020/07/03
3.3K0
R tips: R中的颜色配置方案
数据可视化不可避免的就是要选择一些颜色方案,颜色方案除了手动设置之外,在R中也有自动生成颜色方案的工具。
生信菜鸟团
2021/12/01
3.8K0
R tips: R中的颜色配置方案
R分享|自制112页可视化课件
这是我第一次以“老师”的身份上这么大的课。虽说我的公众号主要做R语言可视化,但是我也没上过课呀。为了准备这两节课,我花了将近50个小时准备这4小时的课程。
庄闪闪
2021/04/09
4460
HTML源码,动态幽灵404错误页,跟随鼠标
网上看到的,感觉还不错,就扒过来了。幽灵会有浮动动画,跟随鼠标动画。 演示地址:http://code.cozv.cn/html/1/
程序员纬度
2021/03/02
1.7K0
R中的循环绘图
上面我们将每一张图都单独输出了,下面来介绍如何将其全部组合起来,分别介绍两种R包的方法gridExtra&patchwork
R语言数据分析指南
2022/09/21
4.1K0
R中的循环绘图
Java中的动态代理
Java中的代理方式主要分为两种,一种是基于接口的动态代理,另一种是基于类的动态代理,而基于接口的动态代理有JDK Proxy,基于类的动态代理主要有ASM、cglib,本文主要讲述的是JDK Proxy实现动态代理。
关忆北.
2021/12/07
4780
R中的sweep函数
base包中的sweep函数是处理统计量的工具,一般可以结合apply()函数来使用。当我们我们需要将apply()统计出来的统计量代回原数据集去做相应操作的时候就可以用到sweep()。
生信交流平台
2022/09/21
2.8K0
R中的sweep函数
R中的小技巧
1.str() 在很多语言里可以将其他类型转化为字符串,不过在R中会返回数据类型。
生信编程日常
2020/04/01
1.5K0
GPDB中AOCO列存页的checksum
为了保证数据的正确性,AOCO列存页采用CRC32即循环冗余校验算法来进行校验。首先看下页结构。
yzsDBA
2023/02/26
9080
GPDB中AOCO列存页的checksum
ASP.NET 2.0 中的异步页[来自MSDN]
ASP.NET 2.0 提供了大量新功能,其中包括声明性数据绑定和母版页,成员和角色管理服务等。但我认为最棒的功能是异步页,接下来让我告诉您其中的原因。 当 ASP.NET 接收针对页的请求时,它从线程池中提取一个线程并将请求分配给该线程。一个普通的(或同步的)页在该请求期间保留线程,从而防止该线程用于处理其他请求。如果一个同步请求成为 I/O 绑定(例如,如果它调用一个远程 Web 服务或查询一个远程数据库,并等待调用返回),那么分配给该请求的线程在调用返回之前处于挂起状态。这影响了可伸缩性,原因是线程池
菩提树下的杨过
2018/01/23
1.9K0
ASP.NET 2.0 中的异步页[来自MSDN]
R可视化:动态热力地图
本系列内容来自github上面超级火爆的R语言可视化项目:tidyTuesday。是学习R语言数据分析和可视化极好的素材。
医学和生信笔记
2023/02/14
7980
R可视化:动态热力地图
在文章页中显示摘要的方法 可用做文章页描述
刚刚在论坛里有人“问怎么样把添加文章时的所填的“文章摘要”的内容变为该文章的描述(即description) ”,以下是解决方法:
用户8099761
2023/05/10
8950
点击加载更多

相似问题

R中的Webscraping

13

R: Webscraping文件?

24

需要输入的R中的Webscraping

14

R中的Webscraping -注释掉的表

10

用webscraping检查r中的循环错误

13
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档