开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

rvest如何在r语言中获取最后一个页码

rvest是R语言中一个用于网页抓取和解析的包，可以用于获取网页中的数据。在使用rvest获取最后一个页码时，可以通过以下步骤实现：

首先，需要加载rvest包。可以使用以下代码进行加载：

library(rvest)

接下来，需要指定要抓取的网页URL，并使用read_html()函数将网页内容读取为HTML格式。例如，要获取一个名为example.com的网页的内容，可以使用以下代码：

url <- "http://www.example.com"
page <- read_html(url)

然后，需要找到包含页码信息的HTML元素。可以使用浏览器的开发者工具或rvest提供的函数来定位元素。假设页码信息在一个class为"pagination"的div元素中，可以使用以下代码找到该元素：

pagination <- html_nodes(page, ".pagination")

接下来，可以使用html_text()函数提取该元素的文本内容，并使用适当的字符串处理函数（如gsub()）清理数据。例如，如果页码信息的格式为"Page 1 of 10"，可以使用以下代码提取页码数字：

page_text <- html_text(pagination)
last_page <- gsub("Page \\d+ of (\\d+)", "\\1", page_text)

最后，可以将最后一个页码作为结果返回。例如，可以使用以下代码打印最后一个页码：

print(last_page)

需要注意的是，以上代码仅为示例，具体的网页结构和页码信息可能会有所不同。在实际使用中，需要根据具体网页的结构和页码信息进行相应的调整。

推荐的腾讯云相关产品：腾讯云服务器（CVM）和腾讯云数据库（TencentDB）。腾讯云服务器提供弹性计算能力，适用于各种应用场景；腾讯云数据库提供高性能、可扩展的数据库服务，支持多种数据库引擎。您可以通过以下链接了解更多信息：

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

卧槽， R 语言也能爬取网页的数据！

爬虫技术是一种从网页中获取数据的方式，是按照一定规则，自动地抓取网页数据的程序或者脚本。除了Python可以写爬虫程序外，R语言一样可以实现爬虫功能

02

扒一扒rvest的前世今生！

rvest包可能是R语言中数据抓取使用频率最高的包了，它的知名度和曝光度在知乎的数据分析相关帖子和回答中都很高。甚至很多爬虫教程和数据分析课程在讲解R语言网络数据抓取时，也大多以该包为主。坦白的说，rvest的确是一个很好地数据抓取工具，不过他的强项更多在于网页解析，这一点儿之前就有说到。你可能惊艳于rvest强大的解析能力，有两套解析语法可选（Xpath、css）,短短几个关键词路径就可以提取出来很重要的数据。但肯定也遇到过有些网页明明数据就摆在那里，通过Chrome开发者工具（或者selecto

07

R语言爬虫与文本分析

之前用python做过简单的爬虫与分析，今天尝试一下用R完成相应的功能。首先用R爬取了《了不起的麦瑟尔夫人》豆瓣短评作为语料，然后进行了词云绘制、关键词提取的基本操作。语料爬取寻找链接之

左手用R右手Python系列16——XPath与网页解析库

最近写了不少关于网页数据抓取的内容，大多涉及的是网页请求方面的，无论是传统的RCurl还是新锐大杀器httr,这两个包是R语言中最为主流的网页请求库。但是整个数据抓取的流程中，网页请求仅仅是第一步，而请求获取到网页之后，数据是嵌套在错综复杂的html/xml文件中的，因而需要我们熟练掌握一两种网页解析语法。 RCurl包是R语言中比较传统和古老的网页请求包，其功能及其庞大，它在请求网页之后通常搭配XML解析包进行内容解析与提取，而对于初学者最为友好的rvest包，其实他谈不上一个好的请求库，rvest是内

05

生信人的R语言视频教程-语法篇-第十一章：R中的网络爬虫

用任何语言做爬虫必须要了解的就是网页语法，网页语言无非就是HTML，XML，JSON等，因为正是通过这些我们才能在网页中提取数据，过多的就不再描述，大家可以自行参考大量的资料，大多数语法都是树形结构，所以只要理解了，找到需要数据的位置并不是很难。用R语言制作爬虫无非就是三个主要的包。XML,RCurl,rvest，这三个包都有不同的主要函数，是R语言最牛的网络爬虫包。

02

RCurl中这么多get函数，是不是一直傻傻分不清！！！

你想知道R语言中的RCurl包中一共有几个get开头的函数嘛，今天我特意数了一下，大约有十四五个那么多（保守估计）！所以如果对这个包了解不太深入的话，遇到复杂的数据爬取需求，自然是摸不着头脑，心碎一地~_~ 实际上很多我们都不常用，常用的不超过五个，而且这些函数命名都很有规律，一般是类似功能的名称中都有统一的关键词标识，只要理解这些关键词，很好区分，下面我对9个可能用到的get函数简要做一个分类。第一类是get请求函数（参数直接写在URL里面） getURL #get请求的一般

05

R语言爬虫程序自动爬取图片并下载

R语言本身并不适合用来爬取数据，它更适合进行统计分析和数据可视化。而Python的requests，BeautifulSoup，Scrapy等库则更适合用来爬取网页数据。如果你想要在R中获取网页内容，你可以使用rvest包。

01

左手用R右手Python系列之——表格数据抓取之道

在抓取数据时，很大一部分需求是抓取网页上的关系型表格。对于表格而言，R语言和Python中都封装了表格抓取的快捷函数，R语言中XML包中的readHTMLTables函数封装了提取HTML内嵌表格的功能，rvest包的read_table()函数也可以提供快捷表格提取需求。Python中read_html同样提供直接从HTML中抽取关系表格的功能。 HTML语法中内嵌表格有两类，一类是table，这种是通常意义上所说的表格，另一类是list，这种可以理解为列表，但从浏览器渲染后的网页来看，很难区分这两种，

06

这个包绝对值得你用心体验一次！

这一段时间在研究R里面的数据抓取相关包，时不时的能发掘出一些惊喜。比如今天，我找到了一个自带请求器的解析包，而且还是嵌入的pantomjs无头浏览器，这样就不用你再傻乎乎的再去装个selenium驱

06

手把手 | 教你爬下100部电影数据：R语言网页爬取入门指南

大数据文摘作品，转载要求见文末编译 | 姚佳灵，蒋晔，杨捷前言网页上的数据和信息正在呈指数级增长。如今我们都使用谷歌作为知识的首要来源——无论是寻找对某地的评论还是了解新的术语。所有这些信息都已经可以从网上轻而易举地获得。网络中可用数据的增多为数据科学家开辟了可能性的新天地。我非常相信网页爬取是任何一个数据科学家的必备技能。在如今的世界里，我们所需的数据都在互联网上，使用它们唯一受限的是我们对数据的获取能力。有了本文的帮助，您定会克服这个困难。网上大多数的可用数据并不容易获取。它们以非结构化的形

07

R语言爬虫初尝试-基于RVEST包学习

在学完coursera的getting and Cleaning data后，继续学习用R弄爬虫网络爬虫。主要用的还是Hadley Wickham开发的rvest包。再次给这位矜矜业业开发各种好用的R包的大神奉上膝盖。。。言归正传，拿了几个网页练手。包括对拉勾网爬了一下虫，还尝试了对国外某黄页爬虫，对ebay用户评价爬虫分析其卖家卖的东西主要在哪个价格段（我查的那个卖家，卖8.99和39.99最多，鞋子类），做了一下文本挖掘，还有爬了一下股票数据，基金买入情况等等。之所以放拉勾网为例子，因为这个大家都比

03

如何使用管道操作符优雅的书写R语言代码

本文将跟大家分享如果在R语言中使用管道操作符优化代码，以及管道函数调用及传参的注意事项。使用R语言处理数据或者分析，很多时候免不了要写连续输入输出的代码，按照传统书写方式或者习惯，初学者往往会引入一大堆中介变量，或者使用函数嵌套进行一次性输出。以上两种方法虽然从结果上来看，同样可以达到我们预期的效果，但是无论是代码效率还是内存占用上都存在巨大劣势。 1、使用中介变量会使得内存开销成倍增长，特别是你的原始数据量非常大而内存又有限，在一个处理过程中引入太多中介对象，不仅代码冗余，内存也会迅速透支。 2、使用

07

左手用R右手Python系列——模拟登陆教务系统

最近在练习R语言与Python的网络数据抓取内容，遇到了烦人的验证码问题，走了很多弯路，最终总算解决了。在分享这篇文章之前，只想感慨一声，虽然Python拥有更为完善的爬虫生态和多如牛毛的爬虫分享课程，但是貌似这些大部分内容，使用R语言中的RCurl+httr都可以做到，但是可惜的利用R语言学习爬虫的爱好者与Pythoner相比，实在是太少了，R语言的高阶爬虫教程凤毛麟角，只能一点一点儿在stackflow上面搜罗整理。希望我的这一篇案例能给大家带来一点儿可借鉴的思路。 R library("RCurl

08

用R语言照葫芦画瓢撸了一个简易代理~

最近正在刻苦的学习爬虫，陆陆续续的学习了正则表达式、xpath、css表达式，基本可以胜任R语言中的RCurl+XML、httr+rvest组合爬虫的需求，对GET请求和POST请求的构造和表单提交以及浏览器抓包、模拟登陆、异步加载也做了一些梳理，因为爬虫知识的通用性，所以在入门Python阶段直接就开始练习urllib+lxml、requests+BeautifulSoup。爬虫的入门也算有了一点儿小小的心得，下一步计划在不断练习巩固现有知识的同时、对服务器的反反爬进行探索，这里涉及到如何使用随机age

07

将Python和R整合进一个数据分析流程

在Python中调用R或在R中调用Python，为什么是“和”而不是“或”？在互联网中，关于“R Python”的文章，排名前十的搜索结果中只有2篇讨论了一起使用R和Python的优点，而不是把这两种语言对立起来看。这是可以理解的：这两种语言从一开始都具有非常显著的优缺点。从历史上看，尽管把两者分割开来是因为教育背景：统计学家们倾向用R，而程序员则选择了Python语言。然而，随着数据科学家的增加，这种区别开始变得模糊起来：数据科学家就是这样一种人：软件工程师中最懂统计学，统计学家中最会编程的人。

08

将Python和R整合进一个数据分析流程

编译：丁一黄念丁雪校对：席雄芬姚佳灵程序验证：郭姝妤序言在Python中调用R或在R中调用Python，为什么是“和”而不是“或”？在互联网中，关于“R Python”的文章，排名前十的搜索结果中只有2篇讨论了一起使用R和Python的优点，而不是把这两种语言对立起来看。这是可以理解的：这两种语言从一开始都具有非常显著的优缺点。从历史上看，尽管把两者分割开来是因为教育背景：统计学家们倾向用R，而程序员则选择了Python语言。然而，随着数据科学家的增加，这种区别开始变得模糊

08

R语言获取股票信息进行数据分析

style=none&taskId=ufe5a8213-193f-4abf-99f6-220571344f0&title=)

02

独家 | 手把手教你学习R语言（附资源链接）

作者：NSS 翻译：杨金鸿术语校对：韩海畴全文校对：林亦霖本文约3000字，建议阅读7分钟。本文为带大家了解R语言以及分段式的步骤教程！人们学习R语言时普遍存在缺乏系统学习方法的问题。学习者不知道从哪开始，如何进行，选择什么学习资源。虽然网络上有许多不错的免费学习资源，然而它们多过了头，反而会让人挑花了眼。为了构建R语言学习方法，我们在Vidhya和DataCamp中选一组综合资源，帮您从头学习R语言。这套学习方法对于数据科学或R语言的初学者会很有用;如果读者是R语言的老用户，则会由本文了解

07

现代生物学领域的生物信息学权重高吗

上面的代码获取全部的书籍的大标题和小标题，接下来就是针对它们的标题内容进行一个简单的汇总整理。简单的看了看生物信息学相关非常少：

02

同时用R语言和Python爬取知乎美图

学习Python已有两月有余，是时候检验下学习效果了，之前练习了不少R语言数据爬取，Python的爬虫模块还没有来得及认真入门，乱拼乱凑就匆忙的开始了，今天就尝试着使用R+Python来进行图片爬取，

05

左手用R右手Python系列——面向对象编程基础

面向对象编程是程序设计中一种重要且高效的编程规范，它区别于常见的面向过程编程。在R语言以及Python的程序包开发过程中，大量使用了面向对象的编程范式。百度百科关于面向对象编程的权威解释是：面向对象程序设计（英语：Object-oriented programming，缩写：OOP）是一种程序设计范型，同时也是一种程序开发的方法。其最重要的三大特征是封装、继承、多态。对象指的是类的实例。它将对象作为程序的基本单元，将程序和数据封装其中，以提高软件的重用性、灵活性和扩展性。 R语言中的面向对象编程是通

左手用R右手Python系列——动态网页抓取与selenium驱动浏览器

关于基础的网络数据抓取相关内容，本公众号已经做过很多次分享，特别是R语言的爬虫框架（RCurl+XML/httr+rvest[xml2+selectr]）已经形成了较为丰富的教程系统。但是所有这些都是基于静态页面的（抓包与API访问的除外），很多动态网页不提供API访问，这样就只能寄希望于selenium这种基于浏览器驱动技术来完成。好在R语言中已经有了selenium接口包——RSelenium包，这为我们爬取动态网页提供了可能。我在今年年初写过一个实习僧网站的爬虫，那个是使用R语言中另一个基于sel

R语言与独孤九剑以及Python与降龙十八掌

R语言可以比作独孤九剑, 函数都是写好的, 包也是写好的, 直接用就可以了, 功能强大. 就像独孤九剑, 学起来不需要任何基础, 学会之后很强大, 破刀式, 破剑式, 破枪式等等, 可以应对很多问题. 但是如果你想在此基础上更上一层楼, 就难于登天了, 因为你没有基础, 向上走一点, 真的是牵一发而动全身, 进入了编程能力的天花板.

04

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据

我们正和一位朋友讨论如何在R软件中用GLM模型处理全国的气候数据。本文获取了全国的2021年全国的气候数据。

00

R语言贝叶斯MCMC：用rstan建立线性回归模型分析汽车数据和可视化诊断|附代码数据

尽管Stan提供了使用其编程语言的文档和带有例子的用户指南，但对于初学者来说，这可能是很难理解的。

00

拓端tecdat|R语言计量经济学：虚拟变量(哑变量)在线性回归模型中的应用

大多数数据都可以用数字来衡量，如身高和体重。然而，诸如性别、季节、地点等变量则不能用数字来衡量。相反，我们使用虚拟变量来衡量它们。

02

Python=R+SQL/Hive？在数据分析与挖掘方面该选哪一个？

什么是R语言？ R语言，一种自由软件编程语言与操作环境，主要用于统计分析、绘图、数据挖掘。R本来是由来自新西兰奥克兰大学的罗斯·伊哈卡和罗伯特·杰特曼开发（也因此称为R），现在由“R开发核心团队”负责开发。R基于S语言的一个GNU计划项目，所以也可以当作S语言的一种实现，通常用S语言编写的代码都可以不作修改的在R环境下运行。R的语法是来自Scheme。 R的源代码可自由下载使用，亦有已编译的可执行文件版本可以下载，可在多种平台下运行，包括UNIX（也包括FreeBSD和Linux）、Windows和MacO

R语言携手Python绘制weblogo图

我们知道R语言在作图统计方面很是实用，但是在其他游戏开发、网页制作、人工智能等很多方面相对于python是很局限。今天我们来以weblogo为例展示如何在R语言中调用python。

02

R语言数据清洗实战——世界濒危遗产地数据爬取案例

最近重复新翻阅R语言领域唯一一本关于网络数据采集的参考书——《基于R语言的自动数据收集》，开篇就是一个数据爬取的案例。尽管之前已经粗略的看过一遍，但是仍感书中诸多细节不甚理解，还有平时过于眼高手低，第一遍看的时候只是动眼却不动手，案例几乎很少做过，准备刷第二遍，案例也打算仔仔细细的过一遍，做的时候才发现作者书中代码有些部分已经无法运行，还是需要自己去一点儿一点儿倒腾。 library("XML") library("stringr") library("RCurl") library("dplyr") l

06

当R语言遇到plink，就在R中运行plink吧

R语言和plink软件都是常用的软件，随着对软件的熟悉，就不用自己写代码了，直接改代码了，既然改代码，就在一个环境下运行就行了，不想来回切换R和Bash。问题来了：如何在R语言中运行plink软件。

01

R语言机器学习实战之多项式回归

如果数据比简单的直线更为复杂，我们也可以用线性模型来你和非线性数据。一个简单的方法就是将每一个特征的幂次方添加为一个新的特征，然后在这个拓展的特征集上进行线性拟合，这种方法成为多项式回归。

02

R语言网络爬虫之Pubmed API的使用

查询文献你懂的，我认为Pubmed首选。当oncotarget杂志不再被Pubmed检索的收获，多少博士内心发慌，多少专家内心悔恨自己掏出的稿费。当然，用好Pubmed不能仅限于利用网页界面去检索那么几个关键词，AND 或者 OR。今天我来给大家介绍一下Pubmed API是如何在R语言中运用自如的。

04

你想要的地图素材资源，我都帮你整理好了~

这一篇我会把自己所掌握的所有数据地图素材资源获取途径全部分享给大家。可能有的小伙伴儿会有疑问，现在商务智能工具发展的这么火，像PowerBI、Tableau以及一些在线的可视化平台都能够免费多场景提供数据地图的制作，是否还有必要自己找素材去亲手做。这个问题怎么说呢，还是场景化吧，以上的商务智能工具确实降低了制作这些可视化地图的成本，但是缺点也有很多。这些BI工具其实依赖的内置在线地图（确实不用我们自己定义），但是在线地图的风格往往意味着你没有太大的调整空间，而且地址的解析率与识别率都是有精度限制的（

04

为什么R语言是学习数据分析的第一选择

刚开始学习数据科学的人都会面对同一个问题：不知道该先学习哪种编程语言。不仅仅是编程语言，像Tableau，SPSS等软件系统也是同样的情况。有越来越多的工具和编程语言，很难知道该选择哪一种。事实是，你的时间有限。学习一门新的编程语言相当于一项巨大的投资，因此在选择语言时需要有战略性。很明显，一些语言会给你的投资带来很高的回报(付出的时间和金钱投资)。然而其他语言可能是你每年只用几次的纯粹辅助工具。我给你的建议就是：先学习R语言专注于一种语言在说明为什么你应该学习R语言之前，我想强调的是，在开始

08

想知道单细胞国自然基金有哪些？

基金首页 - 科学网 - 基金 - 构建全球华人科学社区（http://fund.sciencenet.cn/）以“单细胞”作为关键词查询2009-2019之间的项目，总计449项，累计金额：39285 万元。

02

R语言进阶之图形参数

R语言是即使一款功能强大的统计语言，也是一款内容丰富的绘图工具。从原则上讲，你可以用R语言绘制出你能‍‍想到的任何图形。‍‍‍‍

03

视频讲解-R爬取生信软件列表到思维导图

了解并安装R 下载R语言的软件: https://cran.r-project.org/bin/windows/base/ 下载Rstudio这个R编辑器:https://www.rstudio.co

03

偏最小二乘回归（PLSR）和主成分回归（PCR）分析光谱数据|附代码数据

此示例显示如何在matlab中应用偏最小二乘回归（PLSR）和主成分回归（PCR），并讨论这两种方法的有效性（点击文末“阅读原文”获取完整代码数据）。

03

R语言Pearson相关性分析就业率和“性别平等”谷歌搜索热度google trend时间序列数据可视化

Google Trends，即谷歌趋势。谷歌趋势是谷歌旗下一款基于搜索数据推出的一款分析工具。它通过分析谷歌搜索引擎每天数十亿的搜索数据，告诉用户某一关键词或者话题各个时期下在谷歌搜索引擎中展示的频率及其相关统计数据。

00

R语言Pearson相关性分析就业率和“性别平等”谷歌搜索热度google trend时间序列数据可视化

Google Trends，即谷歌趋势。谷歌趋势是谷歌旗下一款基于搜索数据推出的一款分析工具。它通过分析谷歌搜索引擎每天数十亿的搜索数据，告诉用户某一关键词或者话题各个时期下在谷歌搜索引擎中展示的频率及其相关统计数据。

00

R语言SVR支持向量机多元回归、网格搜索超参数优化预测猪粮比价格变动率数据

我们最近有一个很棒的机会与一位伟大的客户合作，要求构建一个适合他们需求的持向量机回归模型。

01

经历过绝望之后，选择去知乎爬了几张图~

本来今天要跟大家分享怎么批量爬取2016年各大上市公司年报的，可是代码刚写了开头，就发现年报这玩意儿，真的不太好爬，还以为自己写的姿势不对，换了好几个网站。眼睁睁的开着网页源码里排的整整齐齐的pdf文档，可是就是爬不到，NND，还是火候不够，本来打算放弃的，可是想着不干点什么太没成就感了，就跑去知乎爬了人家几张图。之前分享过知乎爬图的代码，当时利用的Rvest爬的，今天换RCurl+XML包来爬，也算是新知识点了。用R语言抓取网页图片——从此高效存图告别手工时代因为害怕爬太多，会被禁IP，毕竟知乎

04

小技巧：多个pdf文件合并及pdf文件添加页码

扫描文件的时候每一页都是单独保存的，这个时候我想把他们合并成一个完整的pdf文件，借助Adobe Acrobat Pro DC 这个软件可以很方便的实现

02

R语言区间数据回归分析

区间回归分析是一种以区间数为研究对象的数据分析方法.区间数能反映出数据的变动范围,更符合现实情况.区间型符号数据是区间数的一种,通过"数据打包"形成,因此除具有区间端点信息外,还具有区间内部散点信息.

01

巧用R语言中常见的各类偏移窗口函数

已经介绍了R语言中的排名窗口函数，本节介绍一下R语言中的偏移窗口函数，如果使用纯R语言语句实现“偏移”效果，很是复杂，可以说偏移窗口函数是处理“偏移”数据问题的利器。

01

R语言和Python用泊松过程扩展：霍克斯过程Hawkes Processes分析比特币交易数据订单到达自激过程时间序列|附代码数据

最近我们被客户要求撰写关于泊松过程的研究报告，包括一些图形和统计输出。本文描述了一个模型，该模型解释了交易的聚集到达，并展示了如何将其应用于比特币交易数据。这是很有趣的，原因很多。例如，对于交易来说，能够预测在短期内是否有更多的买入或卖出是非常有用的。另一方面，这样的模型可能有助于理解基本新闻驱动价格与机器人交易员对价格变化的反应之间的区别

03

数据流编程教程：R语言与DataFrame

DataFrame DataFrame 是一个表格或者类似二维数组的结构，它的各行表示一个实例，各列表示一个变量。一. DataFrame数据流编程二. 数据读取 readr/httr/DBI 1

MATLAB偏最小二乘回归（PLSR）和主成分回归（PCR）分析光谱数据|附代码数据

此示例显示如何在matlab中应用偏最小二乘回归（PLSR）和主成分回归（PCR），并讨论这两种方法的有效性

00

生态学建模：增强回归树（BRT）预测短鳍鳗生存分布和影响因素|附代码数据

在本文中，在R中拟合BRT（提升回归树）模型。我们的目标是使BRT（提升回归树）模型应用于生态学数据，并解释结果。

02

生态学建模：增强回归树（BRT）预测短鳍鳗生存分布和影响因素|附代码数据

最近我们被客户要求撰写关于增强回归树（BRT）的研究报告，包括一些图形和统计输出。

00

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭