开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在嵌套的tibble中使用lag()和mutate()连接当前和以前的数据帧，以生成新的list-column

在R语言中，tibble是tidyverse包中的一个数据结构，类似于传统的数据框（data frame），但具有一些额外的特性和更好的打印输出。lag()函数用于获取数据框中某一列的前一个值，而mutate()函数用于创建新的列或修改现有列。当在嵌套的tibble中使用这两个函数时，可以生成包含当前和以前数据的新列。

基础概念

tibble: 是R中的一种数据结构，类似于数据框，但提供了更好的打印输出和更严格的子集操作。
lag(): 是dplyr包中的一个函数，用于获取数据框中某一列的前一个值。
mutate(): 同样是dplyr包中的一个函数，用于添加新的列到数据框中或修改现有列。

应用场景

在时间序列分析、数据比较、累积计算等场景中，经常需要访问当前行之前或之后的数据。例如，在分析股票价格时，可能需要比较当前价格与前一个交易日的价格。

示例代码

假设我们有一个嵌套的tibble，其中每个元素都是一个小tibble，我们想要为每个小tibble添加一列，该列包含前一个元素的某个字段值。

library(tidyverse)

# 创建一个示例嵌套tibble
nested_tibble <- tibble(
  group = c("A", "A", "B", "B"),
  data = list(
    tibble(day = 1:3, value = c(10, 15, 20)),
    tibble(day = 1:2, value = c(30, 35)),
    tibble(day = 1:4, value = c(5, 10, 15, 20)),
    tibble(day = 1:3, value = c(7, 14, 21))
  )
)

# 使用mutate和lag生成新的list-column
result <- nested_tibble %>%
  mutate(
    previous_value = map2(data, lag(data), ~ {
      if (!is.null(.y)) {
        prev_value <- .y$value[length(.y$value)]
      } else {
        prev_value <- NA
      }
      tibble(prev_value = prev_value)
    })
  )

# 查看结果
print(result)

解释

map2()函数用于将data列和lag(data)列中的元素配对处理。
对于每一对数据框，我们检查lag(data)是否为空（即是否为第一个元素）。如果不为空，则取value列的最后一个值作为前一个值；否则，设置为NA。
最后，我们将计算出的前一个值放入一个新的tibble中，并将其作为新的list-column添加到原始tibble中。

可能遇到的问题及解决方法

问题: 当数据框为空时，使用lag()可能会导致错误。

解决方法: 在使用lag()之前，检查数据框是否为空。如上例所示，我们通过检查lag(data)是否为NULL来避免错误。

问题: 如果数据框中的列表元素长度不一致，可能会导致索引错误。

解决方法: 在处理列表元素时，始终进行长度检查，确保索引操作的安全性。

通过这种方式，可以在嵌套的tibble中有效地使用lag()和mutate()来连接当前和以前的数据。

相关搜索:连接和分解pandas数据帧中的嵌套列表和字典使用Power BI在Python中迭代数据帧以生成新的数据帧使用列表和字典解析嵌套的JSON，以将每个列表和字典的数据帧分开 pandas concat函数中数据帧的连接和轴参数的使用如何使用python复制新数据帧中的当前行和下一行的值？在pandas数据帧中创建新列，合并特定的列名和相应的值使用数据帧中的列表理解和字符串序列派生新列 Pyspark使用2个数据帧中的值和阈值生成段数组使用第一列条目作为新R数据帧中的列名来转置数据帧中的行和列如何应用相同的函数和不同的输入参数在pandas数据帧中创建新列？使用数据和列名将多个pandas数据帧中的所有列连接到一个数据帧中使用一个查找数据帧中的索引和列在另一个数据帧中创建新列分组数据帧中的高效循环，以访问当前和前一个索引值(并计算差异)在pandas中如何将数据帧转换为以行和列为键的字典？如何使用Selenium和Python在新选项卡中打开新链接(单击网页中的元素后生成)？如何利用链接表和透视表在pandas数据帧中以特定的形式表示数据使用R中另一个数据帧的条件组和创建新列在表中删除和插入，使用asp.net核心中的实体框架删除以前的数据从两个具有相等nrow值和行名的scRNA-seq数据帧中删除使用full_join生成的数据帧中的NAs 使用jQuery将表单数据抓取到对象中，以生成任意数组和对象的值

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R数据科学|3.7内容介绍及习题解答

3.7 分组新变量（和筛选器）虽然与summarize()函数结合起来使用是最有效的，但分组也可以与mutate()和filter()函数结合，以完成非常便捷的操作。...一般不使用分组筛选器，除非是为了完成快速、粗略的数据处理，否则很难检查数据处理的结果是否正确。在分组新变量和筛选器中最常使用的函数称为窗口函数（与用于统计的摘要函数相对）。...你可以在相应的使用指南中学习到更多关于窗口函数的知识：vignette("windowfunctions")。习题解答问题一查看常用的新变量函数和筛选函数的列表。...is.na(dep_delay_lag)) 下面绘制了前一航班所有值与平均延误之间的关系。对于延误小于两小时的航班，前一航班的延误与当前航班的延误关系接近一条直线。...你能否发现有些航班的速度快得可疑？（也就是说，这些航班的数据可能是错误的。）计算出到目的地的最短航线的飞行时间。哪架航班在空中的延误时间最长？

4.2K3 2

数据处理第2节：将列转换为正确的形状

转换列：基础部分您可以使用mutate（）函数创建新列。 mutate中的选项几乎是无穷无尽的：你可以对普通向量做任何事情，可以在mutate（）函数内完成。...mutate中的任何内容都可以是新列（通过赋予mutate新的列名），或者可以替换当前列（通过保持相同的列名）。最简单的选项之一是基于其他列中的值的计算。...在示例代码中，我们将睡眠数据从以小时为单位的数据更改为分钟。...Mutate全部列 mutate_all（）版本是最容易理解的，在清理数据时非常漂亮。您只需传递要在所有列中应用的操作（以函数的形式）。...如果要添加另一个数据框的信息，可以使用dplyr中的连接函数。

8.1K3 0

「R」dplyr 行式计算

z 的和，我们县创建一个行式数据框： rf % rowwise(id) 我们然后使用 mutate() 添加一个新的列，或者使用 summarise() 仅返回一个汇总列： rf %>...这可能会让人感到困惑，但我们确信这是最差的解决方案，特别是在错误消息中给出了提示。...❞ 建模 rowwise() 数据框允许我们以一种特别优雅的方式解决很多的建模问题。...你可以使用 expand.grid()或者tidyr::expand_grid()来生成数据帧，然后重复上面的模式： df 的运作模式: 没有参数名：你可以调用函数来输入和输出数据框。引用“当前”组。

6.2K2 0

在GAN中通过上下文的复制和粘贴，在没有数据集的情况下生成新内容

魔改StyleGAN模型为图片中的马添加头盔介绍 GAN体系结构一直是通过AI生成内容的标准，但是它可以实际在训练数据集中提供新内容吗？还是只是模仿训练数据并以新方式混合功能？...我相信这种可能性将打开数字行业中许多新的有趣应用程序，例如为可能不存在现有数据集的动画或游戏生成虚拟内容。 GAN 生成对抗网络（GAN）是一种生成模型，这意味着它可以生成与训练数据类似的现实输出。...GAN的局限性尽管GAN能够学习一般数据分布并生成数据集的各种图像。它仍然限于训练数据中存在的内容。例如，让我们以训练有素的GAN模型为例。...但是，如果我们想要眉毛浓密或第三只眼的脸怎么办？GAN模型无法生成此模型，因为在训练数据中没有带有浓密眉毛或第三只眼睛的样本。...快速的解决方案是简单地使用照片编辑工具编辑生成的人脸，但是如果我们要生成大量像这样的图像，这是不可行的。因此，GAN模型将更适合该问题，但是当没有现有数据集时，我们如何使GAN生成所需的图像？

1.6K1 0

【DB笔试面试156】在Oracle中，如何查询数据库系统或当前会话的Redo和Undo的生成量？

♣ 题目部分在Oracle中，如何查询数据库系统或当前会话的Redo和Undo的生成量？...♣ 答案部分答案：反映Undo、Redo生成量的统计指标分别是： l Redo：redo size l Undo：undo change vector size 1、查询数据库系统Redo生成量，可以通过...V$SYSSTAT视图查询，如下所示： SELECT NAME, VALUE FROM V$SYSSTAT WHERE NAME = 'redo size'; 2、查看当前会话的Redo...V$STATNAME ST WHERE MY.STATISTIC# =ST.STATISTIC# AND ST.NAME = 'redo size'; 可以创建视图来同时查询当前会话...Redo和Undo的生成量，如下所示： CREATE OR REPLACE VIEW VW_REDO_UNDO_LHR AS SELECT (SELECT NB.VALUE FROM

1.3K1 0

玩转数据处理120题｜R语言版本

大家好，本文为R语言数据处理120题系列完整版本。作者精心挑选120道数据处理中相关操作以习题形式发布，一共涵盖了数据处理、计算、可视化等常用操作，并对部分题目给出了多种解法与注解。...题目：将createTime列设置为索引难度：⭐⭐ R解法 df %>% tibble::column_to_rownames('createTime') 42 数据创建题目：生成一个和df...``包裹变量名 44 数据计算题目：生成新的一列new为salary列减去之前生成随机数列难度：⭐⭐ R解法 df % mutate(new = salary - `0`) 45...seq(0, 99, 5)") 84 数据创建题目：从NumPy数组创建DataFrame 难度：⭐ 备注使用numpy生成20个指定分布(如标准正态分布)的数 R语言解法 df3 的读者，我想你已经掌握了处理数据的常用操作，并且在之后的数据分析中碰到相关问题，希望你能够从容的解决！

8.9K1 0

R数据科学|3.5内容介绍及习题解答

上节我们对选择现有的列进行了介绍与习题解答，现在对数据框添加新列进行介绍，这里使用mutate()函数，注意：mutate()总是将新列添加在数据集的最后。...() 在处理取值范围横跨多个数量级的数据时，对数是特别有用的一种转换方式。...偏移函数：lead()和lag()函数它们可以返回一个序列的领先值和滞后值。它们可以计算出序列的移动差值（如）或发现序列何时发生了变化（）。它们与group_by()组合使用时特别有用。...逻辑比较：、>= 和 != 如果需要进行一系列复杂的逻辑运算，那么最好将中间结果保存在新变量中，这样就可以检查是否每一步都符合预期。...，生成与较长向量相同长度的向量。

2.6K5 0

MLQuant：基于XGBoost的金融时序交易策略（附代码）

下载数据并将其存储到新环境中。...：我们可以使用nest()函数将数据放入方便的嵌套表中，我们可以简单地对其进行map()覆盖并应用rsample包中的rolling_origin()函数，这样，我们的每项资产都将有自己的rolling_origin...nested_df % mutate(duplicate_ID = ID) %>% nest(-ID) 我们将时间序列数据分为多个列表，以使该analysis()列表在每个列表中包含...第一个rolling_origin()函数是用于通过获取前100天的数据并计算其上的tsfeatures函数来帮助在滚动的基础上向下折叠时间序列数据，这与使用zoo包的rollapply()函数来计算使用滚动平均值...接下来，我们使用变量X_train和X_test把数据拆分成X个变量以及使用Y_train和Y_test把相应的Y变量分开。xgboost包需要一个特定类型的xgb.DMatrix()。

3K4 1

「R」dplyr 列式计算

❝在近期使用「dplyr」进行多列选择性操作，如 mutate_at() 时，发现文档提示一系列的「dplyr」函数变体已经过期，看来后续要退休了，使用 across() 是它们的统一替代品，所以最近抽时间针对性的学习和翻译下..._if, _at, _all 「dplyr」以前的版本允许以不同的方式将函数应用到多个列：使用带有_if、_at和_all后缀的函数。这些功能解决了迫切的需求而被许多人使用，但现在被取代了。...across() 统一了 _if 和 _at 的语义让我们可以随心按照位置、名字和类型选择变量，甚至是随心所欲地组合它们，这在以前是不可能的。...它们已经有选择语义，所以通常以与 across() 不同的方式使用，我们需要使用新的 rename_with() 代替。...2 小结「dplyr」的开发者们通过 across() 简化了「dplyr」对于一些数据复杂操作的处理逻辑，提高了整体的学习和使用效率，让我们使用者更关注于逻辑而非实现上。

2.4K1 0

dplyr_下篇

，对行进行操作 # 按照行实现两列的行求和 iris[,1:4] %>% rowwise() %>% mutate(total = sum(c(Sepal.Length, Sepal.Width...，批量处理，那么就可使用nest_by()做嵌套处理 by_species % nest_by(Species) head(by_species) ## # A tibble:...，模型和预测值计算rmse、r方和偏回归系数 # 这里的by_species为上述代码执行后产生的数据 # 对于这些统计量的计算，建议查看统计相关教材 by_species = by_species...0.2 5 ## 6 setosa 5.4 3.9 1.7 0.4 6 summarise() 返回汇总结果 # 求百分位数，最终的结果为一个长数据的格式...，总体来说新版本还是有些都东西的，后续处理数据的时候，应该是能用的到的。

6892 0

「R」数据操作（七）：dplyr 操作变量与汇总

使用mutate()添加新变量除了选择已存在的列，另一个常见的操作是添加新的列。这就是mutate()函数的工作了。 mutate()函数通常将新增变量放在数据集的最后面。...为了看到新生成的变量，我们使用一个小的数据集。...有很多函数可以结合mutate()一起使用来创造新的变量。...模运算（%/%和%%） %/%整除和%%取余。对数 log()，log2()和log10() 位移量/偏移量 lead()和lag()允许你前移或后移变量的值。...让我们看另一个例子：棒球运动中击球手的平均表现与上场击球次数的关系。这里我们使用来自Lahman包的数据计算每个选手平均成功率（击球平均得分数，击球数/尝试数）。

2.6K2 0

玩转数据处理120题｜Pandas&R

>% mutate(test = paste0(df$education,df$createTime)) 36 数据处理题目：将education列与salary列合并为新的一列难度：⭐⭐⭐...('createTime') 42 数据创建题目：生成一个和df长度相同的随机数dataframe 难度：⭐⭐ Python解法 df1 = pd.DataFrame(pd.Series(np.random.randint...rename(`0` = df1) # 非常规命名需要用``包裹变量名 44 数据计算题目：生成新的一列new为salary列减去之前生成随机数列难度：⭐⭐ Python解法 df["new"...（默认），True-在原数据集上操作 57 数据可视化题目：绘制收盘价的折线图难度：⭐⭐ 期望结果 ?...120题全部内容，如果能坚持走到这里的读者，我想你已经掌握了处理数据的常用操作，并且在之后的数据分析中碰到相关问题，希望武装了Pandas的你能够从容的解决！

6.1K4 1

「Workshop」第二期：程序控制与数据操作流

涉及编程的数据和代码都会放到 https://github.com/XSLiuLab/Workshop 推荐图书《R for Data Science》[1] 《R 语言编程指南》《R 实战》其他推荐见...tibble tribble, enframe as_tibble, is_tibble 缺失值 drop_na fill replace_na 长转宽 pivot_wider, spread ?...拓展表格 expand complete 分割和连接 separate separate_rows unite 数据导出 write_* data.table 与 base 数据导入 fread 数据导出...fwrite data.table 语法 dt[i, j, by] 数据过滤与合并等操作与 R 基础语法一致，也可以使用 tidyverse 处理整数索引逻辑索引命名索引进一步的学习参考小抄、...文档和《R 语言编程指南》后几期主题本期未讲述的内容？？？

1.6K3 0

R海拾遗-tidyverse

() masks stats::lag() # 建立测试数据集 my_data tibble(iris) my_data %>% head() ## # A tibble: 6 x 5...R基础功能 names(my_data)[names(my_data) == "Sepal.Length"] <- "sepal_length" 计算新变量 # 使用mutate my_data tibble(iris) my_data %>% mutate(sepal_by_petal_l = Sepal.Length/Petal.Length) %>% head() ## # A...1.97 1.42 0.551 0.0787 ## 6 2.13 1.54 0.669 0.157 # 生成新变量添加后缀...my_data2 %>% mutate_all(funs(cm = ./2.54)) %>% head() ## # A tibble: 6 x 8 ## Sepal.Length Sepal.Width

1.2K1 0

韦恩图进阶！ggupset版upset plot

前面用2篇推文介绍了如何使用venndiagram和ggvenndiagram画韦恩图，再用5篇推文详细介绍了使用upsetR和complexheatmap画upset plot。...() masks stats::lag() library(ggupset) “使用的数据集还是电影数据，tibble格式，来自IMDB的50000部电影以及它的信息，比如上映时间、时长、评分、...，首先我们需要一个长数据，对数据进行以下变换，注意这是使用了部分数据，并没有用全部的数据哦： avg_rating % mutate(Genres_collapsed...以上就是今天的内容，希望对你有帮助哦！欢迎点赞、在看、关注、转发！欢迎在评论区留言或直接添加我的微信！...完欢迎关注公众号：医学和生信笔记 “医学和生信笔记公众号主要分享：1.医学小知识、肛肠科小知识；2.R语言和Python相关的数据分析、可视化、机器学习等；3.生物信息学学习资料和自己的学习笔记！

1.6K2 0

tidyHeatmap使用长数据绘制热图

tidyHeatmap基于ComplexHeatmap，遵循图形语法，最大的好处是直接使用长数据画热图，这是目前其他画热图的R包所不具备的。...目前大部分图形都是基于ggplot2绘制的，需要长数据，现在画热图也可以直接用长数据了，不需要再进行各种转换，这是我认为最大的优点。...() masks stats::lag() 首先一定是把数据变为长数据！...mtcars_long % as_tibble(rownames = "car name") %>% mutate_at(vars(- `car name`,-hp,...tidy，直接使用group_by()即可。

3942 0

tidyverse：R语言中相当于python中pandas+matplotlib的存在

，会自动添加列名 tibble，类型只能回收长度为1的输入 tibble，会懒加载参数，并按顺序运行 tibble，是tbl_df类型 tibble是data.frame的进化版，有如下优点：生成的数据框数据每列可以保持原来的数据格式.../ 03 — %>%：管道函数 ——将左侧的值应用到右侧数据data位置管道函数在tidyverse中，管道符号是数据整理的主力，可以把许多功能连在一起，而且简洁好看，比起R的基本代码更加容易阅读...例如：x %>% f(y) 等价于 f(x,y) Rstudio中快捷键： ctrl+shift+m 以R中自带的iris（鸢尾花数据集）为例： > head(iris,n=3) Sepal.Length...这些函数允许在长数据格式（long data）和宽数据格式（wide data）之间进行转换（功能类似于reshape包，但是比reshape更好用，并且可以用于管道%>%连接）。...#key：将原数据框中的所有列赋给一个新变量key #value：将原数据框中的所有值赋给一个新变量value #…：可以指定哪些列聚到同一列中 #na.rm：是否删除缺失值 widedata <-

4.2K1 0

R语言之 dplyr 包

使用 select( ) 选择列函数 select( ) 用于选择数据框中的列（变量）。 # 下面的命令选择数据框里面的 bwt、age、race 和 smoke 这 4 个变量组成新的数据框。...4.使用 mutate( ) 添加新变量函数 mutate( ) 用于在数据框中创建新的变量。...下面的命令将数据集 birthwt 里的变量 lwt（单位：lb）乘以系数 0.4536 后生成新的变量 lwt.kg（1lb ≈ 0.4536kg）。...# 当然如果想要用新变量替换原来的变量，只需把新变量命名为原来的变量名： mutate(birthwt, lwt.kg = lwt*0.4536) 5.使用 summarise( ) 计算统计量函数...相对于传统的数据框，tibble 在很多方面具有优势，感兴趣的读者可以参阅函数 tibble( ) 的帮助文档。

4502 0

R语言从经济时间序列中用HP滤波器，小波滤波和经验模式分解等提取周期性成分分析

它基于《宏观经济学手册》中Stock和Watson（1999）关于商业周期的章节，但也介绍了一些较新的方法，例如汉密尔顿（2018）替代HP滤波器，小波滤波和经验模式分解。...数据我使用从1970Q1到2016Q4的美国对数实际GDP的季度数据来说明不同的方法。时间序列是通过 Quandl 及其相应的R包获得的。...该方法的一个相对严重的缺点是，平滑因子导致序列开始和结束时观测值的损失。当样本量较小且当前经济状况令人关注时，这可能是一个问题。...小波滤波器 Yogo（2008）提出使用小波滤波器从时间序列数据中提取业务周期。该方法的优点是该函数不仅允许提取序列的趋势，周期和噪声，而且还可以更明确地了解周期发生的时间段。...R中的方法实现也很简洁，但是在使用之前需要进行一些其他的数据转换。

2.4K0 0

「R」tidyverse 中的公式函数

构造数据本文为了聚焦于公式函数本身的用法，我构造的示例数据会非常的简单。...img 公式保存了创建它的环境使用到 R 的朋友几乎都用过公式，它在统计建模方面给了我们极大的方便。不过，公式相比于数值、逻辑值这些数据类型，有什么特点吗？...基本用法假设我们要对 df 中的 x 和 y 列进行归一化处理，在不使用 scale() 函数的情况下，我们可能会手写一个函数： scale2 <- function(x) { (x - mean...$x 和 df$y，这里使用了 dplyr 包的 mutate() 语境，所以可以直接写列名。...在公式中，我们可以直接使用前面已经定义的变量，这里是 cfs。

4K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭