开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在data.table中删除每个组的第一个日历月

，可以使用以下步骤：

首先，需要将数据按照组进行分组。假设数据表名为data，组的列名为group，日期列名为date，可以使用以下代码进行分组：

setkey(data, group)

接下来，需要找到每个组的第一个日历月。可以使用lubridate包中的函数来处理日期。假设日期列的格式为YYYY-MM-DD，可以使用以下代码找到每个组的第一个日历月：

library(lubridate)
data[, first_month := floor_date(min(date), "month"), by = group]

然后，需要删除每个组的第一个日历月的数据。可以使用以下代码来删除：

data <- data[date != first_month, ]

完整的代码如下：

library(data.table)
library(lubridate)

# 1. 分组
setkey(data, group)

# 2. 找到每个组的第一个日历月
data[, first_month := floor_date(min(date), "month"), by = group]

# 3. 删除每个组的第一个日历月的数据
data <- data[date != first_month, ]

这样，就可以在data.table中删除每个组的第一个日历月的数据。请注意，以上代码中没有提及具体的腾讯云产品，因为与问题无关。

相关搜索:删除每个li中的第一个元素在data.table中创建链式索引/迭代组中的行在data.table中按组计算分数的有效方法在data.table中对分组得到的每个矩阵求和 Python:删除每个组中具有最大值的行 sql:从每个组中删除最早的n条记录如何从组中的每个其他值计算每个组中的第一个值，以计算随时间的变化？在data.table中删除未使用的因子级别 R删除每个组的dataframe中的最后一行获得每个组的最佳结果(在Oracle中)在data.table中为向量中的每个值创建一列在Pandas中绘制groupby对象中每个组的大小在MySQL中查找每个组的最高n值在tensorflow 2.0中计算每个组的AUC 在MySQL中获取每个组的前N行在data.table中添加几个类别的每个组合的缺失值 R data.table:根据在另一列中找到的值重新设置面板中每个组的基数在data.table中统计组中每一年的观测值在Scala Spark中，如何分组并将组中的每个值除以该组中的行数包含多个列的表中每个组的第一个非空值

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R练习50题 - 第一期

unique：找出symbol中不重复的值。在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。...练习2：每天上涨和下跌的股票各有多少? 问题分析这一题需要引入分组的概念，并且按照“先分组，后统计”两步走。首先按照题意，我们需要为每个交易日date建立一个“组”。...其次，对于每个组，我们需要生成两个统计数字：一个统计上涨的个数，一个统计下跌的个数。最终结果如下： ? 可以看到，对于每个date，它都对应了两个观测，一个是“UP”，一个是“DOWN”。...这是因为data.table的第一个语句用来对列进行选择，由于我们这里需要对所有列进行统计，所以不需要进行任何操作。 keyby用来进行分组，是整个代码的核心。先来看keyby = ....由于在keyby语句中我们已经按照日期与涨跌进行了分组，所以这一步我们只需要统计每个组有多少个股票就可以了。我们在这里使用了uniqueN这个函数。

2.5K4 0

数据科学家节选（1）

认识世界是我们每个人终其一生一直在进行的过程，不仅如此，我们几千年来世世代代也都在不断重复这个过程，日复一日年复一年，从未停止。...我们要说的就是这样一群伟大的人。在我们印象中的科学家通常都是天资聪颖，智慧出众，在某一领域理解深刻的。科学家与我们常人都有哪些区别呢？是因为他们更聪明所以才能当科学家吗？...如果直接以12个朔望月作为一年的话，这样的结果在多年叠加后会让人感觉很滑稽，因为如果假设一年农历的正月初一和公历的1月1日在同一天，第二年公历1月1日的时候，农历已经是1月11日了；第十年公历1月1日的时候...所以每一年的农历月和节气之间就会像和公历之间那样产生“错位”，因而产生农历月中会有“不太规律”的缺中气的月出现。不管是哪个月，反正是从冬至开始计算，第一个没有中气的月就做一次闰月。...二十四节气最早被全数记录是在《淮南子·天文训》中，当然其中也包括关于“十九闰七”的天文现象论述。 ?

8676 0

Java工具集-农历日期工具类

(数字,没闰返回0) */ private static int getLunarLeapMonth(int lunarYear) { // 数据表中,每个农历年用16bit...12 * 29 = 348天 int daysInLunarYear = 348; // 数据表中,每个农历年用16bit来表示, // 前12bit分别表示...12个月份的大小月,最后4bit表示闰月 // 每个大月累加一天 for (int i = 0x8000; i > 0x8; i >>= 1) {...每个农历年用16bit来表示, // 前12bit分别表示12个月份的大小月,最后4bit表示闰月 int daysInLunarMonth = ((SolarTermsUtil.lunarInfo...1970 年 1 月 1 日到所指定日期之间所间隔的毫秒数。

3.4K2 0

从一件数据清洗的小事说起

” 本期“大猫的R语言公众号”由“村长”供稿。村长，数据科学、指弹吉他及录音工程爱好者，浙大金融学博士在读，在data.table包和MongoDB的使用上有较多经验。...问题：从一段json清晰代码说起笔者某一日在R语言中文社区某一群里面发现了水友提出的一个问题，处理一个比较奇葩的数据清洗问题，先来看数据结构： ?...这是一个类json格式嵌套的数据，其中存在两个变量，第一个变量是cusnum作为序号，第二个是一个类json的嵌套变量，里面以类jsno格式嵌套了很多变量。需要将这个数据集转换成如下格式： ?...其实这一期这么扯淡的讲这么多事情，只是为了说明一点，data.table真的有很好的性能，尤其在处理海量数据方面（在分组特别多的时候，相比dplyr和pandas有2x~10x的提升，来自官方文档）。...从好处来说，因为每个组件只做一件事（比如group、mutate），所以在开发的时候耦合度低，容易开发维护，而且对于使用者来说也“更容易学习”。然而，他的弊端也是非常明显的，首先是效率不高。

6851 0

5个例子比较Python Pandas 和R data.table

data.table) melb <- fread("datasets/melb_data.csv") 示例1 第一个示例是关于基于数据集中的现有列创建新列。...对于data.table，此操作相对简单一些，因为我们只需要使用by参数即可。示例4 让我们进一步讨论前面的例子。我们求出了房屋的平均价格，但不知道每个地区的房屋数量。...这两个库都允许在一个操作中应用多个聚合。我们还可以按升序或降序对结果进行排序。...我们使用计数函数来获得每组房屋的数量。”。N”可作为data.table中的count函数。默认情况下，这两个库都按升序对结果排序。排序规则在pandas中的ascending参数控制。...data.table中使用减号获得降序结果。示例5 在最后一个示例中，我们将看到如何更改列名。例如，我们可以更改类型和距离列的名称。

3.1K3 0

🤩 xgboost | 经典机器学习大杀器之XGBoost！~

☹️ 当训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数。...多分组对于第一个变量，我们通过四舍五入实际年龄来创建年龄组。...目的是将分类变量的每个值转换为二进制特征，也就是0和1，也可以理解为稀疏矩阵。...每个变量的重要性可以通过Gain，Cover，frequency来评估： 1️⃣ Frequency。...某个特征被用于在所有树中拆分数据的次数。 2️⃣ Cover。首先得到某个特征被用于在所有树中拆分数据的次数，然后要利用经过这些拆分点的训练数据数量赋予权重。 3️⃣ Gain。

2891 0

双端测序的转录组需要两个fastq文件独立定量吗

粉丝求助一个公共数据集，是转录组测序。说它把一个双端测序的转录组数据的两个fastq文件独立定量了，所以每个样品居然有2次表达量信息，希望我们可以打假！但是我看了看，其实是粉丝自己理解有误。...也就是说，粉丝首先就搞错了这个转录组测序，以为是默认的双端测序，其实它是古老的单端数据。...然后我打开每个样品各自的combined.htseq.txt.gz ，每个样品的表达量矩阵里面，都是如下所示： ==> GSM4072177_shstat2C.combined.htseq.txt <=...所以我们这个时候有两个解决方案，第一个是直接把每个样品的4个fq文件的定量在每个基因层面表达量加和即可，另外一个办法就是先无需理会，就把这4个值当做是4个技术重复即可，但是它不能是生物学重复，不过反正绝大部分分析也不需要区分这一点...),1] length(unique(gs)) # 这里是删除转换后有重复的基因 kp= !

1K2 0

MR应知应会：MungeSumstats包

Sum 和整数值在输出中创建 N 列，而 Giant、metal 或 ldsc 创建 Neff 或有效样本大小。如果传递多个，则会指示用于推导它的公式。...那些存在的内容将被删除（如果 sumstats 文件中存在）。默认为TRUE。...那些这样做的被删除（如果存在于 sumstats 文件中）。默认为TRUE。 N_std 需要删除高于 SNP N 平均值的标准差数。默认值为 5。...这可能会导致错误，因此默认情况下，将保留第一个 RS ID，并删除其余的，例如“rs5772025”。如果您只想完全删除这些 SNP，请将其设置为 TRUE。默认值为 FALSE。...indels 您的 Sumstats 文件是否包含 Indel？这些不存在于我们的参考文件中，因此如果该值为 TRUE，它们将被排除在检查之外。默认值为 TRUE。

2.2K1 1

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

data.table可是比dplyr以及Python中的pandas还好用的数据处理方式。...data.table包的语法简洁，并且只需一行代码就可以完成很多事情。进一步地，data.table在某些情况下执行效率更高。...%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。注意这里的，传递给下一个函数的第一个参数，然后就不用写第一个参数了。在dplyr分组求和的过程中，还是挺有用的。...在data.table中有三类数据合并的方式： 1、直接用[] data_one[data_two,nomatch=NA,mult="all"] 以第一个数据为基准，依据key进行合并，只出现重复部分...—————————————————————— 实战一：在data.table如何选中列，如何循环提取、操作data.table中的列？

8.6K4 3

作者仅提供了fpkm格式表达量矩阵的转录组测序数据集该如何重新分析呢

单元格中的值表示该基因在该样本中的读段计数。 FPKM/FPKM-UQ（每千个碱基每百万片段的比率/未量化的FPKM）： FPKM是标准化的表达量指标，考虑了基因长度和测序深度。...FPKM-UQ是未量化的FPKM，它没有经过标准化处理，通常用于避免引入人为的表达量变化。 TPM（每千个转录本每百万片段的比率）： TPM是另一种标准化的表达量指标，它考虑了样本中的总转录本数。...输出通常包括每个基因的估计表达量（如FPKM）、表达量的不确定性和统计评估。...，有一些样品不满足前面的转录组定量要求就被暴力删除了，其实也是合理的选择样品：不满足前面的转录组定量要求就被暴力删除了当然了，就算是我们拿到了DESeq2/edgeR要求的输入数据是计数矩阵（raw...写在文末如果你确实觉得我的教程对你的科研课题有帮助，让你茅塞顿开，或者说你的课题大量使用我的技能，烦请日后在发表自己的成果的时候，加上一个简短的致谢，如下所示： We thank Dr.Jianming

2551 0

R Tricks: 如何巧为观测标记序号

data.table包！...在R中，求差分的函数diff非常适合完成这个任务。它可以计算当前观测和上一行观测相比变化了多少。我们试着用一下： ▶ dt[, diff := c(0, diff(group))] 结果如下： ?...最后一步，我们只需要在每个by=cumsum组中将观测从1开始标号即可： ▶ dt[, n := seq(.N), by = cumsum] 最终结果为： ?...注意，我们这里用cumsum的值进行了分组，并且用了seq(.N)这个语句。".N"表示当前by组有多少的观测，而seq(.N)则产生从1至.N的一个整数序列。...还记得在开篇大猫说这个技巧在事件研究法中特别实用吗？因为在事件研法中，我们一般会给事件日标为1，非事件日标为0，对于每个事件之间的一段时间，我们往往希望能够用1开始为其标号，这对于后续统计相当有用。

9951 0

「R」data.table 包功能特性学习

来自很久之前的官网文档。 data.table包提供了一个加强版的data.frame。它运行效率极高，而且能够处理适合内存的大数据集。它通过[ ]实现了一种自然的数据操作语法。...，V3列的标准差为一个data.table DT[, ....# 对V1的每一组计算V4的和 DT[, ....0.703 10 ## 5: 1 C -0.380 3 ## 6: 2 C -0.703 6 ## 7: 1 C 0.341 9 ## 8: 2 C -0.746 12 # V2列为A的第一个匹配行...B -1.49 26 ## 3: C -1.49 30 链 # 按V1分组求V4列的和 DT2 <- DT[, .

1.9K1 0

给定一个非负整数数组，你最初位于数组的第一个位置。数组中的每个元素代表你在该位置可以跳跃的

给定一个非负整数数组，你最初位于数组的第一个位置。数组中的每个元素代表你在该位置可以跳跃的最大长度。你的目标是使用最少的跳跃次数到达数组的最后一个位置。假设你总是可以到达数组的最后一个位置。...遍历数组，当cur小于i，步数加1，下次可达变成当前可达，下次可达取自己和i+arr[i]的最大值。最后返回step。时间复杂度是O(N)。代码用golang编写。

2K3 0

35行代码搞定事件研究法（下）

注意 I，本代码主要使用data.table包完成，关于data.table包的相应知识会在涉及的时候进行讲解。在以后的课堂中，我们会重点介绍data.table这个包。...在上一讲中，我们已经给出了函数 do_car() 用来求单个事件日的超额收益，因此很自然的，我们希望对于事件日向量 ns 中的每个元素，都应用一遍 do_car()这个函数。...在我们的例子中，我们只计算T日前后各一日的收益，因而ars一共有三个元素。...在测试中，大猫设置了一个极端条件：模拟2500个股票（差不多是A股股票数），每个股票拥有1000个交易日的记录（差不多有4年的时间），平均50个交易日出现一个事件（模拟盈利公告这类事件的出现频率）。...语句“car :=” 表示在原数据集中新建一个名为 car 的变量，vapply(ars, sum)的含义是把超额收益率向量ars中的元素相加，double(1)指定输出的必须是一个标量（因为对于每个事件日

1.2K4 0

「R」数据操作（三）：高效的data.table

，那么将删除指定的行： product_info[-1] #> id name type class released #> 1: T02 SupPlane toy vehicle...N是最常用的符号之一，它表示当前分组中，对象的数目（就不用调用nrow函数啦）。在[]使用它指提取最后一行。...data.table中，by所对应的组合中的值是唯一的，虽然实现了目标，但结果中没有设置键： key(type_class_test0) #> NULL 这种情况下，我们可以使用keyby来确保结果的data.table...然后在每个子集data.table的语义中计算j表达式。...(year = year(date))] par(oldpar) 这里我们没有为plot()设定data参数，图像也成功绘制，这是因为该操作是在data.table的语义中进行的。

6.3K2 0

Java—java.util.calendar类详解「建议收藏」

//7 //指示一年中的第几天 Calendar.DAY_OF_YEAR //6 //指示一月中的第几天,结果等同于Calendar.DATE Calendar.DAY_OF_MONTH...Calendar类使用两个参数定义了特定于语言环境的七天制星期，其一星期的第一天，其二第一个星期的最少天数。...setMinimaldaysinfirstweek() 设置一年或一月中第一个星期所需的最少天数，取值范围为1-7，默认值为1，无返回值。...ca.setMinimalDaysInFirstWeek(4); System.out.println(ca.get(Calendar.WEEK_OF_MONTH)); //0 getMinimalDaysInFirstWeek() 获取一年或一月中第一个星期的最少天数...如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

4.4K2 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

：对每个小片断独立进行操作； combine：把片断重新组合。...(iris$setosa)] #按照照setosa的大小，重排Sepal.Length数据列四、dplyr与data.table data.table可是比dplyr以及python中的...data.table包的语法简洁，并且只需一行代码就可以完成很多事情。进一步地，data.table在某些情况下执行效率更高。...在使用data.table时候，需要预先布置一下环境： data<-data.table(data) 如果不布置环境，很多内容用不了。...data.table比较简洁一步搞定，dplyr花了两步，不过也dplyr也可以通过%>%来实现一步搞定。%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。

20.8K3 2

【技巧】如何快速按照日期分组

问题的提出在处理数据的时候，我们常常需要按照日期对数据进行分类汇总，例如每周、每月、每年汇总等。常见的做法是建立一个用于分类的变量，然后再按照这个变量进行汇总。...再次，这种常规方法很难处理一些不规则的日期间隔，例如我希望每隔3天对数据汇总一次；或者再变态一点，我希望把数据分成两组：一组是周三，另一组是非周三。遇到这种情况，我们该怎么办呢？...本期大猫将教大家使用 data.table包的 keyby语句完成上述任务。...按照“每个三天”分类为了按照任意间隔进行分类，我们需要用到 data.table包中的 ceiling_date函数。...(three.day = ceiling_date(date, "3 days"))] 大家注意观察最后的结果，是不是每个三天才产生一个输出？ ? （完）长按二维码关注

2.5K3 0

棉花种子在月球发芽啦！中国或将成首个在太空建“定居点”的国家

今年1月3日，嫦娥四号月球探测器成功软着陆在月球背面的南极-艾特肯盆地冯卡门撞击坑。而此次登月，嫦娥四号还携带着一些特殊的物种，如蚕卵、马铃薯种子、棉花种子等，还有一罐水、氧气和营养液。...就在刚刚，在经历月球低重力、强辐射、高温差等严峻环境考验后，嫦娥四号试验搭载的棉花种子已经长出了嫩芽，完成了人类在月面进行的首次生物实验。...而就在昨天，中国国家航天局首次对外公布，将在探月工程完成后，考虑在月球建立全球第一个永久基地。...据中国教育部深空探测联合研究中心副主任谢更新介绍，此次实验的生态圈，内部温度将维持在1-30摄氏度，并始终为其营造适当的湿度和养分环境，在通过光导管引进月球表面自然光线，促进植物或生物的生长。...而更重要的是，如果此次生态实验成功，这些植物或动物都能在月球很好的成长，将为未来人类在火星甚至其他星球建立太空定居点提供经验。可以说，嫦娥四号的此次实验，是人类向在太空建立永久定居点迈出的一大步。

3533 0

一行代码搞定分组回归

事件研究法在第一期中已经讲述，本期我们就来瞧瞧如何做分组回归~ PS：由于微信的限制，给大猫留言的小伙伴超过48小时后大猫就不能回复你们了。所以如果想联系大猫，可以按照文章最后的微信号加大猫微信哦。...在google中输入“the answer to life the universe and everything”会有惊喜哦。 set.seed(42) # 生成样例数据集dt，其一共有100行。...keyby语句为data.table包中的分组语句，它能够对keyby中的每一个不同的值（这里为abcde）都分别跑一次回归。...整行代码的关键在as.list函数。我们先看看如果不加as.list结果会是怎样的： ? 小伙伴们会发现此时每个组都有两行观测，其实他们分别对应着回归的intercept和coefficient。...如果我们的回归不是单自变量而是双自变量，那么每个分组就会有三行观测了，一行是截距，还有两行是系数。

3.5K4 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭