开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在data.table中删除未使用的因子级别

，可以通过以下步骤实现：

首先，确保你已经加载了data.table包，并且已经将数据加载到data.table对象中。
使用levels()函数获取因子变量的所有级别。
使用table()函数计算每个级别的频数。
使用which()函数找到未使用的级别的索引。
使用droplevels()函数删除未使用的级别。

下面是一个完整的示例代码：

# 加载data.table包
library(data.table)

# 创建一个包含因子变量的data.table对象
dt <- data.table(factors = factor(c("A", "B", "C", "A", "B", "D")))

# 获取因子变量的所有级别
all_levels <- levels(dt$factors)

# 计算每个级别的频数
level_counts <- table(dt$factors)

# 找到未使用的级别的索引
unused_levels <- which(level_counts == 0)

# 删除未使用的级别
dt$factors <- droplevels(dt$factors)

# 打印结果
print(dt)

在这个例子中，我们创建了一个包含因子变量的data.table对象dt，其中包含了级别"A"、"B"、"C"和"D"。然后，我们使用levels()函数获取所有级别，使用table()函数计算每个级别的频数，使用which()函数找到未使用的级别的索引，最后使用droplevels()函数删除未使用的级别。最终，我们打印出结果。

对于这个问题，腾讯云没有特定的产品或链接与之相关。

相关搜索:ggplot:如何从facet中删除未使用的因子级别？使用dplyr过滤数据帧后，从因子中删除未使用的级别删除未使用的因子级别组合的整行刻面从数据框中删除因子级别因子的伪数(在data.table中)因子在新列表中的级别(R)即使在删除一个级别后，因子级别仍保持不变在ggplot2中删除facet_wrap中未使用的级别删除与因子级别匹配的数据帧行(然后绘制不包括该因子级别的数据)在ggplot2中保持非空因子级别顺序的同时移动空因子级别如何防止pivot_wider()删除名称中的因子级别？从网站代码级别删除未使用的CSS 在r中的因子级别内排序和编号在ggplot图例中隐藏未使用的级别使用指向级别变量的变量释放因子如何有条件地删除R中的集团特定因子级别定义因子时的警告:因子中的重复级别已弃用 data.table -使用~var| data.table -data.table/ dcast将因子拆分为列表的元素在R中折叠(杂乱)字符变量的多因子级别使用case_when重命名R中的因子级别

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言数据分析利器data.table包 —— 数据框结构处理精讲

R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。包括两个方面，一方面是写的快，代码简洁，只要一行命令就可以完成诸多任务，另一方面是处理快，内部处理的步骤进行了程序上的优化，使用多线程，甚至很多函数是使用C写的，大大加快数据运行速度。因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里我们主要讲的是它对数据框结构的快捷处理。

02

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

由于业务中接触的数据量很大，于是不得不转战开始寻求数据操作的效率。于是，data.table这个包就可以很好的满足对大数据量的数据操作的需求。

04

R语言基因组数据分析可能会用到的data.table函数整理

R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。包括两个方面，一方面是写的快，代码简洁，只要一行命令就可以完成诸多任务，另一方面是处理快，内部处理的步骤进行了程序上的优化，使用多线程，甚至很多函数是使用C写的，大大加快数据运行速度。因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。

01

R语言实现定性资料的秩和检验

定性资料比如等级，毒性，应答等，可以以具有分级的因子的形式表示，比如(+ ++， +++)，分别对应因子的1,2,3种水平，这样不同组样本只要看这些数据的等级的排列是否一致就可以判断这两个群体的分布是否有差异(秩和检验)。

02

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。

03

GWAS计算BLUE值2--LMM计算BLUE值

本节，介绍如何使用R语言的lme4包拟合混合线性模型，计算最佳线性无偏估计（blue）

03

肺癌转移中的再生谱系和免疫介导的修剪

文章标题：《Regenerative lineages and immune-mediated pruning in lung cancer metastasis》

01

R语言高级数据结构data.table

对于data.frame大家应该很熟悉，它可以存储不同数据类型的向量数据。今天给大家介绍一个升级版的data.frame，其不仅可以存储不同数据类型还可以进行多列的并行运算。包的安装我们就不再赘述了（install.packages(“data.table”)）。

03

开发ETL为什么很多人用R不用Python

ETL在数据工作中起着至关重要的作用，主要用途有两个：（1）数据生产（2）为探索性数据分析与数据建模服务。

03

开放地址法散列开放地址法代码实现

开放地址法开放地址法是另一种（相对于分离链接法）解决散列冲突的方法。适用于装填因子（散列表中元素个数和散列表长度比）较小（小于0.5）的散列表。开放地址法中索引的计算方法为$$h_{i}(x) = (Hash(X) + F(i)) % TableSize$$，其中： Hash(x)为索引的计算方法 F(i)为冲突的解决函数，有F(0) = 0，i为已经尝试计算索引的次数 F(i)一般有：线性探测法：$$F(i) = i$$，即每次冲突则向下寻找1个位置，直到找到不冲突的位置，容易产生“一次聚集”的现象

作者仅提供了fpkm格式表达量矩阵的转录组测序数据集该如何重新分析呢

研究者们在GEO数据库是有数据分享：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE182923

01

文本情感分析：特征提取（TFIDF指标）&随机森林模型实现

作者：Matt 自然语言处理实习生 http://blog.csdn.net/sinat__26917383/article/details/51302425 笔者寄语：本文大多内容来自未出版的《数据挖掘之道：基于R的实战之旅》的情感分析章节。本书中总结情感分析算法主要分为两种：词典型+监督算法型。监督算法型主要分别以下几个步骤：构建训练+测试集+特征提取（TFIDF指标）+算法模型+K层交叉验证。基于监督算法的情感分析存在着以下几个问题：（1）准确率而言，基于算法的方法还有待提高，而目前的算

04

R语言︱情感分析—基于监督算法R语言实现（二）

版权声明：博主原创文章，微信公众号：素质云笔记,转载请注明来源“素质云博客”，谢谢合作！！ https://blog.csdn.net/sinat_26917383/article/details/51302425

02

Matt Dowle 演讲节选（二）

也许很多小伙伴都注意到了，这一期的文章和往期的排版有所不同，因为从这一期开始，大猫将使用markdown来进行写作，并在最后用css来进行渲染输出。原来大猫使用的是秀米等富文本编辑器，最然可以实现很花哨的效果，但是每次编辑的时间可能都比写作的时间长，而且富文本编辑器对于代码块的支持极弱，语法高亮没有就算了，但是代码块无法水平滚动就不能忍。相比之下，markdown不仅对于代码有着先天的支持，而且只要在第一次设定好css，以后每次编辑的时间几乎为零，直接复制粘贴到公众号平台就可以渲染出非常漂亮的网页，简直美滋滋！

04

泛癌水平的批量生存分析

都是依据肿瘤病人的转录组测序表达量矩阵进行的分析，也有几百篇类似的数据挖掘文章了，它们总是喜欢落脚到estimate或者CIBERSORT结果的预后意义。但是实际上我们也代码演示了：estimate或者CIBERSORT结果真的是很好的临床预后指标吗，这样做风险很大，后面留了一个思考题，就是CIBERSORT的22种免疫细胞比例的生存意义的全部癌症的探索，呼应我们的主题《泛癌水平的批量生存分析》。

02

R语言处理一个巨大的数据集，而且超出了计算机的内存限制

使用R编程处理一个超出计算机内存限制的巨大数据集时，可以采用以下策略（其他编程语言同理）：

09

「Workshop」第五期：使用data.table操作数据

使用c("<name of col1>", "<name of col2>")和.(col1, col2)效果一样

05

RNA-seq入门实战（三）：在R里面整理表达量counts矩阵

连续两次求贤令：曾经我给你带来了十万用户，但现在祝你倒闭，以及生信技能树知识整理实习生招募，让我走大运结识了几位优秀小伙伴！大家开始根据我的ngs组学视频进行一系列公共数据集分析实战，其中几个小伙伴让我非常惊喜，不需要怎么沟通和指导，就默默的完成了一个实战！

04

笔记 GWAS 操作流程6-2：手动计算GWAS分析中的GLM和Logistic模型

表型数据如果只有一个，可以放在plink文件的ped数据的第六列，也可以单独拉出来：

03

PRS多基因评分教程学习笔记(二）

之前学习了Base Data质控过程，下面继续，最近一直没有开启博客写作，十月将过，加紧补点。

03

《高效R语言编程》5-高效输入输出

在读取一行数据之前，应该先考虑下重复数据管理的通用规则，不改写原始数据。原始文件视为只读，保留原始文件名字并说明来源，是一个好办法。

02

「R」数据操作（三）：高效的data.table

data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[]实现了一种自然地数据操作语法。使用下面命令进行安装：

02

生信马拉松 Day9-10 GEO数据分析笔记

今天正式开始教画图了，具体的代码其实挺多地方讲到了，上课的好处就是可以听到很多细节和经验，是自己零散地找资料不能相比的，收获很多，感觉要全部吞下来还要再复习几遍

00

mlr3_建立task

使用mtcars数据集，建立一个回归任务，使用两个特征预测目标变量mpg（每公里油耗）的值

04

「R」data.table 包功能特性学习

data.table包提供了一个加强版的data.frame。它运行效率极高，而且能够处理适合内存的大数据集。它通过[ ]实现了一种自然的数据操作语法。

01

小鼠急性肾损伤AKI模型的单细胞分析

文章标题：《Single-Cell Profiling of AKI in a Murine Model Reveals Novel Transcriptional Signatures, Profibrotic Phenotype, and Epithelial-to-Stromal Crosstalk》

01

经验总结 | 最有效的R学习路径（一）

在小伙伴问大猫的所有关于R的问题中，“如何最快学R”应该是呼声最高的话题了。以前大猫曾经把自己的经验总结成一篇万字长文发在人大经济论坛中，但是由于篇幅太长，很少有小伙伴有时间看完。从今天开始，大猫会陆续把原来的这篇心得经过提炼后发出来，同时还会增加一些新的内容。

02

癌基因都是肿瘤的风险因子吗

同理，我们会问另外一个问题，就是癌基因都是肿瘤的风险因子吗，它高表达会导致癌症比如死的越来越快吗？反之，抑癌基因一定是肿瘤的保护因子吗，它表达量越高癌症病人越受到保护吗，因为想当然的我们会认为抑癌基因能抑制癌症嘛，所以它表达量越高越好。

02

5个例子比较Python Pandas 和R data.table

Python和R是数据科学生态系统中的两种主要语言。它们都提供了丰富的功能选择并且能够加速和改进数据科学工作流程。

03

GWAS软件：GAPIT+GEMMA+GCTA如何计算PVE？

这里，分享一下常用GWAS软件，比如GAPIT，GEMMA，GCTA是如何计算显著SNP解释百分比（PVE）的。

02

作者为什么要上传一个错误的表达量矩阵呢

凭我对他的了解，他肯定是提问的方式就是错误的，写一段自己的”感悟“，其实完全没必要，我也压根不会看他给出来的这些“长篇大论” ：

02

R练习50题 - 第一期

从这期开始，大猫课堂将会推出一个新的系列：R练习50题，目的是使用50道练习题让大家掌握常用的数据操作，例如寻找每组最大的N个观测等。本练习题来源于Renkun (github.com/renkun-ken/r-data-practice) 在Github上的共享，我们认为它包括了绝大多数实践中会遇到的问题，特别具有代表性。只可惜Renkun并没有提供答案，所以我们在这里提供我们的版本。

04

TCGA数据整理-2

https://mp.weixin.qq.com/s/_DtkxSfLGQHcRju66J4yTQ

01

栾生老师 || 线性混合效应模型教程

学习线性混合效应模型（Linear Mixed Effects Model，LMM）最好的方法，是一边学习理论，一边动手实践，这样印象最为深刻。本文参考了Bodo Winter博士的教程Linear models and linear mixed effects models in R教程1教程2的结构。

09

生信技能树 Day8 9 GEO数据挖掘基因芯片数据

有时eSet里面有两个对象，可以到网页看一下，可能是因为测了两种芯片，我们分开分析就好。

02

深入对比数据科学工具箱：Python和R之争

在真实的数据科学世界里，我们会有两个极端，一个是业务，一个是工程。偏向业务的数据科学被称为数据分析（Data Analysis），也就是A型数据科学。偏向工程的数据科学被称为数据构建(Data Building)，也就是B型数据科学。从工具上来看，按由业务到工程的顺序，这个两条是：EXCEL >> R >> Python >> Scala 在实际工作中，对于小数据集的简单分析来说，使用EXCEL绝对是最佳选择。当我们需要更多复杂的统计分析和数据处理时，我们就需要转移到 Python和R上。在确定工程实施和大数据集操作时，我们就需要依赖Scala 的静态类型等工程方法构建完整的数据分析系统。 Scala和Excel是两个极端，对于大多数创业公司而言，我们没有足够多的人手来实现专业化的分工，更多情况下，我们会在Python和R上花费更多的时间同时完成数据分析（A型）和数据构建（B型）的工作。而许多人也对 Python和R的交叉使用存在疑惑，所以本文将从实践角度对Python和R中做了一个详细的比较。

04

懒癌必备-dplyr和data.table让你的数据分析事半功倍

本文介绍了如何使用dplyr和data.table两个R包进行数据清洗、数据加工和数据分析，通过几个实际案例展示了dplyr和data.table的常用功能和高效操作。

07

获取基因有效长度的N种方法

最近有粉丝自告奋勇希望可以把他自己在简书等平台的生物信息学笔记分享在我们生信技能树公众号，在专业的舞台上跟大家切磋！

01

GWAS计算BLUE值3--LMM考虑残差异质计算BLUE值

本节，介绍如何使用R语言的asreml包拟合混合线性模型，定义残差异质，计算最佳线性无偏估计（blue）

02

monocle2轨迹分析

所以要从bdata获得pd，adata.var作为fd，adata.X作为count信息

04

基于data.table的“tidyverse”？

tidyverse作为R语言数据分析中的瑞士军刀，非常好用，一个小小的缺点就是速度慢，data.table速度快，所以他们团队又开发了dtplyr，加快运行速度。

05

R数据科学整洁之道：使用dtplyr处理大文件

有群友问如果文件比较大，读入 R 比较慢怎么办？我告诉他用 data.table 包的 fread 读取。

01

「r」dplyr 里的 join 与 base 里的 merge 存在差异

今天在使用连接操作时发现：虽然都是合并操作函数，dplyr 包里的 *_join() 和基础包里面的 merge() 存在差异，不同的数据结构，结果也会存在偏差。

03

R语言学习笔记之——数据处理神器data.table

数据处理在数据分析流程中的地位相信大家都有目共睹，也是每一个数据从业者面临的最为繁重的工作任务。在实际应用场景下，虽然SQL（SQL类专业的etl语言）是数据处理的首选明星语言，性能佳、效率高、容易培养数据思维，但是SQL没法处理构建全流程的数据任务，之后仍然需要借助其他数据分析工具来对接更为深入的分析任务。 R语言作为专业的统计计算语言，数据处理是其一大特色功能，事实上每一个处理任务在R语言中都有着不止一套解决方案（这通常也是初学者在入门R语言时，感觉内容太多无从下手的原因），当然这些不同方案确实存在

08

R语言学习笔记-Day4

R和Bioconductor主网站位于国外，可选择国内镜像e.g.清华镜像（tuna, Beijing）、中科大镜像（ustc, Hefei）

01

R海拾遗--data.table初级学习

data.table对于大数据的数据整理较为便捷，很多的时候比data.frame效率更高，一般情况下结合管道符号进行计算

03

data.table包使用应该注意的一些细节

注意默认nThread=getDTthreads()，即使用所有能用的核心，但并不是核心用的越多越好，本人亲自测试的情况下，其实单核具有较强的性能，只有在数据大于3Gb的情况下，开启10核（我的机器全部核心30多核）效率才比一个核心更高，而默认使用全部的核心效率一直非常低。因此对于不是非常巨大的文件，建议设置为1，不要使用全部核心

01

能不能让R按行处理数据？

Hello亲爱的小伙伴们，大猫课堂又回来啦。从今天开始大猫会选择一些Stackoverflow.com上有关R数据处理的问答摘录给大家。这些问题都是在平日的工作中有很高可能性出现并且看似容易实则让人抓狂的问题，在Stackoverflow上他们有着很高的人气。事实上，这些问题也就是你在“看懂一本R的教材”和“成为R大神”之间的距离。大猫除了进行翻译，也会在其中增加一些相关知识点，相信掌握了这些问题，一定会对你的研究工作大有裨益。

02

完成任意癌症的任意基因突变与否分组后的转录组测序的差异分析

如何找到somatic的突变信息的maf文件，仍然是从UCSC的XENA浏览器里面选择NSCLC的里面的LUAD数据集即可，这个是网页里面的鼠标点击操作。值得注意的是网页里面关于同一个癌症有两个跳转链接哦（其中一个带有GDC的前缀）：

02

有些包卸载了就回不去了

最近接收到粉丝的求助，说她安装一个包data.table失败了，提示她R包data.table依赖于最新的4.0以上，所以被迫升级了R，结果仍然是搞不定它，又降级为3.6，折腾了三天三夜，仍然是折戟沉沙在包data.table上面。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭