开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

dplyr:保留因子的空级别，但不保留数据中未出现的因素组合的空级别

dplyr是一个R语言中用于数据处理和操作的包，它提供了一组简洁且一致的函数，用于对数据进行筛选、排序、汇总、变形等操作。在dplyr中，保留因子的空级别是指在对因子变量进行操作时，保留因子中的空级别（即因子中没有出现的水平），但不保留数据中未出现的因素组合的空级别。

在默认情况下，dplyr会自动移除因子变量中的空级别。然而，有时候我们希望保留这些空级别，以便在后续的分析中能够正确地处理因子变量。为了实现这一点，可以使用addNA()函数来添加一个空级别，从而保留因子的空级别。

下面是一个示例代码，演示了如何使用dplyr中的函数来保留因子的空级别：

library(dplyr)

# 创建一个包含因子变量的数据框
df <- data.frame(
  category = factor(c("A", "B", "C", "A", "B", "C")),
  value = c(1, 2, 3, 4, 5, 6)
)

# 使用addNA()函数来保留因子的空级别
df <- df %>%
  mutate(category = addNA(category))

# 查看结果
levels(df$category)

在上述代码中，我们首先创建了一个包含因子变量category和数值变量value的数据框df。然后，使用mutate()函数和addNA()函数来对category变量进行操作，将空级别添加到因子中。最后，使用levels()函数查看结果，可以看到因子变量category中保留了空级别。

对于dplyr的更多详细信息和用法，可以参考腾讯云的R语言云函数（SCF）产品，该产品提供了一个灵活且高性能的云端运行环境，可用于执行R语言代码和进行数据处理分析。详情请参考：腾讯云R语言云函数（SCF）产品介绍。

相关搜索:在ggplot2中保持非空因子级别顺序的同时移动空因子级别使用dplyr过滤数据帧后，从因子中删除未使用的级别按已知因子级别过滤数据会产生空的数据帧如何删除多索引数据帧中的空级别有没有一种方法可以对数据帧中的索引级别求和，同时保留重复的索引级别？选择R中首次出现的日期时保留为空单元格按另一个因子的级别聚合值，但将所有行保留在R中从SQL查询中排除空值并保留数据帧中的旧值用R/ggplot2中的因子拟合离散X轴，其水平未保留在数据集中 c语言 stack类

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R入门？从Tidyverse学起！

很多人推荐《R语言实战》这本书来入门R，当然，这本书非常不错，我也是通过这本书开始接触的R。这种入门的学习路径属于base R first，学习的流程基本是先了解变量的类型、数据的结构，再深入点就会学到循环与自定义函数。有些类似于先认识编程，再按照数据处理、可视化、统计分析等应用方向开始下一个学习的旅程。

03

R语言入门（一）之数据处理

写在前面：公众号又被我搁置好久，闲来无事，写写近期学的R语言吧，主要分为两个部分写，一主要为数据处理，二为ggplot作图。这两个部分将生信分析的绝大多数常用命令都讲到了，作为R语言入门是够用的，但是学海无涯，以此只是作为一个引子，想要进步还是要自己多学多练，举一反三才行。

04

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。

03

R数据科学整洁之道：使用 dplyr 处理关系数据

有人喜欢用 Excel 的 vlookup 函数来处理。但对于生信人来说，这显然不够优雅，因为我们有更好的办法。

01

两个神奇的R包介绍，外加实用小抄

认识Tidy Data1.Reshape Data2.Handle Missing Values3.Expand Tables4.split cells一、测试数据1.新建数据框2.用tidyr进行处理3.按照geneid排序4.空值操作用表二、Dplyr能实现的小动作1.arrange 排序2.fliter3.distinct4.select5.mutate6.summarise7.bind_rows8.交集、并集、全集9.关联

04

什么是DOE？怎么做DOE分析？

DOE（Design of Experiments）是一种实验设计方法，用于探索和验证因素对结果的影响。在DOE中，通常会将实验分为多个组合，每个组合都会控制一个因素，并测量其对结果的影响。通过这种方式，可以更全面地了解因素对结果的影响，并确定最佳因素组合。

03

高效R编程

这是《高效R语言编程》的学习笔记，前面的笔记在这里：https://blog.csdn.net/zd200572/article/details/115349366 https://www.jianshu.com/p/71392ef45d01 很多R语言用户并不认为自己是程序员，我也是:)，精通专业知识，理解R语言的标准数据结构，但是缺乏正规编程训练，你是这样的吗？

03

Man Numeric：创新性统计风险模型

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，曾荣获AMMA优秀品牌力、优秀洞察力大奖，连续4年被腾讯云+社区评选为“年度最佳作者”。

01

R语言︱情感分析—基于监督算法R语言实现（二）

版权声明：博主原创文章，微信公众号：素质云笔记,转载请注明来源“素质云博客”，谢谢合作！！ https://blog.csdn.net/sinat_26917383/article/details/51302425

02

R语言使用特征工程泰坦尼克号数据分析应用案例

特征工程对于模型的执行非常重要，即使是具有强大功能的简单模型也可以胜过复杂的算法。实际上，特征工程被认为是决定预测模型成功或失败的最重要因素。特征工程真正归结为机器学习中的人为因素。通过人类的直觉和创造力，您对数据的了解程度可以带来不同。

03

HashMap的知识点整理

API截图:在线版https://blog.fondme.cn/apidoc/jdk-1.8-google/

02

蒸馏Alpha：因子的可交『弈』性

“是在一个大的平台里追求安稳，还是在去初创的公司搓破天花板，这其实是每个行业都会遇到的选择。但尤其在量化行业，你会发现这两种选择显得更为两极化。但当我看到国内量化行业的蓬勃发展，我还是毅然选择离开世坤，并深入的参与到国内的市场竞争中来。”

04

SQL server----sys.objects、sys.columns、sysindexes

sys.objects、sys.columns、sys.indexes这三个都是系统视图，主要映射了表、列、索引等信息。与MySQL数据库的information_schema库类似。

02

R语言 | R基础知识

使用install.packages()函数来安装包，括号中写上要安装的包的包名。以安装ggplot2包为例：

01

编程思想之「容器深入研究」

在「数组、容器」这篇博文中，我们已经介绍了 Java 容器类库的相关概念及基本特性，这对于使用容器来说已经够用了。在本篇博文中，我们则是要对容器进行更深层次的研究！首先，给出容器类库的比较完备的构件图：

03

提产提效，你需要DOE试验设计！

DOE实验设计是一种安排实验和分析测试数据的数理统计方法。DOE测试设计主要是合理安排测试，以较小的测试规模、较短的测试周期、较低的测试成本获得理想的测试结果和科学的结论。

04

是否需要对因子进行『行业中性化』处理？

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，曾荣获AMMA优秀品牌力、优秀洞察力大奖，连续4年被腾讯云+社区评选为“年度最佳作者”。来自：Financial Analysts Journal 标题：Is Sector Neutrality in Factor Investing a Mistake? 作者：Sina Ehsani、Campbell R. Harvey、Feifei Li

01

广义估计方程和混合线性模型在R和python中的实现

针对某个科学问题，通常会在一段时间内对多个同一研究对象进行多次或重复测量，这类数据一般称为纵向数据。纵向数据具有两个特点，一是研究对象重复；二是观察值可能存在缺失值。上述两个因素导致在探索结果和观测指标相关性分析时，一般线性（linear regression model）或广义线性模型（generalized regression model）以及重复测量方差分析（repeated ANOVA）均不适用。因此，广义估计方程(generalized estimating equations，GEE) 和混合线性模型(mixed linear model，MLM) 被广泛应用于纵向数据的统计分析。

00

Day4：R语言课程（向量和因子取子集）

https://hbctraining.github.io/Intro-to-R/lessons/04_introR-data-wrangling.html

02

GMSB文章七：微生物整合分析

本文通过多元方差分析和典型相关分析研究微生物（species）、细胞因子（cytokine）和短链脂肪酸（SCFA）之间的相关关系。以下是两种分析的定义：

01

R语言之 dplyr 包

这个包以一种统一的规范更高效地处理数据框。dplyr 包里处理数据框的所有函数的第一个参数都是数据框名。

02

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析|附代码数据

本报告是对心脏研究的机器学习/数据科学调查分析。更具体地说，我们的目标是在心脏研究的数据集上建立一些预测模型，并建立探索性和建模方法。但什么是心脏研究？

00

翻译系列（二）：如何提升动量因子策略的表现？

2001年，斯坦福大学胡佛研究所的John H. Cochrane把投资中不断增长的因子称为因子动物园。但从字面上理解这一说法并把动物分配给因子相当有挑战性，价值代表着廉价的股票，但是什么动物是便宜的？

03

35. R 数据整理（七：使用tidyr和dplyr处理数据框 2.0）

假设数据以 tibble 格式保存。数据集如果用于统计与绘图，需要满足一定的格式要求，(Wickham, 2014) 称之为整洁数据 (tidy data)，基本要求是每行一个观测，每列一个变量，每个单元格恰好有一个数据值。这些变量应该是真正的属性，而不是同一属性在不同年、月等时间的值分别放到单独的列。

03

R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析|附代码数据

本报告是对心脏研究的机器学习/数据科学调查分析。更具体地说，我们的目标是在心脏研究的数据集上建立一些预测模型，并建立探索性和建模方法。但什么是心脏研究？（点击文末“阅读原文”获取完整代码数据）

00

拆解组新的GAN：解耦表征MixNMatch

表示某类的无标签的图像集合（例如鸟类图像），任务是学习一个条件式生成模型，可以同时将背景、物体姿势、形状和纹理等因子编码到一个解纠缠的潜码空间（每个因子单独受一个潜码控制），并且通过结合这些因子可以组合生成逼真的新图像。

04

sql语句增删改查的基本语法_数据库中的增删改查四个语句

主键约束primarykey主键约束相当于唯一约束+非空约束的组合，主键约束列不允许重复，也不允许出现空值。每个表最多只允许一个主键，建立主键约束可以在列级别创建，也可以在表级别创建。当创建主键的约束时，系统默认会在所在的列和列组合上建立对应的唯一索引。

03

QIML Insight | 新闻情绪改进反转因子：基于A股实践

量化投资与机器学公众号 QIML Insight——深度研读系列是公众号全力打造的一档深度、前沿、高水准栏目。

02

商业决策中如何快速找到问题关键？变量降维算法详解

本周我们将告诉你如何快速找到矩阵分析中那2个关键维度——变量降维算法。下面介绍两种常用的降维方式：主成分分析法和因子分析法，并对比说明二者的联系与区别。

03

手把手教你R语言方差分析ANOVA

方差分析（ANOVA）是一种统计方法，用于比较两组或多组数据之间的均值差异。在R语言中，实现方差分析主要涉及到以下步骤：

01

中国版四因子模型，加入情绪指标，6不6？

股票投资组合的收益率由何种因素决定？这个经典的问题，驱使着一代又一代的金融大师们，持续地对股票市场进行研究。最早的资本资产定价模型(CAPM模型)其实在1961年就有了雏形。

03

白鹭女掌门张晨樱：打造反脆弱的量化多策略盈利武器

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，连续2年被腾讯云+社区评选为“年度最佳作者”。前言伴随股票市场的风格切换以及商品市场的极端波动，量化产品会在一定程度出现部分回撤，这也再次提醒我们多资产、多策略配置的重要性。然而，对于管理人来说，想要真正做好多策略并非易事，也远不止将几个策略组合在一起这么简单，在策略研发、人才、IT方面都对管理人提出了更高的要求。

04

组合优化(三)：时变IC下的多空/多头最优组合换手率

单因子模型，考虑策略风险（即IC时序波动），最大化风险调整后收益的主动增强组合优化

02

MQTT协议通俗讲解

基本概念 Basic Conception Session 会话定义定义：某个客户端（由ClientID作为标识）和某个服务器之间的逻辑层面的通信生命周期（存在时间）：会话 >= 网络连接 ClientID 客户端唯一标识，服务端用于关联一个Session 只能包含这些大写字母，小写字母和数字（0-9a-zA-Z），23个字符以内如果 ClientID 在多次 TCP连接中保持一致，客户端和服务器端会保留会话信息（Session）同一时间内 Server 和同一个 ClientID 只能保持一个 TCP 连接，再次连接会踢掉前一个 CleanSession 标记在Connect时，由客户端设置 0 —— 开启会话重用机制。网络断开重连后，恢复之前的Session信息。需要客户端和服务器有相关Session持久化机制。 1 —— 关闭会话重用机制。每次Connect都是一个新Session，会话仅持续和网络连接同样长的时间。客户端 Session 已经发送给服务端，但是还没有完成确认的 QoS 1 和 QoS 2 级别的消息已从服务端接收，但是还没有完成确认的 QoS 2 级别的消息服务器端 Session 会话是否存在，即使会话状态的其它部分都是空 (SessionFlag) 客户端的订阅信息 (ClientSubcription) 已经发送给客户端，但是还没有完成确认的 QoS 1 和 QoS 2 级别的消息即将传输给客户端的 QoS 1 和 QoS 2 级别的消息已从客户端接收，但是还没有完成确认的 QoS 2 级别的消息（可选）准备发送给客户端的 QoS 0 级别的消息长连接维护与管理 Keep Alive 心跳目的是保持长连接的可靠性，以及双方对彼此是否在线的确认。客户端在Connect的时候设置 Keep Alive 时长。如果服务端在 1.5 * KeepAlive 时间内没有收到客户端的报文，它必须断开客户端的网络连接 Keep Alive 的值由具体应用指定，一般是几分钟。允许的最大值是 18 小时 12 分 15 秒 Will 遗嘱遗嘱消息（Will Message）存储在服务端，当网络连接关闭时，服务端必须发布这个遗嘱消息，所以被形象地称之为遗嘱，可用于通知异常断线。客户端发送 DISCONNECT 关闭链接，遗嘱失效并删除遗嘱消息发布的条件，包括：服务端检测到了一个 I/O 错误或者网络故障客户端在保持连接（Keep Alive）的时间内未能通讯客户端没有先发送 DISCONNECT 报文直接关闭了网络连接由于协议错误服务端关闭了网络连接相关设置项，需要在Connect时，由客户端指定 Will Flag —— 遗嘱的总开关 0 -- 关闭遗嘱功能，Will QoS 和 Will Retain 必须为 0 1 -- 开启遗嘱功能，需要设置 Will Retain 和 Will QoS Will QoS —— 遗嘱消息 QoS 可取值 0、1、2，含义与消息QoS相同 Will Retain —— 遗嘱是否保留 0 -- 遗嘱消息不保留，后面再订阅不会收到消息 1 -- 遗嘱消息保留，持久存储 Will Topic —— 遗嘱话题 Will Payload —— 遗嘱消息内容消息基本概念报文标识 Packet Identifier 存在报文的可变报头部分，非零两个字节整数 (0-65535] 一个流程中重复：这些报文包含 PacketID，而且在一次通信流程内保持一致： PUBLISH(QoS>0 时)，PUBACK，PUBREC，PUBREL，PUBCOMP SUBSCRIBE, SUBACK UNSUBSCIBE，UNSUBACK 新的不重复：客户端每次发送一个新的这些类型的报文时都必须分配一个当前未使用的PacketID 当客户端处理完这个报文对应的确认后，这个报文标识符就释放可重用。独立维护：客户端和服务端彼此独立地分配报文标识符。因此，客户端服务端组合使用相同的报文标识符可以实

01

量化论文不可复现是人品问题，赚不赚钱不是评价它的标准！

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，连续2年被腾讯云+社区评选为“年度最佳作者”。量化投资与机器学习公众号撰写 QIML观点学术论文，研究报告，纵观其有各种各样的问题。作为Quant，对这些原材料的甄别、提炼及加工，本身就是工作的一部分。研究需要有主线，策略需要有逻辑，沿着这条主线及逻辑，在不同的（甚至是不同领域的）论文去吸收新颖的方法及技巧，整合到

02

R语言之数值型描述分析

在分析之前，先将数据集 birthwt 中的分类变量 low、race、smoke、ht 和 ui 转换成因子。

02

101因子新测评，会有哪些新发现？

之前公众号分享过网友自行编写的WorldQuant 101因子源代码，大家有需要可以点击链接进行免费获取。

03

文本情感分析：特征提取（TFIDF指标）&随机森林模型实现

作者：Matt 自然语言处理实习生 http://blog.csdn.net/sinat__26917383/article/details/51302425 笔者寄语：本文大多内容来自未出版的《数据挖掘之道：基于R的实战之旅》的情感分析章节。本书中总结情感分析算法主要分为两种：词典型+监督算法型。监督算法型主要分别以下几个步骤：构建训练+测试集+特征提取（TFIDF指标）+算法模型+K层交叉验证。基于监督算法的情感分析存在着以下几个问题：（1）准确率而言，基于算法的方法还有待提高，而目前的算

04

GEO数据挖掘-基于芯片

在require()函数中，如果直接传递包的名称作为参数，不需要加引号；如果包的名称以字符串形式存储在变量中，则需要使用character.only = TRUE来指定这个变量是一个字符串

01

深度剖析分布式事务，轻松掌握实现原理与应用技巧！

大家好，今天我们来一起探讨分布式事务的相关知识。相信大家都有多多少少接触过分布式事务，因为我们现在写的代码可是服务于亿级用户量级的，那么大的请求量级不可能全部写在一台服务器上面对吧。如果你还没有研究过分布式事务，也没关系，我们今天再一起来探讨一番。我曾经接触过分布式事务相关的中间件框架，比如现在很火的阿里开源的一款分布式事务中间件Seata。目前我在Seata社区主要做一些RPC以及性能优化的相关工作，所以我可能会对分布式事务具体实现比较了解。以Seata为契机，我们一起来探讨分布式事务。

02

Hive SQL 常用零碎知识

比如event_value是一个json格式的字段，然后想获取里面的id作为单独一列

06

当今最火10大统计算法，你用过几个？

为什么学习统计学习？理解不同技术背后的理念非常重要，它可以帮助你了解如何使用以及什么时候使用。同时，准确评估一种方法的性能也非常重要，因为它能告诉我们某种方法在特定问题上的表现。此外，统计学习也是一个很有意思的研究领域，在科学、工业和金融领域都有重要的应用。最后，统计学习是训练现代数据科学家的基础组成部分。统计学习方法的经典研究主题包括：线性回归模型感知机 k 近邻法朴素贝叶斯法决策树 Logistic 回归与最大熵模型支持向量机提升方法 EM 算法隐马尔可夫模型条件随机场之后我将介绍

Hive / ClickHouse 行转列函数 collect_set() / groupUniqArray() 入门

在数据处理和分析中，我们经常会遇到需要将一行数据转换为多列的情况。在 Hive 和 ClickHouse 中，可以使用 collect_set() 和 groupUniqArray() 函数来实现行转列操作。

02

当今最火10大统计算法，你用过几个？

为什么学习统计学习？理解不同技术背后的理念非常重要，它可以帮助你了解如何使用以及什么时候使用。同时，准确评估一种方法的性能也非常重要，因为它能告诉我们某种方法在特定问题上的表现。此外，统计学习也是一个

00

【66期】Java容器面试题：谈谈你对 HashMap 的理解

来自：juejin.im/post/5c1da988f265da6143130ccc

02

云安全加固实践分享

PS: https://blog.csdn.net/HBice2020/article/details/116245207 （常用默认端口）

00

近期因子研究论文推荐

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，荣获2021年度AMMA优秀品牌力、优秀洞察力大奖，连续2年被腾讯云+社区评选为“年度最佳作者”。 Combining Factors Christoph Reschenhofer (Vienna University of Economics and Business) / July 2022 学术文献主要通过组合收益

01

Bertopology: Bert及其改进型总结

Bert使用的激活函数是GELU：正态分布下GELU(x)，论文给出了近似计算公式:

02

结构方程模型SEM、路径分析房价和犯罪率数据、预测智力影响因素可视化2案例

在本文，我们将考虑观察/显示所有变量的模型，以及具有潜在变量的模型。第一种有时称为“路径分析”，而后者有时称为“测量模型”。

02

【全网首发】——机器学习该如何应用到量化投资系列（一）

有一些单纯搞计算机、数学或者物理的人会问，究竟怎么样应用 ML 在量化投资。他们能做些什么自己擅长的工作。虽然在很多平台或者自媒体有谈及有关的问题，但是不够全面和完整。从今日起，量化投资与机器学习公众号将推出一个系列【机器学习该如何应用到】。编辑部花了很长时间，采访和咨询了很多研究人员。希望各位读者有所收获，如有不足，欢迎批评指正。一、什么是机器学习机械的定义避开不谈，回答也不追求全面准确。明确一点，机器学习的主要目的在于发现规律或重现规律。（此处不谈非监督学习、强化学习，也不谈降维、集成算法）。什么是

08

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭