首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

从data.frame中删除列,其中NA大于列长度的15%

从data.frame中删除列,其中NA大于列长度的15%,可以使用以下R语言代码实现:

代码语言:R
复制
# 假设dataframe是一个data.frame对象
dataframe <- dataframe[, sapply(dataframe, function(x) sum(is.na(x))/length(x) <= 0.15)]

这段代码使用了R语言中的数据操作函数,其中sapply函数用于对data.frame中的每一列进行操作,function(x) sum(is.na(x))/length(x) <= 0.15是一个匿名函数,用于计算每一列中NA值的比例,如果比例小于等于0.15,则保留该列,否则删除该列。

这段代码可以很好地实现从data.frame中删除NA大于列长度的15%的功能,同时不涉及到其他云计算品牌商的内容。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

快速掌握R语言中类SQL数据库操作技巧

, nrow = 1, ncol = 1, byrow = FALSE,dimnames = NULL) #表示生成1行,1一个矩阵,其中仅仅包含一个元素“NA” #---示例---# > matrix...("C.1", "C.2", "C.3")) 定义矩阵行名和列名 1.3 数据框 DataFrame: data.frame() #其中" <- "是赋值意思,将向量c(11:15)赋值给对象x >...对于NA操作,主要都集中在了过滤操作和填充操作,因此就不在单独介绍NA处理了。...B NA 4 2 B NA 4.2 数据增减 常见如以下不同方法 #方法一:减行数或数 x=x[,-1] #代表删除x数据集中第一数据 #方法二:dplyr::mutate...分成2步操作,第一步先分成与数据集同样长度因子,第二步进行分裂,可以把一个大向量拆分成多个小向量。

5.7K20
  • 玩转数据处理120题|R语言版本

    :对数据按照"popularity"大小进行排序 难度:⭐⭐ R解法 df % arrange(popularity) 20 字符统计 题目:统计grammer每个字符串长度...new大于60000最后3行 难度:⭐⭐⭐⭐ 期望输出 ?...(col3,col2,everything()) 94 数据提取 题目:提取第一位置在1,10,15数字 难度:⭐⭐ R语言解法 df[c(1,10,15) + 1,1] 95 数据查找 题目:查找第一局部最大值位置...:CSV文件读取指定数据 难度:⭐⭐ 备注 数据1前10行读取positionName, salary两 R语言解法 #一步读取文件指定用readr包或者原生函数都没办法 #如果文件特别大又不想全部再选指定可以用如下办法...文件读取指定数据 难度:⭐⭐ 备注 数据2读取数据并在读取数据时将薪资大于10000为改为高 R语言解法 library(readr) df2 <- read_csv('数据2.csv')

    8.7K10

    「R」数据操作(三):高效data.table

    下面举例说明,首先创建有1000万行数据,其中是索引id,其他两是随机数: n = 10000000 test1 = data.frame(id = 1:n, x = rnorm(n), y...为演示,我们先创建新data.table,命名为market_data,其中date是连续。...,每条记录了钻石10个属性,现在我们队cut每种切割类型都你拟合一个线性回归模型,由此观察每种切割类型carat与depth是如何反映log(price)信息。...(year = year(date))] } 这里我们使用.SD[[x]]提取x值,这跟通过名字列表中提取成分或元素相同。...,而是使用market_data[, (columns) := list(...)]来动态设定其中columns是一个包含列名字符向量,list(...)是每个对应值: price_cols

    6.2K20

    R语言学习笔记

    更新~ 请注意,本文编写于 398 天前,最后修改于 378 天前,其中某些信息可能已经过时。 R语言认识 R语言特点 有效数据处理和保存机制。 拥有一整套数组和矩阵操作运算符。...“AER”包(注意,并不是删除环境“AER”包) > require(AER) 载入需要程辑包:AER > remove.packages("AER") # 删除环境“AER”包 ‘C:/Users...y[c(F, F, T, F, F, T, F, F, T, T, T)] # 当要输出序号超出向量长度时 [1] 3 6 9 10 NA > y[y>5 & y<7] # 输出y向量中大于...mpg进行排序,排在第一个15,就说明原来矩阵第15行对应mpg值是这一中最小。...列表元素是向量,这些向量构成数据框,每一必须具有相同长度,所以数据框是矩形结构,而且数据框必须命名。

    2.4K100

    R语言入门系列之一

    向量可以通过“[]”来进行索引,方括号内为元素位置,可以是大于1整数或者向量,位置前加负号“-”则表示删除这个位置元素,但是使用向量索引时只能全是正整数或者负整数,不能混杂,如下所示: R语言中判断符号有大于...(length=0) character(length=0) as.vector(x, mode="any") is.vector(x,mode="any") 其中x为作用对象;length为向量长度(...=m, ncol=n) #使用向量生成m行n矩阵 matrix(NA, nrow=m, ncol=n) #生成一个m行n空矩阵 as.matrix(x) #将对象转换为矩阵 is.matrix(...x) #判断对象是否为矩阵 具体示例如下: 矩阵通过行、id或者行列name对元素进行索引,也可以使用向量,id前加负号“-”则表示删除改行、元素,索引值也可以引入逻辑判断,如下所示: 注意,...此外,一个很重要软件包是installr,其中updateR()函数能将R更新到最新,并将已安装兼容最新版本程序包整合到新版本R,如下所示: library(installr) updateR

    4.1K30

    数据处理R包

    (col_name),就是把进行分组变量名包含在.(); fun:应用到每行函数 > df <- data.frame(group = c(rep('A', 2), rep('B', 2), rep...,语法如下: gather(data, key, value, na.rm = FALSE,···) data:需要被转换宽形表 key:将原数据框所有赋给一个新变量key value:将原数据框所有值赋给一个新变量...value na.rm:是否删除缺失值 > library(tidyr) > df <- data.frame(grade=c("A","B","C","D","E"),female=c(5, 4, 1...,...) data:数据框 col:需要合并 sep:被拆分列分隔符(默认下划线:_) remove:是否删除被合并 > df_unite <- unite(df, col = 'sex',...数据框 col:需要被拆分 into:新建列名,为字符串向量 sep:被拆分列分隔符:[^[:alnum:]]+正则表达式,基本包含了大部分分隔符 remove:是否删除被分割 > separate

    4.6K20

    R语言读CSV、txt文件方式以及read.table read.csv 和readr(大数据读取包)

    看到scan引号嵌入引号行为。只考虑读性格,这是所有这些,除非colClasses指定引用。 参数:dec 字符用于在小数点文件。 参数:row.names 向量行名。...这可以是一个向量,给予实际行名,或一个号码表,其中包含行名,或字符串,包含行名称表列名称。如果有一个头第一行包含数少一个领域,在输入第一用于行名称。...请注意,as.is指定每(而不是每个变量)等行名称(如有)及任何要跳过。 参数:na.strings NA值作为解释字符串字符向量。...空白领域也被认为是缺少逻辑,整数,数字和复杂领域中价值。 参数:colClasses 字符。须承担一个班向量为。必要时,回收或如果被命名为特征向量,未指定值是NA。...否则需要有一个asmethods转换到指定正规类方法(包"character")。请注意,colClasses指定每(而不是每个变量)等行名称(如有)

    8.2K102

    R语言读CSV、txt文件方式以及read.table read.csv 和readr(大数据读取包)

    看到scan引号嵌入引号行为。只考虑读性格,这是所有这些,除非colClasses指定引用。 参数:dec 字符用于在小数点文件。 参数:row.names 向量行名。...这可以是一个向量,给予实际行名,或一个号码表,其中包含行名,或字符串,包含行名称表列名称。如果有一个头第一行包含数少一个领域,在输入第一用于行名称。...请注意,as.is指定每(而不是每个变量)等行名称(如有)及任何要跳过。 参数:na.strings NA值作为解释字符串字符向量。...空白领域也被认为是缺少逻辑,整数,数字和复杂领域中价值。 参数:colClasses 字符。须承担一个班向量为。必要时,回收或如果被命名为特征向量,未指定值是NA。...否则需要有一个asmethods转换到指定正规类方法(包"character")。请注意,colClasses指定每(而不是每个变量)等行名称(如有)

    2.7K20

    玩转数据处理120题|Pandas&R

    =True) R解法 df <- na.omit(df) 备注 axis:0-行操作(默认),1-操作 how:any-只要有空值就删除(默认),all-全部为空值才删除 inplace:False-...select(col3,col2,everything()) 94 数据提取 题目:提取第一位置在1,10,15数字 难度:⭐⭐ Python解法 df['col1'].take([1,10,15...]) # 等价于 df.iloc[[1,10,15],0] R语言解法 df[c(1,10,15) + 1,1] 95 数据查找 题目:查找第一局部最大值位置 难度:⭐⭐⭐⭐ 备注 即比它前一个与后一个数字都大数字...dist(rbind(df$col1,df$col2)) # 1 # 2 197.0102 101 数据读取 题目:CSV文件读取指定数据 难度:⭐⭐ 备注 数据1前10行读取positionName...文件读取指定数据 难度:⭐⭐ 备注 数据2读取数据并在读取数据时将薪资大于10000为改为高 Python解法 df2 = pd.read_csv(r'C:\Users\chenx\Documents

    6K41

    【数据分析 R语言实战】学习笔记 第三章 数据预处理 (下)

    3.3缺失值处理 R缺失值以NA表示,判断数据是否存在缺失值函数有两个,最基本函数是is.na()它可以应用于向量、数据框等多种对象,返回逻辑值。...第一个图由小条形长度显示各变量缺失数据比例 第二个图显示了综合缺失模式,可以与md.pattern()生成结果对照观察,其中浅色方框表示完整数据,深色框表示缺失值。...3.3.3处理缺失数据 (1)删除缺失样本 过滤掉缺失样本是最简单方式,其前提是缺失数据比例较少,而且缺失数据是随机出现,这样删除缺失数据后对分析结果影响不大。...is.na(salary),] > dim(data2) [1] 8 3 对于有多个变量缺失数据,如果想直接删除所有的缺失值,可以通过na.omit()函数来完成, > data3=na.omit(data...和stack()一样,melt()也有对应函数用来还原数据:acast()用于数组,dcast()用于数据框,其中参数formula是一个公式,左边每个变量都会成为新数据集中,右边变量是因子

    2K20

    day6-白雪

    ,例如下次在进到rstudio的话,查看镜像,又不在了,怎么办呢说起来这个,就必须提到Rstudio最重要两个配置文件:在刚开始运行Rstudio时候,程序会查看许多配置内容,其中一个就是.Renviron...,先读一下.Rprofile代码用file.edit('~/.Rprofile') #编辑.Rprofile之后在脚本编辑区输入设置镜像代码保存,重启Rstudio即可安装 (必须要联网)R包安装命令...,经过前一步加工产品才能进入后一步进一步加工,其作用是将前一步结果直接传参给下一步函数,从而省略了中间赋值步骤,可以大量减少内存对象,节省内存。...引用自微信公众号生信星球图片count统计某unique值计算数据对象(vector、dataframe)unique独特值: unique函数 vector向量、dataframe 删除重复项...by = 'x') #显示2表x与1表不同数据 x y1 a 12 c 33 d 4简单合并bind_rows()函数需要两个表格数相同,而bind_cols()函数则需要两个数据框有相同行数

    89600

    【生信技能树培训笔记】R语言基础(20230112更新)

    可以为 times,若为1个元素,则表示重复x向量次数;若为长度与x向量相等向量,则表示分别重复x各元素次数。 length.out,指定输出向量长度左至右选择,多余元素舍弃。...(1,15,2)+1)c(1:7) #先将8个奇数变成偶数,再取出其中7个> 1 2 4 6 8 10 12 14Tips:向量只允许一种数据类型存在,当出现不同类型数据时,会自动根据下图优先顺序进行转换...gene change score1 gene1 up 52 gene2 up 33 gene3 down -24 gene4 down -4文件读取...默认all=FALSE,表示只取共同或行相同值内容进行合并,当指定all=TRUE时,取两个数据框中指定行列并集进行合并,任一表缺失值,则用NA填充。...> NA5 tony group2 4.5也可分别指定按照哪个数据框数据为标准进行取值(即指定数据框数全部取,另一数据框数据取与之交集。)

    4K51

    R语言基础教程——第3章:数据结构——因子

    因子(factor)是R语言中比较特殊一个数据类型, 它是一个用于存储类别的类型,举个例子,性别上,可以把人分为:男人和女人,年龄上划分,又可以把人分为:未成年人(=18)。...student$Gender [1] M M F Levels: F M 该因子每个值都是一个字符串,它们被限制为“f”、“m”和缺失值(NA)。...如果把其他字符串添加到gender,R会抛出警告消息,并把错误赋值元素设置为NA,例如: > student$Gender[1]<- "female" Warning message: In `[...如果x是数据框,那么把数据框未使用因子删除。...,c(150,170,190)) [1] (150,170] (170,190] (150,170] Levels: (150,170] (170,190] 8 修改数据框因子 一般情况下,数据框字符类型会转换为因子类型

    4.1K30

    (数据科学学习手札07)R在数据框操作上方法总结(初级篇)

    上篇我们了解了Pythonpandas内封装关于数据框常用操作方法,而作为专为数据科学而生一门语言,R在数据框操作上则更为丰富精彩,本篇就R处理数据框常用方法进行总结: 1.数据框生成 利用...:数据框构成向量变量名,顺序即为生成数据框顺序 row.names:对每一行命名向量 stringAsFactors:是否将数据框字符型数据类型转换为因子型,默认为FALSE > a <-...,因此对这三种方式第二次及以后出现情况返回TRUE,其余行返回FALSE 数据框删除方法:df[!...需要删除行,!需要删除] 上面的duplicated(df)已经提取出df所有重复行逻辑型标号,因此只需要在删除方法里设置删除标号为duplicated(df)返回值即可: > df[!...有时候我们会遇到含有缺省值NA数据框,这时如果直接进行数据框内运算,因为NA干扰,最后结果往往也是NA,好在R对大部分整体数值运算都有参数na.rm来控制,TRUE时会自动跳过含有NA计算部分

    1.4K80
    领券