首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

UseGalaxy.cn生信云|零代码使用Tiverse优雅地处理数据集

Dplyr Count the observations count 函数用于统计数据框中各个组的频数,可以对指定变量进行计数,得到每个类别的观测数目,支持根据需要对结果进行排序。...Dplyr Mutate create, modify, and delete columns mutate 函数用于添加新变量或修改现有变量,能够基于已有数据创建新的变量列,支持对数据框进行实时的变量操作和修改...Dplyr Slice select rows by position slice 函数用于按行数进行切片,能够从数据框中提取特定的行,支持根据行数或行号选择需要的行,也支持使用负数表示从末尾开始计算的行数...Tidyr Pivot Longer from wide pivot_longer 函数用于将宽格式数据转换为长格式数据,能够根据用户指定的列将数据框中的多个列整理成一对 “名-值” 对,便于进一步的分析和处理...Tidyr Pivot Wider from long pivot_wider 函数用于将长格式数据转换为宽格式数据,能够将数据框中的一列分成多个列,根据指定的列名进行展开,使得数据以更直观的宽格式形式呈现

17220

【涨姿势】统计名词和数据挖掘术语大盘点

【个体】是关于一个单元的测量值的集合――例如一个人的身高、体重、年龄等等;它也被称作“记录”、 或 者“行”(每一行通常代表一个记录,每一列代表一个变量)。...【教育统计学】社会科学中的一门应用统计,是数理统计跟教育学、心理学交叉结合产物 【测量】按一定规则给对象在某种性质的量尺上指定值。...人工编码数据以人们按一定规则给不同类别的事物指派适当的数字号码后所形成的数据 【称名变量】只说明某一事物与其他事物在名称、类别或属性上的不同,并不说明事物与事物之间差异的大小、顺序的先后及质的优劣。...相关系数用r表示, r在-1和+1之间取值。...相关系数r的绝对值大小,表示两个变量之间的相关强度;相关系数r的正负号,表示相关的方向,分别为正相关和负相关;相关系数r=0,称零线性相关,简称零相关;相关系数|r|=1时,表示两个变量是完全相关。

1.5K60
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    压缩感知重构算法之正则化正交匹配追踪(ROMP)

    ),然后再从这K列中按正则化标准再选择一遍,即为本次迭代选出的列向量(一般并非只有一列)。...正则化标准意思是选择各列向量与残差内积绝对值的最大值不能比最小值大两倍以上(comparable coordinates)且能量最大的一组(with the maximal energy),因为满足条件的子集并非只有一组...在Identify中首先将所得到的内积值按降序排列,然计算内积中非零元素的个数,然后选取前K个内积值或者所有非零值(也就是论文中提到的选择集合比较小的那个),记录选取的内积值所对应的列序号,构成集合J,...首先解释下第19行和20行,博客中的解释是: ?   然后我还是没有太明白,但是传感矩阵满足2K阶RIP,满足2K阶RIP的矩阵任意2K列线性无关。可能跟这个有关系,以后再看看。   ...本程序在循环中填加了“kk”一行代码并将“M = M_set(mm)”一行的分号去掉,这是为了在运行过程中可以观察程序运行状态、知道程序到哪一个位置。

    2K60

    【Excel系列】Excel数据分析:数据整理

    直方图工具的使用 例:对图中的数据按组数10进行等距分组,利用直方图工具统计频数。 ?...统计分组观测值数据 操作步骤: (1)先确定组上限 利用工作表函数在H1和H2单元格求得最大和最小值;H3求得全距R,H4为确定的组数,H5计算组距。...J2为第1组上限=最小值+组距;其他各组上限均等于前组上限+组距。 ? 组上限 (2)调用直方图工具 在EXCEL表格中进行如下操作:“数据分析-直方图”,弹出直方图工具对话框。 ?...直方图对话框设置 输入区域:观测值所在的单元格区域。 接收区域:组上限所有的单元格区域。 标志:如果数据源区域的第一行或第一列中包含标志项,请选中此复选框。...新工作簿:击此选项可创建新工作簿并将结果添加到其中的新工作表中。 柏拉图(排序直方图):选中此复选框可在输出表中按频率的降序来显示数据。

    3.3K70

    R in action读书笔记(19)第十四章 主成分和因子分析

    图中的圆圈表示因子和误差无法直接观测,但是可通过变量间的相互关系推导得到 14.1 R 中的主成分和因子分析 psych包中有用的因子分析函数 principal() 含多种可选的方差旋转方法的主成分分析...PCA和EFA都根据观测变量间的相关性来推导结果。用户可以输入原始数据矩阵或者相关系数矩阵到principal()和fa()函数中。...最流行的正交旋转是方差极大旋转,它试图对载荷阵的列进行去噪,使得每个成分只是由一组有限的变量来解释(即载荷阵每列只有少数几个很大的载荷,其他都是很小的载荷)。...、更为基本的无法观测的变量,来解释一组可观测变量的相关性。...在fa()函数中添加score = TRUE选项(原始数据可得时)便可很轻松地获得因子得分。

    1K10

    数据分析必备:掌握这个R语言基础包1%的功能让你事半功倍!(附代码)

    数据中的实际观测值。str函数在默认情况下会显示10行数据。使用str函数浏览导入的数据集可以让用户确定读取的数据是否正确、数据中是否有默认的部分、变量的种类等信息,进而确定下一步进行数据处理的方向。...row.names:行名。可以通过指定一组向量来进行设置。如果文件中的第一行比数据整体的列数量少一时,则会默认使用第一列来作为行名。 col.names:列名。可以通过指定一组向量来进行列名设置。...不过在实际生活中,原始数据难免会存在空白行、空白值、默认值,或者某一行数据存在多余观测值却没有与之对应的变量名称,抑或元数据和原始数据在同一个文件中等各种问题。...这是因为read.table会扫描文件中前五行的数据(包括变量名称)并以此为标准来确定变量数,airlines.csv中开始的五行数据都只有两列,所以后续的数据也都强制读取成两列。...处理的思路是先将数据读取到R中,然后使用unique函数找到指定列中的非重复观测值,选取指定观测值并保存到一个向量内,然后将向量指定给na.strings参数来进行替换,代码如下: > flights_uneven

    3.4K10

    SPSS学习笔记(五)卡方检验

    假设3:具有相互独立的观测值,如本研究中各位研究对象的信息都是独立的。 假设4:样本量足够大,最小的样本量要求为分析中的任一单元格期望频数大于5。...所以使用Chi-Square Tests表格中的Pearson卡方检验的结果,X2==【】,P值=【】,按α=0.05检验水准,P观测值,如本研究中各位研究对象的信息都是独立的 假设3:样本量足够大,最小的样本量要求为分析中的任一单元格期望频数大于5。...15例饮酒者在干预后戒酒,另有5例不饮酒者在干预后开始饮酒。 2、如果非对角线的格子(左下和右上背景标黄的格子)中研究对象总数小于等于25时,采用精确法计算。...本例非对角线格子的观测数为20(15+5=20),小于25,因此采用McNemar精确检验发现,P=0.041,按检验水准α=0.05,P<0.05,拒绝原假设H0,干预前后不饮酒者比例的差异有统计学意义

    1.9K10

    R语言从入门到精通:Day5

    2.变量的重编码和重命名 变量的重命名很好理解,变量的重编码的含义是根据一个或者一组变量的现有值创建新值的过程,比如,项目中要求将错误的数据改为准确值、将学生的百分制成绩改为等级制成绩等等。...3.R中缺失值的标记、重编码和排除 几乎所有项目中,都存在缺失值,在R中缺失值用NA代替(前面我们已经见过了)。R语言提供了一个简单而重要的函数is.na()来监测数据集中的缺失值。...6.数据集的按行、按列合并 有时候数据并不是一个整体,需要自己整合一下。R语言中常用的合并数据集的函数有merge()、cbind()、rbind()。...如果要在数据框中添加行(或者理解为将两个数据框纵向合并),使用函数rbind(),要求两个数据框有相同的变量,不过顺序不必要相同。一般用于向数据框中添加新的观测。...图14:函数merge()的使用 简单来说,就是把leadership和leadership.new两个数据集按照变量managerID、date进行了合并,用于给观测添加新的数据。 ?

    1.6K30

    day4 呦呦鹿鸣——R for data science阅读笔记之ggplot()

    变量(variable)——可以度量的数量、质量或属性行:观测值(data point observation )——在相似条件下进行的一组测量值,包含不同的变量的多个值表格数据:一组与相应变量和观测值相关联的值变量...,在aes()中定义使用geom_形状()定义一个几何图形,表示数据的几何对象形状:bar-条形图;line-折线图;boxplot-箱线图;point-点对于有缺失值的数据,散点图内没有显示,但有报错...显示体重和鳍状肢长度之间关系的平滑曲线geom_smooth(method = "lm")注意添加位置是给每个企鹅种群单独拟合曲线?还是给整个企鹅群体拟合曲线?给图加上标题吧!...fct_infreq() :按每个级别的观测值数(最大在前)fct_inseq():按级别的数值。数值变量数值变量可以是连续的,也可以是离散的。...)平滑曲线geom_smooth()三个或更多变量用不同的颜色和形状代表不同观测值将绘图拆分为不同的子图 按单个变量对绘图进行分面facet_wrap() 参数1:公式?

    25110

    R编程(二:基本数据类型及其操作之因子、矩阵、数据框和列表)

    添加行到matrix 使用rbind(),操作同cbind() 加和 colSums() 或 rowSums() 选择矩阵中的元素 matrix[x, y] ,x表示行,y表示列 martix[1:2,2...不同之处在于,frame work 可以对行和列进行定义(分类函数)。所以可以借助于变量名查询(行名或列名)。...: group是大组,共分3个大组,每组4个观测;subgroup是子组,在每个大组内分为2个子组,每个子组2个观测。...共有个12 观测(行)。 另外,tibble类型允许其中的列是列表类型, 这样, 该列的每个元素就可以是复杂类型, 比如建模结果(列表), 元素之间可以保存不等长的值。...R lists 一个R的列表包括了各种类型的变量,并将他们放置在同一个列表当中,这些变量可以是矩阵、向量、数据集,甚至是其他的列表。

    2.8K20

    R语言的数据结构与转换

    R 的数据结构 在大多数情况下,结构化的数据是一个由很多行和很多列组成的数据集。在 R 中,这种数据集被称为数据框。...名义型变量是没有顺序关系的分类变量,例如人的性别、血型、民族等。而有序型变量是有层级和顺序关系的分类变量,如患者的病情(较差、好转、很好)。名义型变量和有序型变量在 R 中称为因子(factor)。...因子的属性可以使用函数 levels( ) 查看: levels(sex.f) # 'Male''Female' 改变因子水平的排列顺序 → 改变参考组 在统计模型中,对于因子型变量,R 会将其第一个水平当作参考组...常见的矩阵运算都可以在R 中实现,如矩阵加法、矩阵乘法、求逆矩阵、矩阵转置、求方阵的行列式、求方阵的特征值和特征向量等。...1.6 数据框 数据框(dataframe)是一个由行和列组成的二维结构,其中行表示观测(observation)或记录(record),列表示变量(variable)或指标(indicator)。

    60030

    Python数据清洗--缺失值识别与处理

    缺失值的识别 判断一个数据集是否存在缺失观测,通常从两个方面入手,一个是变量的角度,即判断每个变量中是否包含缺失值;另一个是数据行的角度,即判断每行数据中是否包含缺失值。...”内的axis参数为0);统计各变量的缺失值个数可以在isnull的基础上使用sum“方法”(同样需要设置axis参数为0);计算缺失比例就是在缺失数量的基础上除以总的样本量(shape方法返回数据集的行数和列数...假设上图为学生的考试成绩表,如果直接对成绩表中的分数进行加和操作,得到的是所有学生的分数总和(很显然没有什么意义),如果按学生分别计算总分,将是上图从左到右的转换。...该转换的特征是列数发生了变化(可以是列数减少,也可以是列数增多),类似于在水平方向上受了外部的压力或拉力,这样的外力就理解为轴axis为1的效果(便于理解,可以想象为飞机在有动力的情况下,可以保持水平飞行状态...删除法是指将缺失值所在的观测行删除(前提是缺失行的比例非常低,如5%以内),或者删除缺失值所对应的变量(前提是该变量中包含的缺失值比例非常高,如70%左右);替换法是指直接利用缺失变量的均值、中位数或众数替换该变量中的缺失值

    2.6K10

    R 数据整理(七:使用tidyr和dplyr处理数据框 2.0)

    参考:李东风老师的R 语言实战 1. tidyverse 系统简介 假设数据以 tibble 格式保存。...数据集如果用于统计与绘图,需要满足一定的格式要求,(Wickham, 2014) 称之为 整洁数据 (tidy data),基本要求是每行一个观测,每列一个变量,每个单元格恰好有一个数据值。...这些变量应该是真正的属性,而不是同一属性在不同年、月等时间的值分别放到单独的列。...缺失值的观测自动放弃,这一点与直接在数据框的行下标中用逻辑下标有所不同,逻辑下标中有缺失值会在结果中 产生缺失值。...pivot_longer/pivot_wider 大部分功能是类似的,这里主要说下pivot_longer 针对下面情况的功能: 我们需要 指定切分变量名和随访号的模式,以解决一行中有多个属性的多次观测的情形

    10.9K30

    数据分析必备:掌握这个R语言基础包1%的功能,你就很牛了

    数据中的实际观测值。str函数在默认情况下会显示10行数据。使用str函数浏览导入的数据集可以让用户确定读取的数据是否正确、数据中是否有默认的部分、变量的种类等信息,进而确定下一步进行数据处理的方向。...不过在实际生活中,原始数据难免会存在空白行、空白值、默认值,或者某一行数据存在多余观测值却没有与之对应的变量名称,抑或元数据和原始数据在同一个文件中等各种问题。...这是因为read.table会扫描文件中前五行的数据(包括变量名称)并以此为标准来确定变量数,airlines.csv中开始的五行数据都只有两列,所以后续的数据也都强制读取成两列。...处理的思路是先将数据读取到R中,然后使用unique函数找到指定列中的非重复观测值,选取指定观测值并保存到一个向量内,然后将向量指定给na.strings参数来进行替换,代码如下: > flights_uneven...小知识:“[”是baseR中Extract的一种,在R的使用过程中,这是必须掌握和理解的函数之一。 有话要说? Q: 你用过哪些R语言包? 欢迎留言与大家分享

    2.8K50

    在Python中进行探索式数据分析(EDA)

    根据以上结果,我们可以看到python中的索引从0开始。 底部5行 ? 要检查数据框的维数,让我们检查数据集中存在的行数和列数。...数据形状 数据集中共有11914行和16列 数据集的简明信息 现在,检查数据类型以及数据集中所有变量的摘要。它包括存在的非空值的数量。 ? 如果变量中存在字符串,则数据类型将作为对象存储。...以上结果表明,许多变量(例如发动机燃料类型,发动机HP,发动机汽缸,门数和市场类型)在数据中缺少值。 我们可以通过另一种方法检查数据类型: ? 打印数据集的列 ?...所以从数据集中删除这些变量。 缺失值: ? 上述结果表明,在12个变量中,Fuel_type、HP和cylinder这3个变量有缺失值。 让我们检查一下列中缺失数据的百分比 ?...以上所有箱线图显示,price和c_mpg变量中存在许多异常值。在Cylinders变量中,只有4个观测值是异常值。

    3.3K30

    主成分分析PCA谱分解、奇异值分解SVD预测分析运动员表现数据和降维可视化

    在 R 中执行 PCA 有两种通用方法: 谱分解 ,检查变量之间的协方差/相关性 检查个体之间的协方差/相关性的_奇异值分解_ 根据 R 的帮助,SVD 的数值精度稍好一些。...演示数据集 我们将使用运动员在十项全能中的表现数据集(查看文末了解数据获取方式),这里使用的数据描述了运动员在两项体育赛事中的表现 数据描述: 一个数据框,包含以下13个变量的27个观测值。...Decastar OlympicG 简而言之,它包含: 训练个体(第 1 到 23 行)和训练变量(第 1 到 10 列),用于执行主成分分析 预测个体(第 24 至 27 行)和预测变量(第 11...加载数据并仅提取训练的个体和变量: head(dec) 计算 PCA 在本节中,我们将可视化 PCA。...预测个人 数据:第 24 到 27 行和第 1 到 10 列。新数据必须包含与用于计算 PCA 的活动数据具有相同名称和顺序的列(变量)。

    1.2K40

    【干货】统计学最常用的「数据分析方法」清单(上)

    假定这一因素为囚室人口密度,我们又要将被试随机分入不同人口密度的十几个囚室中生活,继而得到人口密度和暴力倾向两组变量(即我们讨论过的A、B两列变量)。...分类有2种: 外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 内在信度:每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度 4 列联表分析 列联表是观测数据按两个或更多属性...将r×c个nij排列为一个r行c列的二维列联表,简称r×c表。...pi·pj,(i=1,2,…,r;j=1,2,…,с),未知参数pij、pi、pj的最大似然估计(见点估计)分别为行和及列和(统称边缘和)为样本大小。...对此,在四格表情形,R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下,根据超几何分布(见概率分布),可以计算观测频数出现任意一种特定排列的条件概率。

    1.6K60

    天意R笔记|新手必须掌握的R语言基础

    二、选择R的原因 尽管R语言在处理大数据集时存在性能限制,可能不适合直接处理海量数据,但它在教学和实验环境中的作用无可替代。...,byrow参数决定数据是按行还是按列填充,dimnames参数则用于为矩阵添加行名和列名。...在统计分析和可视化过程中,因子是非常重要的工具,确保分类变量在模型构建、假设检验(如卡方检验)以及各种回归分析和方差分析中得到正确处理。...(六)数据框 数据框(data frame)是R语言中特别常用的数据结构,用于存储表格形式的数据。数据框中的每一列代表一个变量,可以是不同的数据类型(如数值、字符或逻辑值),每一行表示一个观测值。...12.列合并与行合并:使用 cbind()函数 按列合并矩阵,例如 cbind(A, B) ;使用rbind()函数按行合并矩阵,例如rbind(A, B)。

    7610
    领券