哈喽,我是学习生物信息学的阿榜!非常感谢您能够点击进来查看我的笔记。我致力于通过笔记,将生物信息学知识分享给更多的人。如果有任何纰漏或谬误,欢迎指正。让我们一起加油,一起学习进步鸭?
这份学习目录可以让大家更容易地了解笔记里面的内容哦?:
一、认识csv格式
①、csv格式的定义:
CSV是用逗号分隔值文件格式,用于存储数据的一种简单的文本文件格式,每行都是一条记录,每个字段用逗号隔开。CSV是电子表格和数据库的常用数据交换格式,易于程序读取和处理,可通过各种软件进行创建和编辑。
②、csv的四种打开方式:
R语言读取文件获得数据框是我们前一篇阿榜的生信笔记中讲过哦,大家应该还记得吧?
有没有人和阿榜第一次学习到这个知识点一样,会觉得在R语言上修改了数据会对原文件产生修改?实际上是不会的哦,大家大可放心?
二、认识分隔符
常见的分隔符有三种:逗号、空格、制表符,如下图所示:
3、将表格文件读入R语言,成为数据框
4、将数据框导出,成为表格文件
大家注意其格式
5、R语言特有的保存格式——Rdata
注意:Rdata由save()保存,由load()加载
大家看看下面的图片,做一下练习,认识认识文件后缀名吧?
读取文件不是一帆风顺的,它有时候也会报错。为什么会报错呢?
原因是我们没有规范的进行操作,上面两种情况记住哦?
还有一种情况是我们没有做错什么还是报错了,这提醒我们改参数哦?
三、让我们来实战一下吧
大家观察下面图标黄的部分,发现了行列名重复了,那该怎么办?
大家还记得前一篇阿榜的生信笔记里面说过我们学会了查字典了,所以现在让我们打开帮助文档吧?
所以,我们现在知道加表头就能解决问题了“header=T”
#文件读写部分
#1.读取ex1.txt
ex1 <- read.table("ex1.txt")
ex1 <- read.table("ex1.txt",header = T)
这个呢?这张图出现的问题怎么解决呢?
还是用参数,row.name=1:第一列是行名;check.names=F:不检查行名是否合法化,允许使用不规范的变量名,例如包含空格或特殊字符的变量名称。
#2.读取ex2.csv
ex2 <- read.csv("ex2.csv")
ex2 <- read.csv("ex2.csv",row.names = 1,check.names = F)
接下来是几个常见的问题及解决方法:
#注意:数据框不允许重复的行名
rod = read.csv("rod.csv",row.names = 1)
rod = read.csv("rod.csv")
下面这张图片的问题,阿榜碰到过。当时困惑了我半个多月,直到后面小洁老师讲解了这个知识点,我才解决了这个小小的问题。果然是大神的一句话,菜鸟少走半年的弯路。感谢小洁老师?
其实加个制表符就好了,简单吗?sep="\t"
我们继续往下看✍
#4.soft 的行数列数是多少?列名是什么
dim(soft)
colnames(soft)
#5.将soft导出为csv
write.csv(soft,file = "soft.csv")
#6.将soft保存为Rdata并加载。
save(soft,file = "soft.Rdata")
rm(list = ls())
load(file = "soft.Rdata")
提个小问题:文件本质是有什么决定?如图:
答案是A函数哦,我们是可以修改后缀的
下图是R语言读取的文件格式:
知识点记忆卡片来喽?
以上是我这次在学习生物信息学过程中所整理的笔记。希望大家能够一起学习,共同进步。如果在笔记中有错误或者不足之处,欢迎大家指正,我们一起加油鸭?
引用自生信技能树——小洁老师
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。