前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >转录组参考基因-5

转录组参考基因-5

作者头像
生信菜鸟团
发布2024-07-10 16:59:42
700
发布2024-07-10 16:59:42
举报
文章被收录于专栏:生信菜鸟团

生信技能树学习笔记

首先转录组数据分析流程如下,之前的课程中已经介绍过文件夹的建立和原始数据的过滤,接下来要进行基因比对——将测序数据与基因文件进行匹配。

这个过程需要两种文件1.基因组文件:fasta

2.注释文件:gff/gtf

常用参考基因组数据库

Ensembl:www.ensembl.org(最常用)

NCBI:https://www.ncbi.nlm.nih.gov/projects/genome/guide/human/index.shtml

UCSC:http://www.genome.ucsc.edu/

简单介绍Ensembl 官网

下载DNA信息

选择如下的文件,复制连接

参考基因组准备-ensembl下载

## 参考基因组准备:注意参考基因组版本信息下载,Ensembl:http://asia.ensembl.org/index.html http://ftp.ensembl.org/pub/release-104/fasta/homo_sapiens/dna/

Nohup表示后台进行,>dna.log& 表示后台运行输出日志文件

# 下载基因组序列axel curl nohup wget -c http://ftp.ensembl.org/pub/release-105/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz >dna.log &

下载cDNA信息

cDNA下载红色部分显示链接

# 下载转录组序列nohup wget -c http://ftp.ensembl.org/pub/release-105/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz >rna.log &

下载注释文件

Gff文件

Gtf文件

# 下载基因组注释文件nohup wget -c http://ftp.ensembl.org/pub/release-105/gtf/homo_sapiens/Homo_sapiens.GRCh38.105.chr.gtf.gz >gtf.log & nohup wget -c http://ftp.ensembl.org/pub/release-105/gff3/homo_sapiens/Homo_sapiens.GRCh38.105.chr.gff3.gz >gff.log&

解压

# 上述文件下载完整后,再解压;否则文件不完整就解压会报错# 再次强调,一定要在文件下载完后再进行解压!!!nohup gunzip Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz Homo_sapiens.GRCh38.cdna.all.fa.gz >unzip.log &

数据格式fasta介绍

注释文件介绍

GFF,全称为Generic Feature Format,主要用来描述基因的结构与功能信息,对基因组进行注释。现在流行的版本为GFF3。格式文件为文本文件,分为9列,以TAB分开。控制符使用RFC 3986 Percent-Encoding 编码。比如:%20 代表着ASCII的空格。

参考基因组注释gff格式

Gff文件第九列详解

Gtf文件

Ensembl基因组数据库

注:人类的数据中不显示物种信息

补充

fastq转换成fasta

# 方法1zless -S SRR1039511_1_val_1.fq.gz |awk '{ if(NR%4==1){print">" substr($0,2)} if(NR%4==2){print} }' | less -S # 方法2zless -S SRR1039510_1_val_1.fq.gz |paste - - - - |cut -f 1,2 |tr '@' '>' |tr '\t' '\n' |less -S

如何从gtf/gff文件中得到特定版本的ID和symbol的对应关系

应用:ID与symbol转换本地化,不依赖于第三方工具和软件包,并可以根据biotype类型区分mRNA,lncRNA以及miRNA等信息。

# 从gff或者gft文件中获取ID与symbol对应关系,以及biotype类型zless -S Homo_sapiens.GRCh38.104.chr.gtf.gz |awk -F'\t' '{if($3=="gene"){print$9}}' |awk -F';' '{print$1,$3,$5}' |awk '{print$2"\t"$4"\t"$6}' |sed 's/"//g' |grep 'protein_coding' >protein_coding_id2name.xls

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档