Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >转录组 - 比对

转录组 - 比对

原创
作者头像
用户10328045
修改于 2023-03-02 07:01:44
修改于 2023-03-02 07:01:44
1.4K0
举报
文章被收录于专栏:R语言小白R语言小白

生信技能树学习笔记

参考基因组准备

常用参考基因组

  • Ensembl asia.ensembl.org/index.html
  • NCBI
  • UCSC
代码语言:{r setup, include = FALSE}
AI代码解释
复制
## 进入参考基因组目录
mkdir -p $HOME/database/GRCh38.105
cd $HOME/database/GRCh38.105

## 下载基因组
## 一般选择primary assembly,没有的话可以选择toplevel
nohup wget -c https://ftp.ensembl.org/pub/release-105/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz > dna.log &

## 下载转录组序列
nohup wget -c http://ftp.ensembl.org/pub/release-105/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh38.cdna.all.fa.gz >rna.log &

## 下载基因组注释文件
nohup wget -c http://ftp.ensembl.org/pub/release-105/gtf/homo_sapiens/Homo_sapiens.GRCh38.105.chr.gtf.gz >gtf.log &

nohup wget -c http://ftp.ensembl.org/pub/release-105/gff3/homo_sapiens/Homo_sapiens.GRCh38.105.chr.gff3.gz >gff.log&

fasta 数据格式

  • 以 > 开头,序列名称&序列描述
  • 序列中允许空格、换行、空行,直到下一个 > ,表示该序列结束

gff/gtf 文件介绍

  • 第三列 属性的类型,gff和gtf的区别
  • 第九列 属性的特征

Ensembl基因组数据库

  • ENSMUSG
  • ENSG 人默认没有物种前缀

比对 Hisat2, Subjunc

比对内容

  • 建索引
  • 比对参考基因组
  • sam转bam

Hisat2

主要参数

  • -x 索引文件的前缀
  • -1 双端测序结果的第一个文件
  • -2 双端测序结果的第二个文件
  • -U 单端数据文件
  • --rna 链特异性参数
  • -p 线程数

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
转录组数据分析-比对
Ensembl:www.ensembl.org #用得最多数据库完善有基因对应的ID
用户10412487
2023/05/09
7000
转录组测序分析专题——比对/定量
NCBI:https://www.ncbi.nlm.nih.gov/projects/genome/gu ide/human/index.shtml
yurric
2023/10/26
1.1K0
转录组参考基因-5
首先转录组数据分析流程如下,之前的课程中已经介绍过文件夹的建立和原始数据的过滤,接下来要进行基因比对——将测序数据与基因文件进行匹配。
生信菜鸟团
2024/07/10
1760
转录组参考基因-5
学员的转录组实战笔记之胰腺癌差异
第一个数据集是胰腺癌的癌症和癌旁或者其它对照组织差异,就12个样品,处理起来比较方便,第二个数据集样品数量稍微有一点点多,后面有机会再处理它。文章描述的转录组测序数据的生物信息学处理方法非常陈旧了:
生信技能树
2023/09/04
3250
学员的转录组实战笔记之胰腺癌差异
生信技能树-day18 转录组上游分析-比对、定量
今天的是三周合计15天的数据挖掘授课学员一点一滴整理的授课知识点笔记哦,还有互动练习题哈,欢迎大家点击文末的阅读原文去关注我们学员的公众号哦!
生信菜鸟团
2024/06/25
5660
生信技能树-day18 转录组上游分析-比对、定量
转录组上游分析流程(四)
环境部署——数据下载——查看数据(非质控)——数据质控——数据过滤(过滤低质量数据)——数据比对及定量
凑齐六个字吧
2024/10/26
3220
转录组上游分析流程(四)
转录组——上游分析
FastQC主页:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
青柠味
2025/06/12
1910
转录组——上游分析
生信马拉松 Day18 转录组RNA-seq-3
转录组上游的内容终于上完了,今天的内容太抽象了,每一步处理的内容都不是很好理解,现在上完课也还是摸不着头脑,最大的收获似乎是多按tab键?
阿呆的月历
2024/02/29
2960
转录组—上游分析_如何拿到count矩阵
本文档记录GSE149638数据集中下载SRR11652578和SRR11652615原始数据
sheldor没耳朵
2024/08/12
6471
转录组—上游分析_如何拿到count矩阵
跟小新老师学转录组的第三天
NCBI:https://www.ncbi.nlm.nih.gov/projects/genome/guide/human/index.shtml
贝诺酯
2023/04/03
3430
基于Salmon的转录组定量流程
Salmon是不基于比对计数而直接对基因进行定量的工具,适用于转录组、宏基因组等的分析。
生信宝典
2020/12/15
3.7K0
测序数据回来了该怎么办?
相信大家在研究生涯或多或少都会接触到生物信息,以为这是一块很神秘很高深的领域,其实并不难,只要你去看去学去实践,一切都有可能。 本篇主要告诉大家,如果手里有转录组测序的raw data,该怎么做上游分析,下游当然是可以交给我们的R软件去做啦。 1.数据准备 1.1测序数据(reads) 已有fastq文件,ILLUMINA公司的,具体可以查看你手头的测序报告,或一开始的实验设计。 1.2目标物种基因组数据【基因组fa (genome.fa)和注释文件 (gtf/gff3)】 这一步可以从ENSEMBL下载。资源汇总地址:http://ftp.ensembl.org/pub/可以选择最新的 104版本(截止2021/11/1)。
生信喵实验柴
2021/12/15
1.9K0
测序数据回来了该怎么办?
STAR:转录组数据比对工具简介
STAR是一款RNA_seq数据专用的比对软件,比对速度非常快,最大的优势是灵敏度高,GATK推荐采用STAR比对,然后进行下游的SNP分析。软件的源代码保存在github上,地址如下
生信修炼手册
2020/05/08
6K0
优秀学员笔记:转录组课堂笔记Day1~2
双端测序:一般一个样本对应两个fq文件,gz是压缩后缀,如SRR1039510对应
生信技能树
2025/04/30
1990
优秀学员笔记:转录组课堂笔记Day1~2
(15)基因组各种版本对应关系-生信菜鸟团博客2周年精选文章集
这是我的成名作: 首先是NCBI对应UCSC,对应ENSEMBL数据库: GRCh36 (hg18): ENSEMBL release_52. GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75. GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82. 可以看到ENSEMBL的版本特别复杂!!!很容易搞混! 但是UCSC的版本就简单了,就hg18,19,38, 常用的是hg19,但是我推荐大家都转为hg38 看起来N
生信技能树
2018/03/08
1.9K0
转录组上游分析—使用iseq下载原始数据、小鼠基因组、单端测序数据处理
进行数据集GSE105789上游分析的时候,总共才四个数据集,使用prefetch下载的时候,不知道网络抽了什么风,速度一直都很慢。下了10个小时才下了三分之一。!
sheldor没耳朵
2024/08/21
4911
转录组上游分析—使用iseq下载原始数据、小鼠基因组、单端测序数据处理
基因组注释文件(GFF,GTF)下载的四种方法
Ncbi 里包含现在最全的参考基因组数据,可以进入FTP站点查看:ftp://ftp.ncbi.nlm.nih.gov/genomes/
白墨石
2021/01/13
7.4K0
基因组注释文件(GFF,GTF)下载的四种方法
保姆级参考基因组及其注释下载教程(图文详解)
自从 1990 启动的家喻户晓的人类基因组计划开始,全世界的科学家竭尽全力破译了第一个完整的人类基因组,从那时开始人类拿到了一本只有 ATCG 四个碱基书写的天书。后续人们逐步完善了基因组序列信息,并写在 Fasta 格式的文本文件“天书”中,这本天书就叫做参考基因组。
生信菜鸟团
2021/07/05
12.7K0
保姆级参考基因组及其注释下载教程(图文详解)
转录本融合位点上下游序列获取
通常建议大家对RNA-seq数据使用 STAR-Fusion 来检测转录本融合现象,得到的结果如下:
生信技能树
2019/05/09
1.6K0
安装VEP及其注释数据库
为了其它相关软件的顺利运行,我们根据教程来设置默认的安装目录及变量环境:Ensembl's VEP , If you don't have VEP installed, then follow this gist.
生信技能树
2018/07/27
4.6K0
相关推荐
转录组数据分析-比对
更多 >
LV.0
这个人很懒,什么都没有留下~
作者相关精选
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档