前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【免费】站长线下课:用STAR去Mapping~~~~

【免费】站长线下课:用STAR去Mapping~~~~

作者头像
Chris生命科学小站
发布2023-03-02 15:44:43
4800
发布2023-03-02 15:44:43
举报
文章被收录于专栏:Chris生命科学小站五年归档
线上直播入口

一直播ID:292217402

课程相关讲义

安装STAR

如果你按照下面的教程已经获得了一台云服务器,那么按照如下操作进行。10元转录组分析:这次真的是干货了~灰常干 方法一:cd ~/binhttps://github.com/alexdobin/STAR/archive/2.5.3a.tar.gztar -xzf 2.5.3a.tar.gzcd STAR-2.5.3aln -s ~/bin/STAR-2.5.3a/bin/Linux_x86_64/STAR ~/bin/STAR方法二:conda install star

建立Index

按照上面的方法,就可以在云服务器中使用STAR了此时你需要建立好indexindex是干嘛的?记住这个是你mapping前很重要的东西一定要建立好,不然后面都白弄。其他的自行百度google。index建立前你需要下载两个文件:GTF与基因组fa下载命令 wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_28/gencode.v28.chr_patch_hapl_scaff.basic.annotation.gtf.gz 基因组fa文件用下面网站方法获得hg38.fawget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_28/GRCh38.p12.genome.fa.gz 建立index所在文件夹mkdir hg38_star_v28c_indexcd到你想要保存的位置,建立index,下面是命令 nohup STAR --runMode genomeGenerate --runThreadN 24 --genomeDir hg38_star_v28c_index --genomeFastaFiles hg38.fa --sjdbGTFfile hg38_v28.gtf & runThreadN 后面的数字填云服务器cpu核数x2 genomeDir 自己命名nohup····&命令挂起用的上面那个命令,是所有文件都在一个文件中的命令如果不在一个文件,在文件前面加上相应前缀。

Mapping

准备好你的fastq文件,虽然STAR有直接解压gz文件的选项,但是不建议,最好解压好你的fastq以后在运行,这样意外会少一些。以双端测序为例,你应该有两个文件A_1.fq A_2.fq,然后Mapping 下面是命令nohup STAR --genomeDir hg38_star_v28c_index --runThreadN 24 --readFilesIn /root/files/A_1.fq /root/files/A_2.clean.fq --outFileNamePrefix ~/files/Results/A --outSAMtype BAM Unsorted SortedByCoordinate --quantMode GeneCounts & 然后,静静等待~~~大概15~20分钟以后得到的AReadsPerGene.out.tab文件下载到自己电脑上。用文本编辑器打开看看,这就是原始文件。用自己电脑上的R进行后续分析就好了

搞清楚是否为链特异性建库重要吗?

小站一直关注转录组原始数据的分析。原始数据下载的时候,有的会写清楚是否为链特异性建库,而很多时候是不写的,那么这个对于分析来说重要吗?具体讲清楚什么是链特异性建库这个事,实在是太难,大家可以去看那简书的内容。如果看完简书内容还是晕的话,那么听站长粗略的解释一下。你可以把链特异性建库看作是更高级的建库方法,所以1、如果自己做测序一定要问清楚是否为链特异性建库,是哪种?因为非链特异性建库方法便宜,小小被坑。2、如果研究的是编码基因,看一个表达量变化,用非链特异性建库省点钱也是可以的。3、如果做的是lncRNA,环状RNA,那么一定要做链特异性建库测序。miRNA的建库方法本身就是链特异性的。那么从公共数据库下载的数据,如果不是链特异性的就不能分析lncRNA和环状RNA了吗?这个问题可能是大家最关心的。对于这个问题,下面是站长的答案,仅供参考!仅供参考!仅供参考!。本来原始数据就少,能分析就分析吧,所有分析出来的基因,肯定逃不过验证这一步。如果原始数据是链特异性建库,分析时候参数正确,在验证时候候选差异基因正确的概率更高一些。如果原始数据是非链特异性建库,候选基因在验证时候正确的概率稍低一些。但是只要经过生化试验验证,证据充分,其实跟是啥方法建库没啥关系。这也是,为什么纯生信文章不好发表的原因之一。一切证据还得有生化试验支持才算数。当然这只是从基因表达量的方面考虑,如果研究转录后修饰什么的,千万别这么搞哈~

公共数据怎么识别是不是链特异性建库

根据https://www.jianshu.com/p/a63595a41bed中提供的IGV方法,站长做了一个视频 视频背景音乐:来自于奥戸巴寿的《いつも何度でも》视频中第二行样本是非链特异性测序,第三行样本是dUTP链特异性测序如下图

结合小站之前的教程这一步应该插在STAR Mapping之后从零到壹:10元~Mapping神器STAR的安装及用随便选一个样本,在样本文件夹里找到bam文件,然后用samtools index建立baibam与bai要在一个目录下,载入到IGV软件中,就是视频那个样子啦。位置信息是chr12:123,406,542-123,416,558首先看是不是链特异性,右键选color alignments by first-of-pair strand如视频那样,红蓝分布,就是链特异性再看是什么样的链特异性在链特异性那个样本右键选color alignments by read strand鼠标放在红或者蓝的read上,看信息。显示first of pair那个read的箭头方向与基因的方向相反,这就提示是dUTP建库的方法。知道这些有啥用呢?在STAR运行结束后的ReadsPerGene.out.tab文件中非链特异性的要选第二列那个数而dUTP链特异性建库要选第四列那个数所以批量处理counts数教程中"站长,Mapping之后counts怎么合并成一个表?"df.use <- data.frame(v1 = df.read 这句代码中V4就是第四列,选择这个是针对dUTP链特异性建库测序的,如果是非链特异性建库图中那个位置应该改成V2就可以啦~~

小站最火的零基础转录组分析教程有优惠了

主讲人,Chris LouChris生命科学小站创始人,神经外科医生,Wet-Dry实验兼修发表SCI论文9篇,以第一作者发表SCI论文三篇,单篇最高10.02。 课程介绍如果你自己有测序结果想省点钱自己分析如果你想挖掘那些NCBI中RNA-seq原始测序数据如果你想预测某些基因下游的通路如果你已经学会了各种R语言教程但是发现服务器好贵那么,还等什么加入这个教程能够教会你,每个样本只花不到10元的价格。从这些数据

到下面这些图

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-10-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Chris生命科学小站 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 搞清楚是否为链特异性建库重要吗?
  • 公共数据怎么识别是不是链特异性建库
  • 小站最火的零基础转录组分析教程有优惠了
相关产品与服务
云服务器
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档