Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【直播】我的基因组52:X和Y染色体的同源区域探索

【直播】我的基因组52:X和Y染色体的同源区域探索

作者头像
生信技能树
发布于 2018-03-08 02:50:41
发布于 2018-03-08 02:50:41
2K0
举报
文章被收录于专栏:生信技能树生信技能树

很久以前,我其实就遇到过通过NGS测序数据来判定性别的难题(搜索我博客即可查看详情),本次探究自己的基因组得到的统计结果与常识不符,所以我可以肯定是我们的常识太浅显了。

【直播】我的基因组48:我可能测了一个假的全基因组

【直播】我的基因组49:Y染色体的SNV不能用常规流程来找?

【直播】我的基因组50:从测序深度和位点间距来看SNV分布情况

通过自己的测序数据的详细分析,我才知道PAR(pseudoautosomal region)。这样的X,Y染色体大量同源,说到底是测序片段压根无法准确定位,所以说所谓的X,Y染色体是单倍体的常识,在这里完全错误的。这些区域目前有29个基因,那么对这29个基因来说,其实就跟定位在常染色体上一样,有两个拷贝的!

这些区域在hg38的参考基因组坐标如下;

The locations of the PARs within GRCh38 are:

PAR1: chrY:10,000-2,781,479 and chrX:10,000-2,781,479 [7]

PAR2: chrY:56,887,902-57,217,415 and chrX:155,701,382-156,030,895 [7]

PAR3: chrY:3,571,959-5,881,959 and chrX:89,145,000-92,745,001 [3]

那么我们就可以通过自己的数据处理能力来探索一下X和Y染色体的同源区有多少,是哪里的问题!

首先下载X,Y染色体的fasta序列,在UCSC上面下载即可。

然后把X染色体构建bwa的索引。

接着模拟一个Y染色体的测序数据,模拟的程序很简单,模拟Y染色体的测序片段(PE100,insert400)。

最后把模拟测序数据比对到X染色体的参考,统计一下比对结果即可!

我自己看sam文件也发现真的同源性好高呀,总共就模拟了380万reads,就有120万是百分百比对上了。

所以对女性个体来说,测序判断比对到Y染色体是再正常不过的了。如果要判断性别,必须要找那些X,Y差异性区段!对男性来说,更是如此!

本次测试涉及到的文件如下:

shell脚本如下:

  1. cd tmp/chrX_Y/hg19/
  2. wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrX.fa.gz;
  3. wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrY.fa.gz;
  4. gunzip chrX.fa.gz
  5. gunzip chrY.fa.gz
  6. ~/biosoft/bwa/bwa-0.7.15/bwa index chrX.fa
  7. ~/biosoft/bwa/bwa-0.7.15/bwa mem -t 5 -M chrX.fa read*.fa >read.sam
  8. samtools view -bS read.sam >read.bam
  9. samtools flagstat read.bam
  10. samtools sort -@ 5 -o read.sorted.bam read.bam
  11. samtools view -h -F4 -q 5 read.sorted.bam |samtools view -bS|samtools rmdup - read.filter.rmdup.bam
  12. samtools index read.filter.rmdup.bam
  13. samtools mpileup -ugf ~/tmp/chrX_Y/hg19/chrX.fa read.filter.rmdup.bam |bcftools call -vmO z -o read.bcftools.vcf.gz

对Y染色体随机抽取模拟测序片段的程序如下(这个程序我不想给文字版的,希望大家可以自己手动敲一遍,在我们的生信技能树论坛上面提交自己的感悟:http://www.biotrainee.com/thread-696-1-1.html):

这个测序待改进的地方太多了,比如可以过滤掉N含量过多的片段(我只是把全部是N的地方去除了),可以设置插入片段为参数,而且打断的片段不应该是稳定的600bp,而且可以改成PE150的测序,或者更长,模拟一下看看是不是3代测序的超长片段,就能解决这个问题。

建bwa索引的log日志如下:

仔细打开比对结果sam文件可以继续探索,有不少比对结果含义XA:Z,说明即使是这100个碱基在X染色体也有多个定位!

【直播】我的基因组(十三):了解sam格式比对结果

甚至对这个sam文件可以做variation的calling,然后放到IGV里面去看看!

最后找到的variation也可以统计一下:

96180个 0/1

181020 个1/1

当然,这里我模拟的是4X 的数据,所以找到的variation不会太准确,但是我模拟的精确数据,其实不应该有杂合的variation,但结果还是有一些~

毕竟这种比对也太诡异了,看来我对BWA软件的理解还不够透彻!

请参与本次直播基因的同学继续我的思路探索下去,模拟PE150,甚至miseq的PE250的测序片段看看比对情况如何,或者模拟三代测序仪的。

还可以下载hg38参考基因组的X,Y序列,只有你实践的越多你才能学到更多!

只有你实践的越多你才能学到更多!

只有你实践的越多你才能学到更多!

只有你实践的越多你才能学到更多!

参考:https://en.wikipedia.org/wiki/Pseudoautosomal_region

文:Jimmy

图文编辑:吃瓜群众

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-01-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【直播】我的基因组49:Y染色体的SNV不能用常规流程来找?
在上一次直播中,我们说到了一个不符合我们的认知的问题。就是我的全基因组测序数据里找到的SNV的纯合杂合比例失衡,这着实让我非常纠结。在朋友圈大量求助中,肿瘤所的朋友非常热心的帮我检查了她手头的几百个外
生信技能树
2018/03/08
9720
【直播】我的基因组49:Y染色体的SNV不能用常规流程来找?
【直播】我的基因组 43:简单粗糙的WGS数据分析流程
前面我们扯到bam文件的各种操作,vcf文件的各种操作,基础知识不牢固的同学可能已经云里雾里了。这次我们来讲一个简单的。就是拿到了fastq的测序数据,如何把全基因组分析给跑一遍。(不谈细节!) 首先就是fastq文件比对到参考基因组变成sam文件: head -40 read1.fq >tmp/read1.fq head -40 read2.fq >tmp/read2.fq ~/biosoft/bwa/bwa-0.7.15/bwa mem -t 20 -M ~/reference/index/bwa/
生信技能树
2018/03/08
1.9K0
【直播】我的基因组 43:简单粗糙的WGS数据分析流程
【直播】我的基因组50:从测序深度和位点间距来看SNV分布情况
今天的我们,还是继续探究那一个困扰我这么久的问题。为什么我作为堂堂正正的男性,明明X,Y染色体都只有一条,可是却测到了那么多的杂合突变的问题。 在之前,我们在QC阶段详细的探究了X,Y染色体的覆盖度和测序深度,其中X的平均测序深度才16x,而Y却高达60x,我们完全有理由怀疑测序深度对SNV的准确性影响甚大!而且Y染色体总共长度才60M,就有一半是N碱基,有效长度就30M不到,却找到了近3万个SNV,这有着很明显的问题,太密集了~ 所以从测序深度和位点间距来看SNV分布情况是非常有必要的! 对于我的X染色体
生信技能树
2018/03/08
2.5K0
【直播】我的基因组50:从测序深度和位点间距来看SNV分布情况
计算资源及编程-仅针对生信人员
理论上在个人Windows电脑上面做生物信息学数据分析是不实际的,因为太多的生物信息学相关软件的开发者对windows并不熟练,没办法提供完善的基于windows操作系统的软件。 而且个人Windows电脑配置肯定不会太高,一般的组学测序数据都是10~500G一个样本,而且很多软件运行的时候对内存要求很高,最后这些数据的分析过程会非常耗时,个人电脑在硬盘,内存,cpu方面均不足以承担这个重任。
生信技能树
2018/07/27
7940
计算资源及编程-仅针对生信人员
linux系统环境变量一文就够
Linux是一个多用户的操作系统。每个用户登录系统后,都会有一个专用的运行环境。 通常每个用户默认的环境都是相同的,这个默认环境实际上就是一组环境变量的定义。 环境变量是全局的,设置好的环境变量可以被所有当前用户所运行的程序所使用。 用户可以对自己的运行环境进行定制,其方法就是修改相应的系统环境变量。 环境变量有很多,需要重点理解的就是PATH,很多时候大家看到教程某些软件的使用,比如 mkdir -p ~/tmp/chrX_Y/hg19/cd ~/tmp/chrX_Y/hg19/#conda inst
生信技能树
2018/03/05
1.7K0
单细胞基因组拷贝数变异流程
这里一步到位下载bowtie2的参考基因组:http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml
生信技能树jimmy
2020/03/27
1.5K0
ATAC-seq分析:比对(3)
在比对之前,我们建议花一些时间查看 FASTQ 文件。一些基本的 QC 检查可以帮助我们了解您的测序是否存在任何偏差,例如读取质量的意外下降或非随机 GC 内容。
数据科学工厂
2023/01/27
4460
计算资源及编程-仅针对生信人员
第 5 章 计算资源及编程 5.1 硬件配置 理论上在个人Windows电脑上面做生物信息学数据分析是不实际的,因为太多的生物信息学相关软件的开发者对windows并不熟练,没办法提供完善的基于windows操作系统的软件。 而且个人Windows电脑配置肯定不会太高,一般的组学测序数据都是10~500G一个样本,而且很多软件运行的时候对内存要求很高,最后这些数据的分析过程会非常耗时,个人电脑在硬盘,内存,cpu方面均不足以承担这个重任。 所以一般建议使用配置比较高的服务器,而且建议给服务器安装linux系
生信技能树
2018/03/09
2.2K0
计算资源及编程-仅针对生信人员
全基因组 - 人类基因组变异分析(PacBio) (4)-- DeepVariant
单核苷酸多态性(Single Nucleotide Polymorphism,SNP)指的是基因组中单个核苷酸腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)或鸟嘌呤(G)在物种成员之间或个体配对染色体之间的差异, 是最常见也最简单的一类造成基因组多样性的DNA序列变异。
三代测序说
2023/11/12
1.9K2
全基因组 - 人类基因组变异分析(PacBio) (4)-- DeepVariant
【直播】我的基因组62:用Delly检测SV
人类单体型(Haplotype)及单核苷酸多态性位点(Single Nucleotide Polymorphism, SNP),能够揭示对药物和环境因子的个体反应差异,是将健康和疾病研究深入到分子水平的重要遗传信息。 以前我对全基因组重测续的研究也大多是找到SNV即可。但这次毕竟是我自己的基因,虽然以前没有做过SV,但还是想看看。 SV(结构变异)指基因组水平上大片段的插入、缺失、倒置、易位等序列。 详细的生物学解释,还有图文并茂的讲述大家可以自行阅读下面的课件和综述。人类基因组中很多结构变异(Struct
生信技能树
2018/03/08
7.2K1
【直播】我的基因组62:用Delly检测SV
GATK流程_diskeeper怎么用
一、使用GATK前须知事项: (1)对GATK的测试主要使用的是人类全基因组和外显子组的测序数据,而且全部是基于illumina数据格式,目前还没有提供其他格式文件(如Ion Torrent)或者实验设计(RNA-Seq)的分析方法。 (2)GATK是一个应用于前沿科学研究的软件,不断在更新和修正,因此,在使用GATK进行变异检测时,最好是下载最新的版本,目前的版本是2.8.1(2014-02-25)。下载网站:http://www.broadinstitute.org/gatk/download。 (3)在GATK使用过程中(见下面图),有些步骤需要用到已知变异信息,对于这些已知变异,GATK只提供了人类的已知变异信息,可以在GATK的FTP站点下载(GATK resource bundle)。如果要研究的不是人类基因组,需要自行构建已知变异,GATK提供了详细的构建方法。
全栈程序员站长
2022/11/01
1.1K0
【直播】我的基因组77:批量计算每个蛋白编码基因的测序深度及覆盖度
目前我使用的仍然是hg19系统的参考基因组,所以就在gencode数据库里面下载了基于hg19的gtf注释文件,并格式化如下: head ~/reference/gtf/gencode/protein
生信技能树
2018/03/08
1.2K0
【直播】我的基因组77:批量计算每个蛋白编码基因的测序深度及覆盖度
生信分析过程中这些常见文件的格式以及查看方式你都知道吗?
生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据fastq之外,还需要准备基因组文件fasta格式和基因注释文件gtf格式。在分析的过程中还会有众多中间文件的生成,如bed、bed12、sam、bam、wig、bigwig、bedgraph等,生成后我们一般会查看下内容了解文件每一列的含义,以此来决定需要提取哪些有用信息列来进行下一步分析。
生信宝典
2019/10/14
2.7K0
生信分析过程中这些常见文件的格式以及查看方式你都知道吗?
GWAS全基因组关联分析流程(BWA+samtools+gatk+Plink+Admixture+Tassel)
我梳理了GWAS全基因组关联分析的整个流程,并提供了基本的命令,用到的软件包括BWA、samtools、gatk、Plink、Admixture、Tassel等,在此分享出来给大家提供参考。
追梦生信人
2020/10/19
12.6K2
GWAS全基因组关联分析流程(BWA+samtools+gatk+Plink+Admixture+Tassel)
【直播】我的基因组61:scalpel软件找indel
那么现在正式的开始第61讲: 其实这次的call variation的软件,不仅仅是找到SNV,也顺便找到了indel,只是可能不太准确。一般业界的公认标准是 GATK的best practice,不过那个我已经做了,现在来一点新的,我正好看到了这个scalpel软件。 当然,为什么使用它,完全是随心所欲,也可以选择Pindel等其它软件。我在这里只是为了秀一个软件的用法,生信工程师该如何持续学习。 Scalpel is available here: http://scalpel.sourceforge.
生信技能树
2018/03/08
1.2K0
全基因组 - 人类基因组变异分析(PacBio) (3)-- pbmm2
长读段比对算法与一代/二代测序数据的比对算法有很大的不同,因为长读段通常更长、包含更多错误和变异,并且需要更复杂的比对策略。
三代测序说
2023/10/26
1.4K1
全基因组 - 人类基因组变异分析(PacBio) (3)-- pbmm2
宏基因组reads筛选:去除宿主序列
基于环境的复杂性与研究对象的不同,宏基因组数据在组装之前常需要过滤掉一些序列以防干扰研究。例如要研究动植物组织或肠道的微生物组,往往需要去除宿主的DNA序列。假如研究的是人类肠道微生物的宏基因组,需要去除属于人基因组的序列。具体方法为将质控后的序列和人类基因组序列进行比对,将比对上的序列去除。
SYSU星空
2022/05/05
3.7K0
宏基因组reads筛选:去除宿主序列
全基因组 - 人类基因组变异分析(PacBio) (5)-- pbsv
染色体结构变异(Structure Variation, SV),指基因组上发生的长度大于50bp的大片段插入(Insertion, INS)、缺失(Deletion, DEL)、倒位(Inversion, INV)、易位(Translocation)、重复(Duplication, DUP)等类型的变异,其中占比最大的就是大片段的插入和缺失(图1)。插入缺失很好理解就是,多了一段或者少了一段DNA序列;重复就是有一段区域的序列重复出现;倒位就是序列翻转了一下,如本来那个位置该是AATTG的,结果变成了GTTAA;易位的话就是序列位置的变化,又进一步分为染色体内易位和染色体间易位。据统计,基因组结构变异可能导致的遗传性疾病已经超过1,000种,对于每个人来讲其基因组都有至少20,000个的结构变异,这些变异带来的影响或许比SNVs或InDels带来的影响更大。
三代测序说
2023/11/22
1.4K0
全基因组 - 人类基因组变异分析(PacBio) (5)-- pbsv
文献笔记四十三:不同形态的南瓜重测序探索与形态和有价值的农艺性状有关的基因组变异
Whole-genome resequencing of Cucurbita pepo morphotypes to discover genomic variants associated with morphology and horticulturally valuable traits
用户7010445
2020/03/03
1K0
RNA-seq(4):下载参考基因组及基因注释
那下载哪个基因组呢?先了解一下: https://bitesizebio.com/38335/get-to-know-your-reference-genome-grch37-vs-grch38/
Y大宽
2018/09/10
5.3K0
RNA-seq(4):下载参考基因组及基因注释
推荐阅读
相关推荐
【直播】我的基因组49:Y染色体的SNV不能用常规流程来找?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档