Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【直播】我的基因组52:X和Y染色体的同源区域探索

【直播】我的基因组52:X和Y染色体的同源区域探索

作者头像
生信技能树
发布于 2018-03-08 02:50:41
发布于 2018-03-08 02:50:41
2K0
举报
文章被收录于专栏:生信技能树生信技能树

很久以前,我其实就遇到过通过NGS测序数据来判定性别的难题(搜索我博客即可查看详情),本次探究自己的基因组得到的统计结果与常识不符,所以我可以肯定是我们的常识太浅显了。

【直播】我的基因组48:我可能测了一个假的全基因组

【直播】我的基因组49:Y染色体的SNV不能用常规流程来找?

【直播】我的基因组50:从测序深度和位点间距来看SNV分布情况

通过自己的测序数据的详细分析,我才知道PAR(pseudoautosomal region)。这样的X,Y染色体大量同源,说到底是测序片段压根无法准确定位,所以说所谓的X,Y染色体是单倍体的常识,在这里完全错误的。这些区域目前有29个基因,那么对这29个基因来说,其实就跟定位在常染色体上一样,有两个拷贝的!

这些区域在hg38的参考基因组坐标如下;

The locations of the PARs within GRCh38 are:

PAR1: chrY:10,000-2,781,479 and chrX:10,000-2,781,479 [7]

PAR2: chrY:56,887,902-57,217,415 and chrX:155,701,382-156,030,895 [7]

PAR3: chrY:3,571,959-5,881,959 and chrX:89,145,000-92,745,001 [3]

那么我们就可以通过自己的数据处理能力来探索一下X和Y染色体的同源区有多少,是哪里的问题!

首先下载X,Y染色体的fasta序列,在UCSC上面下载即可。

然后把X染色体构建bwa的索引。

接着模拟一个Y染色体的测序数据,模拟的程序很简单,模拟Y染色体的测序片段(PE100,insert400)。

最后把模拟测序数据比对到X染色体的参考,统计一下比对结果即可!

我自己看sam文件也发现真的同源性好高呀,总共就模拟了380万reads,就有120万是百分百比对上了。

所以对女性个体来说,测序判断比对到Y染色体是再正常不过的了。如果要判断性别,必须要找那些X,Y差异性区段!对男性来说,更是如此!

本次测试涉及到的文件如下:

shell脚本如下:

  1. cd tmp/chrX_Y/hg19/
  2. wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrX.fa.gz;
  3. wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrY.fa.gz;
  4. gunzip chrX.fa.gz
  5. gunzip chrY.fa.gz
  6. ~/biosoft/bwa/bwa-0.7.15/bwa index chrX.fa
  7. ~/biosoft/bwa/bwa-0.7.15/bwa mem -t 5 -M chrX.fa read*.fa >read.sam
  8. samtools view -bS read.sam >read.bam
  9. samtools flagstat read.bam
  10. samtools sort -@ 5 -o read.sorted.bam read.bam
  11. samtools view -h -F4 -q 5 read.sorted.bam |samtools view -bS|samtools rmdup - read.filter.rmdup.bam
  12. samtools index read.filter.rmdup.bam
  13. samtools mpileup -ugf ~/tmp/chrX_Y/hg19/chrX.fa read.filter.rmdup.bam |bcftools call -vmO z -o read.bcftools.vcf.gz

对Y染色体随机抽取模拟测序片段的程序如下(这个程序我不想给文字版的,希望大家可以自己手动敲一遍,在我们的生信技能树论坛上面提交自己的感悟:http://www.biotrainee.com/thread-696-1-1.html):

这个测序待改进的地方太多了,比如可以过滤掉N含量过多的片段(我只是把全部是N的地方去除了),可以设置插入片段为参数,而且打断的片段不应该是稳定的600bp,而且可以改成PE150的测序,或者更长,模拟一下看看是不是3代测序的超长片段,就能解决这个问题。

建bwa索引的log日志如下:

仔细打开比对结果sam文件可以继续探索,有不少比对结果含义XA:Z,说明即使是这100个碱基在X染色体也有多个定位!

【直播】我的基因组(十三):了解sam格式比对结果

甚至对这个sam文件可以做variation的calling,然后放到IGV里面去看看!

最后找到的variation也可以统计一下:

96180个 0/1

181020 个1/1

当然,这里我模拟的是4X 的数据,所以找到的variation不会太准确,但是我模拟的精确数据,其实不应该有杂合的variation,但结果还是有一些~

毕竟这种比对也太诡异了,看来我对BWA软件的理解还不够透彻!

请参与本次直播基因的同学继续我的思路探索下去,模拟PE150,甚至miseq的PE250的测序片段看看比对情况如何,或者模拟三代测序仪的。

还可以下载hg38参考基因组的X,Y序列,只有你实践的越多你才能学到更多!

只有你实践的越多你才能学到更多!

只有你实践的越多你才能学到更多!

只有你实践的越多你才能学到更多!

参考:https://en.wikipedia.org/wiki/Pseudoautosomal_region

文:Jimmy

图文编辑:吃瓜群众

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-01-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
批量汇总多Excel表格 | 格式化表单(如简历)数据汇总2:多表批量转换汇总
大海:有了《PQ-M及函数:结合前期案例,学习自定义函数》的基础,现在可以开始多个格式化表单数据的转换汇总了。
大海Power
2021/08/31
7870
PQ-案例实战:格式化表单转数据明细之1:单表转换
大海:这种填报格式的申请表、登记表等等的要转为规范的数据明细还真是经常有的事。以前我写过一个可配置的VBA,就是自己定义好哪个单元格的内容转到明细表里的哪一列,比如配置表:
大海Power
2021/08/30
5810
PQ-综合实战:格式化表单转数据明细之3:可配置的映射关系,你的数据你做主
小勤:但是有个问题啊,比如构造出来行标和列标了,但通过表里转换的列标是文本,在PQ里用跨表引用数据的方式好像不行呢。
大海Power
2021/08/30
7260
PQ- 综合实战:用Excel批量获取百度搜索结果——这感觉真是“爽”!
小勤:我这里有一堆的地址,能不能知道哪些是医院,哪些不是? 大海:呵呵,你自己看着这些地址能看得出来吗? 小勤:当然不能啊,上面又没写着医院两个字。只能一个个百度…… 大海:那我们就让Excel自己去自动百度呗。 小勤:啊!这也行! 大海:Power Query不是可以做爬虫吗?专治这种批量累人活儿。 Step-01:获取地址数据到PQ Step-02:添加自定义列,用百度搜索引擎对地址进行搜索(返回第一页,一般10-15条),这个函数非常简单,就是用Web.Contents读取网页内容。公式:We
大海Power
2021/08/30
2.7K1
厉害了,word哥,用PQ将word简历表格数据批量汇总到Excel,这实在是666666
小勤:大海,公司汇总了所有应聘者的简历,但都是分散的word文件,一个人一份,有没有办法将其中的姓名、性别、手机和邮箱等信息汇总到Excel里啊?
大海Power
2021/08/30
1.3K0
Power Query批量汇总JSON文件数据
大海:会单个的就应该会批量的啊。仔细观察一下你导入单个文件的,里面其实就是用Json.Document函数对文本文件进行解析(详见文章《PQ-数据获取:文本文件中的JSON数据提取》)
大海Power
2021/08/30
1.3K0
PQ-综合实战:工资条制作一键刷新之M解
大海:嗯。用函数解的话步骤上省一些,开始之前咱们先确定一下做的思路:工资表原来的数据已经有了,咱们实际只需要构造一个同样多行的重复标题表和一个同样多行的空白表,然后排序就可以了。
大海Power
2021/08/30
4790
批量汇总JSON文件数据?超级轻松!
目前JSON已成为当前互联网及各类业务系统的主要数据交换方式之一,且随着新一代软件平台“微服务”架构的流行,JSON格式数据将会更多地出现在不同的业务平台中。 另一个更加具体的应用是,在Power BI中自定义不同的颜色主题时,就是将系列颜色编码编制成一个JSON文件,然后导入到Power BI中——多了解一些关于JSON文件的知识,没准很快就在哪个地方碰到用上了。
大海Power
2021/08/31
8200
PQ-M及函数:对比Excel,一次搞定5个最常用的文本函数
大海:好的,在PowerQuery里,文本类函数可能用得比数值计算函数还要多。这里我们通过和Excel里的常用文本处理函数进行对比的方式来学,可能会效果更好。
大海Power
2021/08/31
1K0
多文件数据横向汇总,怎么整?| Power Query实战
最近遇到一位朋友提问:怎么将多个文本文件(据说100多份)按列(横向)汇总?经过详细了解,需求如下图所示:
大海Power
2023/02/06
1.6K0
批量导入Excel文件,为什么我导入的数据重复了?
这里,显然是因为将合并工作表和数据源放在了同一个文件夹下,所以Power Query将合并工作表也显示了出来,并且,还有一个前面带“~$”的合并工作表,是因为合并工作表当前打开状态,生成了一个临时文件。所以在后续编辑查询的时候我们首先要把合并工作表的内容过滤掉,否则以后刷新数据时会连合并工作表的数据一起导入。
大海Power
2021/08/30
3.4K0
JSON格式的文本文件,怎么解析不成功?
小勤:上次那个JSON数据是复制到Excel的一个单元格里的,在PQ里直接解析就可以了,但一般JSON数据都是放在一个文本文件里的,怎么解析不成功?你看:
大海Power
2021/08/31
1.5K0
PQ-综合实战:品名规格规范化及多函数嵌套公式基本写法
小勤:嗯,是不是可以先通过Text.Remove分拆中文、数字和英文单位,然后将单位统一转换为小写,最后在合并在一起?
大海Power
2021/08/30
6690
综合实战:最低价客户分组合并及计数
小勤:最近公司在统计各类产品的最低价客户情况,要求全部汇总到一个表里交给领导,大概要求是这样的:
大海Power
2021/08/30
6890
分离金额,神级公式写不粗来,我用PowerQuery
小勤:大海,怎么把这个付款详情的数据给分离出来啊?我在网上搜了个神长公式,但看不懂啊!
大海Power
2021/08/30
5530
数据堆在一列又混乱,怎么整理?熟练功能操作,能避免复杂代码 | Power Query实战案例
在群里看到个例子,将一些堆在一列,而且顺序也不太对的数据给整理好,给出的步骤是好大一串代码:
大海Power
2022/04/11
9261
数据堆在一列又混乱,怎么整理?熟练功能操作,能避免复杂代码 | Power Query实战案例
效率直线拉升3000倍!基础操作就能做到!|PQ实战
导语:花10%的时间,熟练掌握Power Query的基础操作,解决80%的问题,再或10%的时间,掌握一些儿基础的M函数,再解决15%的问题,剩下的5%,需要的时候问人吧。
大海Power
2024/04/11
7510
效率直线拉升3000倍!基础操作就能做到!|PQ实战
一个简单的学历排序问题,隐藏3种建模思路 | PBI实战
大海:一般来说,对于饼图或环形图,会以占比进行降序排序。不过,这里的学历本身的确无法按照高低进行排序。
大海Power
2023/09/09
3860
一个简单的学历排序问题,隐藏3种建模思路 | PBI实战
SQL可以不懂,但表间数据匹配(合并查询)这6种联接类型必须要理解!
小勤:合并查询里的联接种类怎么这么多啊!左外部、右外部、完全外部、内部、左反、右反6种!分别都是什么意思?
大海Power
2021/08/31
1.6K0
汇总Excel数据,列名不一样怎么办?| Power Query实战
日常工作中,很多朋友遇到类似如下的问题——多个要汇总的Excel工作表,列名却存在一些差异,比如有的表里叫“日期”,而另一个表里可能是“采购日期”……
大海Power
2023/02/06
2.4K0
推荐阅读
批量汇总多Excel表格 | 格式化表单(如简历)数据汇总2:多表批量转换汇总
7870
PQ-案例实战:格式化表单转数据明细之1:单表转换
5810
PQ-综合实战:格式化表单转数据明细之3:可配置的映射关系,你的数据你做主
7260
PQ- 综合实战:用Excel批量获取百度搜索结果——这感觉真是“爽”!
2.7K1
厉害了,word哥,用PQ将word简历表格数据批量汇总到Excel,这实在是666666
1.3K0
Power Query批量汇总JSON文件数据
1.3K0
PQ-综合实战:工资条制作一键刷新之M解
4790
批量汇总JSON文件数据?超级轻松!
8200
PQ-M及函数:对比Excel,一次搞定5个最常用的文本函数
1K0
多文件数据横向汇总,怎么整?| Power Query实战
1.6K0
批量导入Excel文件,为什么我导入的数据重复了?
3.4K0
JSON格式的文本文件,怎么解析不成功?
1.5K0
PQ-综合实战:品名规格规范化及多函数嵌套公式基本写法
6690
综合实战:最低价客户分组合并及计数
6890
分离金额,神级公式写不粗来,我用PowerQuery
5530
数据堆在一列又混乱,怎么整理?熟练功能操作,能避免复杂代码 | Power Query实战案例
9261
效率直线拉升3000倍!基础操作就能做到!|PQ实战
7510
一个简单的学历排序问题,隐藏3种建模思路 | PBI实战
3860
SQL可以不懂,但表间数据匹配(合并查询)这6种联接类型必须要理解!
1.6K0
汇总Excel数据,列名不一样怎么办?| Power Query实战
2.4K0
相关推荐
批量汇总多Excel表格 | 格式化表单(如简历)数据汇总2:多表批量转换汇总
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档