全国巡讲的步伐迈入了近20个城市,发现南京站的学员们踊跃分享学习成果,我也很纳闷,是做对的什么才带领了这股风潮呢?以前大家都是蒙头学会了就ok了,这次大家表现的都想要加入生信技能树创作团队!
前些天一个学员分享的是:文章测序数据下载碰到的问题的小总结(南京站学员分享)
这次让我们看看另外一个优秀学员的笔记:
一周前参加了生信技能树的南京站培训,回来时刚好有一批高通量二代测序的数据需要处理,师姐说学以致用正好可以练练手。仔细了解了一下我们的数据是来自测序公司的raw data,我需要做的就是处理成clean data才能进行下一步分析。
回顾了课程内容,发现刚好对应原始数据的质量控制这一部分,包括测序质量统计和质量控制。打算看几遍流程和示例代码之后直接上手。不过在示例代码里发现有一个参数的值不是很明白不知道怎么修改。
生信技能书示例代码
--length参数表示小于设定值的序列会被修剪,在示例代码里给的值是36,不太明白这个值是怎么来的,难道有什么规则?带着疑问在群里咨询了一下,jimmy老师并没有直接解释,而是让我自己去看一下--length参数的默认值,引导我自己去解决问题(非常非常赞)。
首先我通过man查询了trim_galore软件的详细信息发现--length的信息出现了两次有两个默认值,前者默认值是20bp表示默认小于20bp的read会被修剪掉。在老师的提醒下发现后者(参数前面有-r1和-r2)指的是当一对read只剩下一个时保留的最小长度,默认值是35bp。但是我还是不太明白为什么示例是36bp,我再次提问,才了解到原来36是老师自己选的,其实和默认值差异不大。
参数详情1
参数详情2
为了让我理解差异的大小,按着老师的建议我分别把--length的设定值选成30bp、35bp、36bp和50bp并查看经过trim_galore软件处理后的qc差异,结果如下。
设定值30bp
设定值35bp
设定值36bp
设定值50bp
从结果可以看到总序列数上设定值35/36的差异很小,按老师的话来讲其实数据处理的设定值没有标准答案,只要清楚自己的目的就行。最后为了放心我分别拿设定值为35bp和36bp的结果做下游分析,结果上完全一样!(我们是用建库后用高通量来做突变体基因型鉴定的,我的目标序列长度都大于我的设定值)
老师的引导式答疑真的很赞,这个过程收获很多,非常感谢~