前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >引导式答疑启发学员理解生信软件的参数选择和阈值调整(南京站学员分享)

引导式答疑启发学员理解生信软件的参数选择和阈值调整(南京站学员分享)

作者头像
生信技能树
发布2019-10-31 14:32:27
5300
发布2019-10-31 14:32:27
举报
文章被收录于专栏:生信技能树

全国巡讲的步伐迈入了近20个城市,发现南京站的学员们踊跃分享学习成果,我也很纳闷,是做对的什么才带领了这股风潮呢?以前大家都是蒙头学会了就ok了,这次大家表现的都想要加入生信技能树创作团队!

前些天一个学员分享的是:文章测序数据下载碰到的问题的小总结(南京站学员分享)

这次让我们看看另外一个优秀学员的笔记:

一周前参加了生信技能树的南京站培训,回来时刚好有一批高通量二代测序的数据需要处理,师姐说学以致用正好可以练练手。仔细了解了一下我们的数据是来自测序公司的raw data,我需要做的就是处理成clean data才能进行下一步分析。

回顾了课程内容,发现刚好对应原始数据的质量控制这一部分,包括测序质量统计和质量控制。打算看几遍流程和示例代码之后直接上手。不过在示例代码里发现有一个参数的值不是很明白不知道怎么修改。

生信技能书示例代码

--length参数表示小于设定值的序列会被修剪,在示例代码里给的值是36,不太明白这个值是怎么来的,难道有什么规则?带着疑问在群里咨询了一下,jimmy老师并没有直接解释,而是让我自己去看一下--length参数的默认值,引导我自己去解决问题(非常非常赞)。

首先我通过man查询了trim_galore软件的详细信息发现--length的信息出现了两次有两个默认值,前者默认值是20bp表示默认小于20bp的read会被修剪掉。在老师的提醒下发现后者(参数前面有-r1-r2)指的是当一对read只剩下一个时保留的最小长度,默认值是35bp。但是我还是不太明白为什么示例是36bp,我再次提问,才了解到原来36是老师自己选的,其实和默认值差异不大。

参数详情1

参数详情2

为了让我理解差异的大小,按着老师的建议我分别把--length的设定值选成30bp、35bp、36bp和50bp并查看经过trim_galore软件处理后的qc差异,结果如下。

设定值30bp

设定值35bp

设定值36bp

设定值50bp

从结果可以看到总序列数上设定值35/36的差异很小,按老师的话来讲其实数据处理的设定值没有标准答案,只要清楚自己的目的就行。最后为了放心我分别拿设定值为35bp和36bp的结果做下游分析,结果上完全一样!(我们是用建库后用高通量来做突变体基因型鉴定的,我的目标序列长度都大于我的设定值)

老师的引导式答疑真的很赞,这个过程收获很多,非常感谢~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档