我写公众号的最初目的就是督促自己学习,分享一些教程,和专门搞生信的大佬们比起来,自己也就是菜鸟一枚,公众号更新也比较佛系,也不做推广,你能自行关注到,完全靠缘分。我就是分享一些生信基础的生信分析技能,以满足大家在科研工作中的生信需求。说实话,大家需要给你自己以定位,自己做纯生信的还是只是借助生信为大家在湿实验中提供思路,或者文章中添加一些生信内容。如果你是做纯生信,那也是分档次和研究方向的,如果只是分析别人的数据,比如预后模型这种,属于比较低端的水平。有的做开发,比如开发一个R包或者一些其他生信分析工具,又或者是建数据库,这些属于开发类。另外,这个也和研究领域有很大关系,植物的,人的,微生物的,是有区别的,当然,很多基础工具都差不多,但需要相关的知识背景。我自己主要是做药,癌症,所以我会的技能主要和自己研究方向相关的,我也不是什么都掌握,因为我觉得,具备基础知识储备后,自己用到什么就去现学现卖,而不是一下子学会很多东西等着以后用,我个人认为这是效率极其低下的。
这里按照我个人的学习经历和总结,让刚刚入门的你,能快速学习一些基础的生信技能,学到高水平我也做不到,因为我自己也觉得自己很菜的,但有一些经验可以分享给大家。
1.首先给自己一个定位,你学生信为了干什么?
如果你不是纯生信的,比如做一些药理,分子生物学等相关以实验为主,那么你学习生信主要还是做一个辅助,你可能注重的还是一些基础分析。
还有一种就是想快速出文章,纯数据分析的,这种我个人觉得不是长久之计。
如果你是做开发的,比如开发R包,新方法,搭建数据库等纯生信的方向。那么需要学习计算机方面的东西很多,比如开发数据库,前端(HTML+CSS+JavaScript)是需要学的,以及数据库等等。如果注重算法,那就需要补一补数学,尤其是统计学。【这个方向,我也还在不断的学习当中】,但是做这个方向的学生,实验室往往有这样的基因,有师兄师姐指路是比较好的。【我觉得这个方向需要有一个长期的规划,往往需要一个团队才能有更好的科研成果,比如搭建数据库,有人做前端,有人做后端】
2.需要学什么基础知识?
无论你是干啥的,只要是和生命科学有关的,很多基础知识是需要具备的【比如分子生物学,遗传学】,这里就不多说了。对于生物信息学,就算你不做生信,很多技术你也需要知道和了解,要不然你做实验都不知道可以用什么技术能解决什么问题。对于很多基础极其薄弱的同学来说,我极其推荐买一本下面这本书,生物信息学的教材很多,但我只推荐下面这本,很多技术的原理和很多基本概念都介绍的挺好的。也不需要多么认真仔细的看,扫一遍。【京东/当当,选择便宜的平台购买】。
3.是否需要学编程语言?
哪怕你不做纯生信,R语言是必须学习的,为什么?很多人就是想用别人的代码傻瓜似的运行,然后得出结果,这个过程往往会出现各种幺蛾子,会浪费你大部分的时间。何不自己花点时间系统的学习一下。另外,用别人的代码,你无法个性化分析,所以完全不靠谱。所以R语言必须学习,B站有很多视频教程,可以学习,当然我也有,感兴趣的可以参考文章【曾经付费的R语言语法视频教程现在免费学习了】学习。
4.还需要学什么编程语言?
前面说了,无论做什么,R必须学习,那么Python,Linux呢?如果你做算法或者开发的,看你个人选择,只用R也能解决问题,Python也可以不用学习,但是很多文章用的是Python写的,你也需要看的懂,关于这一点,如果自己有有长远的规划,又刚刚开始,那就学,先学python,再去了解R,因为编程语言很多都是相通的,学会Python,再去了解R,易如反掌,我当初学习R的时候就很快,因为我曾经学过Java,但我现在已经完全忘记,因为没用起来,所有学编程语言一定要用起来,经常写。Linux的话是需要学的。但对于不是纯生信的,你们注重下游数据分析,也没有太多追求,那就放弃也行吧,学R就够了,当然很多数据分析还是都需要在Linux上运行的,所以掌握基本的操作还是必要的,Linux的数据就鸟哥私房菜。
当然,要学好是需要花费很多时间的,只是掌握怎么使用,简单的操作,网上有很多快速入门的博客,可以搜索一下。
5.数据可视化
这一点,我曾经写过一篇文章说过,可以参考阅读一下【我有必要花大量时间去学习R语言绘图吗??】
6.了解一些用于医学相关的基础分析
就是一些常见的分析,比如回归分析,这部分我有相关的教程,是基于R语言的,之前是付费,后期我整理好会免费分享到B站。目录可参考:R语言语法、绘图和数据分析教程。
关于R相关的书籍,可以在群里问我一下,分享给你。
7.其他数据分析技能
生信数据分析,其实几乎都是各种组学数据的分析,比如普通转录组,单细胞转录组、空间转录组,chip-seq,甲基化测序等,以及芯片数据。所以分析数据之前,需要去掌握这些技术背后的原理和相关背景知识。前期一定要先学习普通转录组,因为这个很常用。如果你是做非编码RNA的,那么可以学习相关的测序分析流程。当然有一些是芯片数据,都一起去了解,学习。对于其他的组学数据分析,就可以举一反三,看看综述,用什么软件,各种软件的优缺点以及适用于什么样的数据等等。然后,自己用的时候,再看相关教程自己跑,我自己觉得这样比较好,前提是你得理解这些组学数据分析背后到底再干什么事。为了部署不同分析环境,需要了解一下Anaconda。如果注重下游分析,有些也不需要上游分析,比如bulk转录组,一般自己测序后,测序公司都会给你可以直接用于下游分析的count数据和FPKM数据,就可以直接用R来分析。下游分析需要了解一些基础常见的,比如差异表达,GO富集,GSEA,WGCNA,免疫评估等。
8.进阶
其实,按照上面的流程学习,对于只是用做辅助的同学来说,已经很可以了。这个时候的你需要转变思维方式,不要简单的按常规分析思路,可以不同组合。另外,需要阅读高分文献,看看别人的分析思路,解决什么生物学问题,学会举一反三。需要不断强化自己的编程能力。比如下面的R书籍需要拜读。
对于要开发R包的,就要拜读下面书籍了。比较贵,原来我买的时候没有这么贵的。网上应该有电子版的。如果纯粹的写一个R包,我自己认为是没有太大意义的,最好的方式就是有新东西,顺便写了个R包,再厉害一点,再搭建在线分析平台,那就完美了,例如TIMER2这类似的平台。
对于其他的书籍可以参考之前的文章:这才是生信入门的书籍清单。
要继续往高端路线走,那就是熟悉各种机器学习算法,背后的数学原理要搞清楚了,这就靠自己修行了,当然,有些实验室本身就是做机器学习,这和前面的也不冲突,只是注重的方向不一样了。我也在努力储备中。
以上是我的个人观点,不一定适合所有人,欢迎留言讨论。
本文分享自 MedBioInfoCloud 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!