每一次别人问起我学什么专业的,我都会告诉他我是学生信的,然后我都会加一句,我学的生信,属于结构生物信息学,也就是做蛋白质结构计算的。也就是想跟别人说清楚一点的就是,我学的生信,不是现在大家印象里的做基因组的生信。
其实自己一直以来都是想做基因方面的生信的,偶入这个方向,也是误打误撞吧。之前的的经历,也就不堪回首了吧……我有故事,不知你有酒后?
即便是在做蛋白质结构的计算(主要是要能保证硕士毕业),但我依然心系基因学方面的生信。于是,在三年时间,于是我浪迹在各种生信论坛和潜伏在相关的群里面,学习别人的学习经验,学习生信老司机们分享的资料,按照别人分享的学习指导,自己开始捉摸着,模仿着,学习着……
当然,作为一个生信菜鸟,重要发现了好多值得收藏和学习的网站:
http://shemy.site/
http://kaopubear.top/
目前就罗列这几个吧,入门学习,你值得拥有。
自我反思和总结
之前的时候,一直都是我自己一个人在孤军奋斗。看到别人的经验说,首先要学Linux,然后买了一本公认的《Linux鸟哥的私房菜》,按照上面的内容敲着命令尝试;没有Linux系统怎么办,按照虚拟机,按照双系统,反正都是自己倒腾着。看到别人说学Perl,买了书就又去学了一两个月的Perl;看到别人说学python,又去拿着书,看着视频学了一两个月的python;R是要做统计分析和作图的好工具,于是又拿着《R语言实战》和《R语言做数据分析》,按照里面的内容,自己操作着。而这些都是基于书本或者视频里的命令,模仿着自己操作一遍而已,但是,到自己想要用这个工具去做分析的时候,还是感觉自己不会……
逛论坛的时候,看着别人的讲解,感觉自己明白了,但是一到要用的时候,自己又不知道如何用了。当遇到具体问题后,再网上一搜索,一看别人的解决方法,自己又会恍然大悟,原来是这样的呀,我怎么当时没想到呢?……在自学的那段时间,感觉这就是我的一个常态吧,在生信基础方面的时候也是,直接看到别人的博文的时候,都能看懂,但是一遇到的时候,又是那种,这个好像在哪里见过……
就这样,再加上又要忙硕士课题的内容,感觉自己对生信的学习一直在原地踏步。但现在已经真正的开始自己的基因组学方面的生信知识了,到了自己一直想进入的行业,拥有了一个新的开始,而基于之前的零散的知识,需要对自己当前的知识和需要学习的知识做一些梳理了:
我现在会什么技能?属于一个什么层次?
Linux:总的来说,《鸟哥的Linux私房菜》里面,前面三大部分,即1-13章的内容,基本上都按照书上的内容和指令做了学习和训练,再找了一些相关的Linux学习的视频,学习和练习过,再加上自己在虚拟机和后来租的云服务器上的捣鼓,一些基本的命令,ls, cd -, cd .. , cd -, history, >,&,jobs pwd,mkdir,rm,mv,cp,touch ,head,tail,less, more,cat,diff,wc,vi grep都基本已经掌握了。但是就在昨天,我师兄指导我做一些文本的操作的时候,他说的sed, awk 的一些高级用法的时候,我自己是一脸懵逼的状态,虽然之前会看到过sed和awk的一些用法的介绍,但昨天才让我感觉到原来自己之前学的sed和awk的那些简单用法,真的只是九牛一毛。
总的来说,对于Linux的学习,还只能说自己属于一个初步的阶段,还需要不但的联系,尤其是一些文本处理的高级的命令,需要不断的学习和积累。这个还是要靠不断的实战积累,以及需要及时的反思和总结,才能不断的巩固了,以防遗忘。
python:还是去年这会儿按照书上和视频上的教程,学习过一段时间的python,那是也知识仅限于基础学习和模仿练习,还没有应用到实际中,虽然能看到一些代码,但是还是感觉自己很吃力。当前课题组主要用python在做数据处理,鉴于此,还要重新把python的知识结构梳理一遍,然后多做一些练习和实战的训练,需要快速的建立起python这项技能。
R:还是在前年的时候,学习过挺长一段时间的,当时是用R做了一些基础的分析,也按照书上的内容学着做过一些图,需要再找到一些数据后,做分析实战和绘图的练习了。这个可以在后面一点,要先学会Linux和python在文本文件中的分析。
生信基础知识
基本的分子知识,还是要再多加强了,很久没有碰分子生物学书了。
测序原来,数据格式:fastq,fasta,sam,bam,vcf,gff,gtf,bed,MAF等等,虽然都有接触过一些,知道一些最基本的如fasta,fastq的格式,但是都没有形成一个系统的去学习,还有很多也没有接触过,所以还学要花时间系统的整理和理解了。
基础数据库:对于数据库就了解的更少了,虽然都听过,或者看过一些教程,但限于没有实际的运用过,所以很多数据库都还不不知道该怎么用。如基本数据库:NCBI,ENSEMBL,UCSC,CGHub;一些高级的数据库(TCGA,CCLE,GTEx,IMGT,TIGR,ICGC,GWAS,COSMIC,ExAC,1000genome,
hapmap,ENCODE,OMIN,uniprot,proteinatlas)(HPO,MGI,DO,GeneSigDB,MSigDB,Gene2MeS)(GEO,SRA,GoNL),功能数据库(KEGG,GO,Reactome,BioCarta,DrugBank,dbSNP,dbGAP,dbNSFP,
pFAM,SMART),蛋白质相互作用数据库PPI(BIND,STRING,DIP,MINT,HPRO,bioGRID)Expression Project for Oncology (expO) database。这些需要不但的接触和积累的。
总的来说:以前的自己虽然学的知识很散乱,但最起码是有一些基础,同时也让自己有了一个比较广阔的视野,也能让自己形成一些思考和意识。目前,自己最缺的还是项目实战,通过项目实战中遇到问题,思考问题,再到解决问题,再加上在这过程中不断的反思和总结,使自己的知识能够慢慢的连成一个一个的串,再形成一个整体的知识体系。
接下来的计划:(切记要实战练习)
首先是要加深Linux系统中的sed和awk这两个命令的高级用法,以及一些其他的文本处理命令的学习了。达到对于不同格式的文件,能够熟练和有效的处理。
快速重新捡起python的基础知识并进行练习训练,遇到问题,自己要开始写脚本解决问题。
测序基础,文件格式和数据库:要理解测序原理,对于在学习过程中遇到的各种格式文件和遇到的数据库,要及时的搞清楚它们各自的特征和主要的用法,建立起系统的理论知识。
生物学方面的知识:要借助课本,重新学习分子生物学中的基础知识。
最后一点,也是最重要的一点:项目实战,项目实战,项目实战!!!利用好一些论坛或者公众号里的资源,首先就是按照别人指导的流程和给出的数据,进行项目实战,同时在走流程的时候,切记要搞清楚每一个文件,每一个步骤和每一个脚本中的意义,多问几个为什么,多找问题的答案!
领取专属 10元无门槛券
私享最新 技术干货