Plink是我们常用的全基因关联分析工具,具有多种文件格式。许多分析工具都需要Plink的文件格式作为输入文件,今天小编就带大家掌握多种Plink文件格式的转换,解决分析过程中遇到的输入文件问题。
作为最广泛使用的关联分析工具,plink支持卡方检验,费舍尔精确检验,逻辑回归,线性回归等多种分析方法,用法简单,运行速度快。使用plink进行case/control逻辑回归, 只需如下所示的一句代码
plink是目前使用的最为广泛的关联分析软件,其定义的ped/map文件系统,及其对应的二进制bed/bim/fam已经成为关联分析的标准文件格式。在进行关联分析之前,我们首先要做的就是将其他格式的文件转换为plink对应的文件格式。
21世纪是生物的世纪,生物数据的增长速度越来越快。很多分析工具在开发时并没有考虑到大规模数据的应用场景。在数据量不大的时候,这些工具的计算时间并不会太长,可以让人接受。但在数据规模庞大时,可能就 hold 不住,等待时间让人发指。
plink是进行连锁不平衡分析的常用工具之一,需要两个基本的输入文件,后缀分别为ped和map。ped文件格式在之前的文章中已经详细介绍过,这里只介绍map文件。
在PCA(Principal Component Analysis)分析中,常用的工具有EIGENSOFT工具的smartpca,GCTA工具的PCA模块和R包中做PCA分析的princomp函数或glPCA功能。EIGENSOFT工具只支持linux系统,从安装到使用都很复杂。GCTA工具支持不同平台(wins/linux/mac),常用于群体遗传相关分析。在群体遗传中,R包从读取vcf文件、PCA分析到可视化,对内存要求较高。
ADMIXTURE 是常用的群体遗传学分析工具,可以估计个体的祖先成分。与 STRUCTURE 相比,它的速度更快。
在遗传学中,当两个基因相互作用然后导致对应性状的出现,说明两个基因间存在相互作用。在之前的文章中,介绍了很多的基因相互作用模型,列表如下
https://www.nature.com/articles/s41588-023-01423-w
在网络攻防博弈中,网络流量特征分析类安全防御措施得到了广泛应用。众多厂商和企业对网络流量进行恶意流量分析检测,从而针对性的采取防御措施,如各级ISP在骨干网络设备上大多采用网络流量分析检测的防御方案。
大家好,我是飞哥,本章节是理论+实操,干货满满,这里我将书中的数据用代码进行了实现,你可以下载相关的数据,用我整理好的代码进行操作,666!
GEMMA (Genome-wide Efficient Mixed Model Association) 是基于混合模型进行全基因组关联分析的工具。运行速度非常快,结果准确,使用也十分方便,非常适合初学者做GWAS分析。
发现搜索引擎是个神奇的东西,偶然想起的关键词一搜索,获得的就是意想不到的结果,我以imputation+qc搜索,就找到了snpQT(发音Snip Cute)这样一个神奇的工具/流程。这个流程的目的是让你的SNP cute,为处理人类基因变异提供了帮助:
C:\Program Files (x86)\VMware\VMware vCenter Converter Standalone\plink.exe
R语言是昨天安装的R3.6版本(Linux系统安装老版本的R语言,比如R3.6?)。
Plink是一个基于Flink的流处理平台,旨在基于 [Apache Flink]封装构建上层平台。提供常见的作业管理功能。如作业的创建,删除,编辑,更新,保存,启动,停止,重启,管理,多作业模板配置等。Flink SQL 编辑提交功能。如 SQL 的在线开发,智能提示,格式化,语法校验,保存,采样,运行,测试,集成 Kafka 等。
HLA基因,位于6号染色体上短臂上,长约4000Kb。HLA是目前所知人体最复杂的遗传多态性系统,有几十个基因座位,每个基因座位又有几十个等位基因,且呈共显性表达。由于MHC基因位于同一条染色体上,其多基因座位上的基因型组合相对稳定,很少发生同源染色体间交换,这就构成了以单元型(HAPLOTYPE,即在同一条染色体上紧密连锁的一系列等位基因的特殊组合)为特征的遗传。按中国人常见的A座位基因有13个,B座位基因有30个计算,可组成的单元型约有13×30=390种之多。
输入: a -> b -> c -> d -> e -> f 输出: b -> a -> d -> c -> f -> e
ssh-putty-brute.ps1是一个包装脚本,它使用 PuTTY 客户端(putty.exe或plink.exe)执行 SSH 登录暴力攻击。
在前几期的内容中,小陈带大家下载并处理好了数据,接下来就是用PLINK软件进行分析了,在分析之前,小陈先教大家如何下载并在Windows系统里使用PLINK软件。
第一列为FID 第二列为ID 第三列以后为协变量(注意,只能是数字,不能是字符!)
我在stackoverflow中问了一个问题, 获得了答案, 对snakemake的理解也加深了一步.
最近碰到将基因型数据转为 012 格式的需求,就顺手总结了一些方法和大家分享,要是有更方便的法子欢迎大家多多补充~
虽然plink2.0已经存在好久了,但是一直用的都是plink1.9,因为语法熟悉。更主要是plink2.0语法变动太大,害怕步子迈得太大了……
发现plink2 和plink 差别还是挺大的,没什么plink2 教程,还是用老版。
我已经下载整理好了,下载本书的电子版pdf+数据+代码,链接:书籍及配套代码领取--统计遗传分析导论
plink --vcf snp.vcf --recode --out snp ped和map文件是Plink的基本格式。
飞哥注:这篇是我同事苏惠写的,内容更全面,代码更完整,我的上一篇plink计算的PCA为什么和GCTA计算的不一样?是一个引子,而且这一篇给出了plink --pca 样本数时,
快,真的是快,我用perl或者Python编写的代码运行需要50s,plink不到1s完成,在C语言面前,我掌握的语言是苍白的。所以,好好利用plink软件,对于速度的提升非常显著。
不不不,它只是一个软件,一个只能在命令行添加参数的软件,没有图形界面,没有快捷方式,不能用鼠标点击的软件。
参考 Create VCF from .bim, .bed and .fam files
plink软件是GWAS分析中常用的软件,它也是一个数据格式,plink里面有很多非常强大的功能,运算速度很快,是我日常分析中常用的软件之一。
R语言和plink软件都是常用的软件,随着对软件的熟悉,就不用自己写代码了,直接改代码了,既然改代码,就在一个环境下运行就行了,不想来回切换R和Bash。问题来了:如何在R语言中运行plink软件。
群体结构(population structure),或者说群体分层(population stratification),是由于个体之间非随机交配而导致的群体中亚群之间等位基因频率的系统差异。这种系统差异,是全基因组关联研究(GWAS)中影响非常大的混淆变量,可以造成非常大的假阳性。
tagSNPs叫做标签SNP, 用来代表一组高度连锁不平衡的SNP位点。对于一组高度连锁不平衡的SNP位点而言,在遗传时这些位点往往同时遗传,其包含的信息是冗余的,只需要选取其中几个SNP位点作为代表即可,这个选出来的代表位点就叫做tagSNPs, 而这些一起遗传的高度连锁不平衡的SNP位点构成了haplotype。简而言之,tagSNP可以代表单倍型中所有的SNP位点。
大家好,我是邓飞,我本来以为vcftools处理gvcf已经天下无敌了,没想到bgen格式更豪横,快看,这是谁的部下?
准备写一系列plink软件常用的命令,最近在数据分析时,需要将基因型的数据转化为0-1-2的形式,编程实现效果太差,100万的数据,plink十几秒完成,真的是厉害,非常值得学习,所以,开始搞起!
GWAS分析时,无论是一般线性模型,还是广义线性模型,都要对协变量进行处理。数值类型的协变量(比如初生重数值协变量,PCA的值)直接加进去,因子协变量(比如不同的年份,不同的地点,场等)需要转化为虚拟变量。
格式说明链接: http://zzz.bwh.harvard.edu/plink/data.shtml#map
大家好,我是邓飞,有时候我们做PCA图,图很漂亮,我们解释一通,充满自信。但是,你知道这个图解释变异的百分比吗?如果解释度很低,那也意义不大。这我们就需要在PCA图中,将PC1和PC2的解释百分比附上面,比如PC1解释8%的变异,PC2解释4%的变异,那么这个PCA图可以解释12%的变异。
大家好,我是邓飞,之前写了Haploview进行单倍型分析的教程(Haploview做单倍型教程一文打尽),有示例数据和操作流程,但是有些朋友用自己的数据分析时,会有各种问题,最近星球上有小伙伴发了一个帖子,叙述了自己的问题,各种尝试,还是错误,淡淡的忧伤和砸电脑的冲动……
这个肯定厉害了,是「大家闺秀」,是「名门望族」,是「根红苗正」的GWAS分析软件。
平时在分析时,也有时候需要将外部准备好的数据,更新到plink数据中。plink有两种格式类型,二进制文件(bed,bim,fam)在fam文件的第六列,文本文件(ped,map)在ped文件的第六列。数据量小时,可以用excel打开,直接手动增加,如果数据量大,就需要编程实现,比如R语言,Perl或者Python。其实,plink自己有一个参数,可以自动更新表型数据,只需要将所要更新的表型数据准备好就行了。下面介绍一下操作流程。
今天介绍一下基因型数据清洗的一般步骤,我们知道很多分析之前,都要做基因型数据清洗,包括:
代理服务器(Proxy Server)是网上提供转接功能的服务器,在一般情况下,我们使用网络浏览器直接去连接其他Internet站点取得网络信息时,是直接联系到目的站点服务器,然后由目的站点服务器把信息传送回来。代理服务器是介于客户端和Web服务器之间的另一台服务器,有了它之后,浏览器不是直接到Web服务器去取回网页而是向代理服务器发出请求,信号会先送到代理服务器,由代理服务器来取回浏览器所需要的信息并传送给你的浏览器。
或许你还在为无法绕过反病毒软件获得Meterpreter shell而懊恼,试试Shellter 5.1吧。 首先需要获取一个正常的Windows exe可执行文件,然后它会将shellcode添加进去,这样就可以成功地修改这个文件并且使其绕过反病毒软件的监测了。Shellter有一个自动模式,该模式会使整个操作过程变得十分的简单。在这篇文章中,我使用Kali 2.0作为主机,另外一台Windows作为靶机。 0x01 磨刀: Kali中不包含最新版本的Shellter,如果要获取最新版本需要下载、解压Z
「原理:」检查性别差异。先验信息,女性的受试者的F值必须小于0.2,男性的受试者的F值必须大于0.8。这个F值是基于X染色体近交(纯合子)估计。不符合这些要求的受试者被PLINK标记为“PROBLEM”。
作为关联分析最常用的工具,plink支持多种关联分析的算法。对于经典的case/control关联分析,该软件支持allele和genotype两个层次的关联分析,具体做法如下
这一步突然多出来一个inversion.txt文件,怎么来的还不太清楚 使用到的命令是
领取专属 10元无门槛券
手把手带您无忧上云