前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >3DSNP 数据库 | 注释 SNP 信息

3DSNP 数据库 | 注释 SNP 信息

作者头像
生信菜鸟团
发布于 2020-05-26 02:11:18
发布于 2020-05-26 02:11:18
4.3K0
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

今天给大家介绍的 3DSNP 是一个集成数据库,通过探索人类非编码突变在基因和调控元件之间的远端相互作用来注释突变。其整合了千人基因组计划中 3D 染色质的相互作用,不同细胞类型中的局部染色质特征以及连锁不平衡(LD)信息。同时也提供了信息丰富的可视化工具,以显示局部和三维的染色质特征以及突变之间的遗传关联。这个网站也将不同功能类别的数据被集成到一个量化评分系统中,以便我们从大量数据中选择相对重要的突变。

网址:http://cbportal.org/3dsnp/

数据来源

序列和基因分型数据

3DSNP 包含来自 NCBI dbSNP build 146 的所有149,254,102 个 SNPs 和 indel 。其中,84,801,880 个 SNPs 来自千人基因组计划阶段的基因型数据,获得了不同人群的等位基因频率和 LD 数据。此外,还从 dbSNP 中提取了 MAF 和线性最近基因。从 UCSC 基因组浏览器中获得了 GRCh37/hg19 RefSeq 基因注释。

三维基因组

3DSNP 根据多篇 Hi-C 研究,在十二种人类细胞中总共收集了 75,362 个染色质内环。据报道,根据染色质环的跨度,染色质相互作用可分为两类。对于小于200kb 的染色质环,相应的相互作用类型是 Within loop ,其中位于其中的基因组元件可以相互作用。对于长度超过 200kb 的染色质循环,类型是 Anchor-to-anchor,其中只有位于两个锚上的元件会相互作用。

染色质特征

3DSNP 使用了各种染色质特征来注释 SNPs 的调控功能,包括染色质状态(ChromHMM Core 15-state model)、组蛋白修饰(NarrowPeak)、 DNase I 超敏感位点以及转录因子结合位点。为了对改变转录因子结合序列的 SNPs 进行注释,3DSNP 使用 TFM-Scan 软件,利用从 TRANSFAC 和 JASPAR 数据库中收集到的一组位置权重矩阵(PWMs) ,在基因组中定位推测的 TFBS。

SNP 的保守性得分

SNP 的保守性是用从 UCSC 基因组浏览器获得的两个 PhyloP 评分来计算的。通过对 46 个脊椎动物基因组和 33 个哺乳动物基因组的多重比对,计算了两个系统发育分数。正值表示预测为保守位点,负值表示预测为快速进化位点。

eQTL

基因型和组织特异性基因表达水平之间的相关性可以帮助我们解释遗传变异对基因调控的影响。3DSNP 包含了来自 GTEx 的 44 种人体组织中共计 19,582,729 条显著的记录 (FDR 0.05)。

用法示例

首先,在搜索框中键入完整 rsid 例如,rs12740374,然后关于该 SNP 的信息将会出现在下面:

可以看到基因组的位置和 Ref/Alt ,rs12740374 的总功能分值为135.06,与其在空间上相互作用的基因为 PSRC1和其他 7 个基因。单击 ID 左侧的“ + ”图标,可以看到一个表格,包含了同一 LD block 中一组相关的 SNPs。

表格右侧的 Regional LD plot 显示了它们之间的关联:

上图中,x 轴为染色体坐标,y 轴为 r2 的值,点的大小代表其总得分,五个群体中相关的 SNPs 以不同的颜色显示。单击图例中相应的圆圈,可以将对应种群的 SNPs 从图中删除或添加。例如:点击图例中的“AMR”圆圈,可删除 AMR 群体中的相关 SNP,如下所示:

我们还可以通过调整图形右侧条的上下限来限制显示总分的范围。例如,只显示分值超过 50 的位点:

单击相应 SNP 的名称,将打开对应的详细介绍页面。

这里,我们单击“rs12740374”打开一个新页面,其中包含了该 SNP 的所有详细信息。

所有功能类别的得分

在 3DSNP 中,每个 SNP 都会基于它在六个功能分类上的注释记录进行评分:

•相互作用基因•增强子状态•启动子状态•转录因子结合位点•Motif 的改变(例子中的 rs12740374 不影响 motif)•保守性分值

不同于 RegulomeBD 的评分方法,3DSNP 使用了一种定量评分系统来评价 SNP 在不同类别中的功能重要性。对于前五个类别,使用注释记录的数量(命中率)为 k 带入泊松分布模型中,得到该 SNP 在这个分类下的得分。

对于保守性分值,则是将 PhyloP score 带入高斯模型得出。

SNP 的总分即是六个功能类别分值的总和。

基本信息

Sequential information of the SNP obtained from NCBI dbSNP and allele frequencies in five continental population obtained from 1000 Genomes Phase 3 (final phase)

Circos图

为了可视化非编码突变、远端调控元件和启动子之间的染色体相互作用,3DSNP 使用了 Circos 进行可视化。如上图所示,从外部到内部,分别代表染色质、注释基因、组蛋白(红色)、转录因子(蓝色)、当前 SNP 和相关的 SNP,以及 3D 染色质相互作用。

UCSC 基因组浏览器

除了 Circos,3DSNP 还使用 UCSC 基因组浏览器提供了染色质相互作用和位点信息的线性图。如下图所示,从上到下依次表示: 基因组坐标,染色质相互作用,当前 SNP,UCSC 基因,RefSeq 基因,组蛋白修饰,CTCF 结合位点,DNase Clusters 和哺乳动物保守性分值。

最接近的基因

Genes where the SNP falls within 2 kb upstream to 2 kb downstream of them

三维互作的基因

Genes that interact the SNP through 3D chromatin loops in different cell types. Two loop types are defined based on their spans: 'Within loop' and 'Anchor-to-anchor'

eQTL

Significant SNP-gene pairs (FDR < 0.05) associated to the SNP in 44 human tissues obtained from GTEx Portal

三维互作的 SNP

Genetically associated SNPs (LD r2 > 0.8) interacting with the SNP through 3D chromatin loops

染色质状态

Presented chromatin state identified by the Core 15-state ChromHMM model

转录因子结合位点

Transcription factor binding sites identified by ChIP-seq in ENCODE project

SNP 位点上下 10bp 区域的保守性得分

PhyP scores of 46 vertebrates and 33 mammals across the +/-10bp region surrounding the SNP

总而言之,对于例子中的 rs12740374,我们可以看到关于这个突变的总分主要在于 TFBS (86.23)、增强子(32.13)和启动子(12.64) 这三个功能类别。同时,在 eQTL 部分,rs12740374 与 SORT1 在肝脏的表达水平显著相关。在 TFBS 部分,rs12740374 位于 HepG2、 IMR90 和 HeLa-S3 细胞的 CEBPB 和 CEBPD 的结合位点,DNA 可接近性很高(1000/1000)。这与先前关于这个位点的研究高度一致,有研究报道 rs12740374 会导致一个 C/EBP (CCAAT/增强子结合蛋白) 转录因子结合位点并进一步影响 SORT1 基因在肝脏的表达。更进一步,我们也可以从 可视化 的部分以及 三维互作的 SNP 部分看到,rs12740374 与 SORT1 基因相互作用,是由 KBM-7、 NHEK、 IMR90、 K562 和 PC3 五种不同细胞中的染色质环所介导的,这些证据表明 rs12740374 和 SORT1之间的关联是由染色质环所介导。

数据格式

查询格式

除了可用 Snp ID 查询外,我们还可以用基因组区域或基因名来进行查询。多个 SNP 应用逗号或空格分隔,基因组区域应该写作 chrN:start-end,基因应写作 gene:SYMBOL。每次搜索只允许一种查询类型,不支持混合的查询格式。在搜索栏中查询最多支持 100 个 SNP ID。

上传文件格式

通过点击搜索栏右侧的图标,可以将包含 SNP ID 或基因组区域列表的文本文件上传到服务器进行批量分析。SNP 数量最多为 2000个,基因组区间最多为 10 个,超出的部分会被忽略。

导出格式

所有生成的表单可以以三种格式导出:复制到剪贴板、excel 或 PDF。图形可以以 PNG 格式导出。

API

3DSNP 还可通过 API 来访问数据,具体详见:http://cbportal.org/3dsnp/3dsnp_for_developers.html

参考资料

•https://academic.oup.com/nar/article/45/D1/D643/2333918•http://cbportal.org/3dsnp/3dsnp_tutorials.html


生信技能树目前已经公开了三个生信知识库,记得来关注哦~

每周文献分享

https://www.yuque.com/biotrainee/weeklypaper

肿瘤外显子分析指南

https://www.yuque.com/biotrainee/wes

生物统计从理论到实践

https://www.yuque.com/biotrainee/biostat

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-05-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
3dsnp:SNP在染色质环介导的调控网络中的分布数据库
在全基因组范围内的SNP位点中,位于编码基因上的SNP位点只是非常小的一部分,绝大部分都是位于非编码区。通过ENCODE, Roadmap等项目,得到了SNP位点与基因组各种元件的位置关系,然而仅仅通过位置分布来解释和预测SNP在基因调控作用中的作用是非常困难的,类似增强子的调控作用,基因调控是一个非常复杂的过程,不仅仅局限在基因组位置相近的元件之间。
生信修炼手册
2019/12/19
1K0
3DSNP | 非编码SNP 3维功能预测
对于 SNP 的功能,之前在 [[SNP是什么东西?]]当中介绍的时候,提到过对于编码区的 SNP,可以通过影响蛋白翻译来影响基因的变化,而对于非编码区的 SNP 而言要怎么调控基因的呢?非编码区的 SNP 可以通过影响转录因子结合,增强子结合或者剪切位点结合的方式来影响基因的表达调控关系。除了上述的这样线性关系上的调控,在空间维度上,SNP 更可以发挥其作用。所以就不就给大家介绍一个利用三维基因组数据来分析非编码区SNP 功能的数据库:3DSNP: https://omic.tech/3dsnpv2/
医学数据库百科
2021/12/09
9720
3DSNP | 非编码SNP 3维功能预测
后GWAS时代的数据整合:RegulomeDB和HaploReg数据库
RegulomeDB和HaploReg数据库提供了将大量基因组学数据与非编码突变整合的思路。 1.背景 GWAS研究产生了大量的SNP,大部分在非编码基因组 这些SNP其实是Lead/Tag SNP,所以需要同时关注与这些SNP处于高LD(linkage disequilibrium)的其它SNP ENCODE产生的大量数据,可以用来注释这些SNP,为我们研究这些SNP的功能提供一些参考。 本篇介绍的两个数据库RegulomeDB和HaploReg的套路就是将ENCODE产生的注释数据与dbSNP和GWAS
企鹅号小编
2018/02/24
2.3K0
后GWAS时代的数据整合:RegulomeDB和HaploReg数据库
iRegNet3D:疾病相关SNP位点在三维调控网络中的作用
iRegNet3D将疾病相关的SNP位点与染色质互作联系起来,以此来探究SNP在疾病中的具体功能机制,对应文章的链接如下
生信修炼手册
2019/12/19
7150
SEdb:超级增强子数据库简介
增强子作为基因组上的顺式作用元件,在调控网络中发挥重要作用。随着研究的不断深入,科学家提出了超级增强子super-enhancer的概念,将基因组上富集了增强子的区域定义为超级增强子。
生信修炼手册
2019/12/19
3.1K0
SEdb:超级增强子数据库简介
【Mol Cell】解析顺式调控密码(二)
顺式调控密码的最小单位——类似于遗传密码的密码子——是转录因子结合位点(TFBS)。转录因子通常包含结构化和进化保守的DNA结合域(DBD),它们识别并结合一个6-12个碱基对的DNA序列,称为转录因子的“基序”。转录因子基序通常用序列标志或位置权重矩阵(PWM)描述,以表示转录因子结合特异性的退化性。DBD的保守性和高通量测量转录因子序列特异性的方法使得约有1600个已编目的转录因子在人类中被识别,并确定了这些已知转录因子的结合基序。然而,转录因子结合基序无法完全预测大多数转录因子在体内的DNA结合。虽然大多数TFBS至少包含对其首选基序的部分匹配,但大多数转录因子仅在基因组的一小部分基序上发生结合。尽管可以通过包括核苷酸围绕核心基序或使用更复杂的序列偏好表示(如二核苷酸基序和DNA形状),来提高对某些转录因子基因组结合的预测,但对于大多数转录因子来说,对体内结合的最佳预测因子是染色质的可访问性,可以通过DNase-seq或ATAC-seq等高通量测序方法来测量。这种观察结果主要归因于DNA上核小体的存在,这些核小体必须被称为“先驱”因子或共结合转录因子组合所取代或排除。
Chris生命科学小站
2023/08/29
3120
【Mol Cell】解析顺式调控密码(二)
一文读懂三维基因组
每个人体内都有着两米长的DNA,它是如何紧密折叠在直径 10 微米小的细胞核内。
白墨石
2021/01/12
1K0
【生信文献200篇】52 TCGA-atac-seq
英文标题:The chromatin accessibility landscape of primary human cancers
生信菜鸟团
2021/07/29
1.3K0
【生信文献200篇】52 TCGA-atac-seq
Nat Genet | 杨俊/岳峰团队合作揭示GATA3的遗传性非编码变异增加儿童急性淋巴细胞白血病风险的新机制
越来越多的研究表明,遗传性胚系突变和体细胞基因突变都可能促进白血病的发生发展。体细胞基因畸变,包括突变、重排、插入和缺失等,已经被证明能够通过显著促进白血病前造血细胞的生存和增殖来驱动白血病的发生。然而,遗传性白血病的风险因素,尤其是那些在内含子或者基因间位点的非编码变异的在白血病发生发展中的作用,却没有得到充分的研究。尽管全基因组关联性研究(GWAS)已经确定了超过14个基因的常见变异与急性淋巴性白血病易感相关,但这些研究很少对分子机制进行研究。究其原因,大多数与疾病或性状相关的基因突变都定位于基因组的非编码区域,如如启动子、增强子和沉默子等。这些部位的遗传突变通过调节局部或远端的基因转录,从而在疾病的发生和发展中发挥重要作用。但是,由于增强子可以在远至100万个碱基对的上游或者下游,通过染色质环与目标基因相互作用,因此,如何确定目标基因成为研究非编码调控元件的主要挑战。
生信宝典
2022/03/27
5270
Nat Genet | 杨俊/岳峰团队合作揭示GATA3的遗传性非编码变异增加儿童急性淋巴细胞白血病风险的新机制
在R语言中的 ATACseq 数据分析全流程实战(五):peaks质控 &amp; peaks 注释
本帖子学习资源:https://rockefelleruniversity.github.io/RU_ATACseq/
生信技能树
2025/03/31
1470
在R语言中的 ATACseq 数据分析全流程实战(五):peaks质控 &amp; peaks 注释
这个网站提供了多种数据分析工具——增强子,非编码RNA转录信息等
该工具由哈尔滨大学开发的,该团队通过结合系统生物学、计算生物学和生物信息学方法来分析与疾病相关的途径。对疾病代谢途径的识别、药物相关途径的分析和患者生存预测。在高通量转录组学、基因组学和代谢组学、计算代谢网络分析和分子生物学方法方面,采用独特的生物信息学方法组合。下面是他们开发的6个工具:
DoubleHelix
2019/12/13
2K0
Sequential regulatory activity prediction across chromosomes with convolutional neural networks
Sequential regulatory activity prediction across chromosomes with convolutional neural networks 基于卷积神经网络的染色体序列调控活动预测
bye
2021/03/22
8410
Sequential regulatory activity prediction across chromosomes with convolutional neural networks
三维基因组|基因组结构 (2)
术语 cis 源自拉丁语词根“cis”,意思是“同一侧”。相比之下,“trans”一词来自拉丁语词根“trans”,意思是“对面”。在分子生物学中,顺式调控元件是指染色体 DNA 中调节同一染色体上基因转录或表达的区域。反式作用因子是指与基因的顺式作用元件结合以控制其表达的可溶性蛋白质。然而,可溶性反式作用蛋白可以驻留在任何染色体上,通常位于与其调节位置不同的染色体上。
数据科学工厂
2024/03/02
2190
三维基因组|基因组结构 (2)
Nucleic Acids Res.|华大智造联合复旦大学发布人类基因组轻量级语言模型,整合卷积层以碱基分辨率解释非编码区
Integrating convolution and self-attention improves language model of human genome for interpreting non-coding regions at base-resolution
智能生信
2022/12/29
6520
Nucleic Acids Res.|华大智造联合复旦大学发布人类基因组轻量级语言模型,整合卷积层以碱基分辨率解释非编码区
GWAS综述(生信文献阅读俱乐部精选)
从具有遗传标记的复杂性状的统计学关联推进到理解影响性状的功能性遗传变异往往是一个复杂的过程。精细定位可以选择遗传变异并对其进行优先级排序以供进一步研究,但是大量的分析策略和研究设计使得选择最佳方法具有挑战性。作者回顾了不同精细绘图方法的优缺点,强调了影响性能的主要因素。主题包括全基因组关联研究(GWAS)的解释结果,连锁不平衡的作用,统计精细绘图方法,跨种族研究,基因组注释和数据整合以及其他分析和设计问题。
生信技能树
2018/11/30
5.2K0
GWAS综述(生信文献阅读俱乐部精选)
三维基因组学习笔记
本周受邀来武汉菲沙基因参加三维基因组学习研讨班,所以更新该系列该领域基础知识以及一个实战项目的方方面面,测试数据以及流程软件的解说,希望大家喜欢!
生信技能树
2018/08/06
2.3K0
三维基因组学习笔记
lncRNA必知必会的数据库资源大全
让我很无语,我又不是带领本科生搞一个学期的课程,仅仅是不到2小时我能讲解什么背景呢:
生信技能树
2021/02/03
1.7K0
lncRNA必知必会的数据库资源大全
Nat. Genet. | 从碱基到染色体尺度的三维基因组结构的序列建模
今天为大家介绍的是来自Jian Zhou的一篇的论文。为了了解基因组序列对多尺度三维基因组结构的影响,本文介绍了一种基于序列的深度学习方法,名为Orca,可以直接从序列中预测从千碱基到整个染色体尺度的三维基因组结构。Orca捕捉了包括染色质区块和拓扑联合域在内的结构的序列依赖性,以及与细胞类型特异性相关的各种类型的相互作用,包括CTCF介导的相互作用、增强子-启动子相互作用和Polycomb介导的相互作用。
DrugAI
2023/09/19
3060
Nat. Genet. | 从碱基到染色体尺度的三维基因组结构的序列建模
玉米研究必备:玉蜀黍属综合数据库ZEAMAP | CNGBdb收录数据库推荐
玉米(Zea mays L.)作为最广泛种植的作物之一,一个多世纪以来研究者和育种者对其进行了广泛的研究。随着高通量检测技术的快速发展,玉米相关的生物学数据朝着多组学、多维度的层面快速积累。这些信息的整合有可能加速玉米遗传研究和改良玉米农艺性状。
尐尐呅
2022/04/01
1.2K0
玉米研究必备:玉蜀黍属综合数据库ZEAMAP | CNGBdb收录数据库推荐
三维基因组: Hi-C 差异分析(1)
本系列主要讲解 3D-Genome (Hi-C) 系列的分析,主要涉及三维基因组分析中的数据处理,重复性评估,Compartment/TAD/Loop 检测,差异分析等,欢迎关注!
数据科学工厂
2025/04/26
2000
三维基因组: Hi-C 差异分析(1)
推荐阅读
相关推荐
3dsnp:SNP在染色质环介导的调控网络中的分布数据库
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档