首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据资源 | HCDT 2.0:一个高度可信的药物-靶标数据库,包含实验验证的基因、RNA 和通路

数据资源 | HCDT 2.0:一个高度可信的药物-靶标数据库,包含实验验证的基因、RNA 和通路

作者头像
生信菜鸟团
发布于 2025-06-20 00:59:42
发布于 2025-06-20 00:59:42
2140
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

BioJournal Link

【优质期刊】文献【泛读,精读】笔记。关注癌症,生信,多组学,数据库,科研工具,精准医学,临床研究,生物技术,计算机技能,大语言模型的应用。

326篇原创内容

公众号

图片
图片

Basic Information

  • 英文标题:HCDT 2.0: A Highly Confident Drug-Target Database for Experimentally Validated Genes, RNAs, and Pathways
  • 中文标题:HCDT 2.0:一个高度可信的药物-靶标数据库,包含实验验证的基因、RNA 和通路
  • 发表日期:25 April 2025
  • 文章类型:Data Descriptor
  • 所属期刊:Scientific Data
  • 文章作者:Xinying Liu | Jin Li
  • 文章链接:https://www.nature.com/articles/s41597-025-04981-2

Abstract

Para_01
  1. 药物-靶标相互作用构成了理解药物作用机制和推进治疗发现的基本基础。虽然现有的药物-靶标数据库提供了宝贵的资源,但由于异质的数据来源和注释标准,它们表现出结构和功能上的碎片化。
  2. 在HCDT 1.0中精心策划的高置信度药物-基因相互作用的基础上,我们推出了HCDT 2.0,这是一个通过多组学数据整合扩展范围的全面且标准化的资源。
  3. 此次更新包含了三维相互作用,包括药物-基因、药物-RNA和药物-通路相互作用。
  4. 当前版本包含1,284,353个经过整理的相互作用:1,224,774个药物-基因对(678,564种药物×5,692个基因),11,770个药物-RNA映射(316种药物×6,430个RNA),以及47,809个药物-通路链接(6,290种药物×3,143个通路),还有16,317个药物-疾病关联。
  5. 为了增强生物学可解释性,我们进一步整合了通路-基因和RNA-基因调控关系。
  6. 此外,我们还整合了涵盖26,989种药物和1,575个基因的38,653个负向DTI。
  7. 这个综合框架不仅解决了跨尺度数据表示中的关键差距,还为系统药理学应用建立了坚实的基础,包括药物再利用、不良事件预测和精准肿瘤学策略。

Background & Summary

Para_01
  1. 新药的开发是一个耗时且劳动密集的过程,通常受到药物作用机制的复杂性和耐药性出现的阻碍。
  2. 将一种新药推向市场的平均成本估计约为26亿美元,从发现到上市需要超过十年的时间。
  3. 因此,迫切需要找到一种新的策略来发现药物。
  4. 常见的药物相互作用目标包括基因、通路和RNA,药物能够与这些成分中的每一个进行相互作用。
  5. 药物靶点研究对药物开发至关重要,帮助我们理解药物如何与特定靶点相互作用以进行药物发现和疾病治疗。
  6. 目前,预测药物-靶点相互作用有四种主流方法,包括基于传统神经网络的方法、基于图神经网络的方法、基于知识图嵌入的方法和基于多模态学习的方法。
  7. 科学家可以使用这些方法来预测和验证更多的药物靶点,但它们依赖于经过实验验证的关于药物靶点的信息,涵盖关键基因、通路和RNA等。
  8. 然而,药物靶点研究仍然面临一些挑战。
  9. 一方面,大多数药物可能只针对少数靶点,限制了治疗选择的多样性。
  10. 另一方面,靶点的复杂性和多样性也增加了药物开发过程中的困难和不确定性。
  11. 因此,整合药物-靶点数据对于识别潜在的药物靶点和制定有效的治疗策略至关重要。
  12. 尽管存在各种专注于药物的数据库,如ncDR、Lnc2Cancer和SM2miR,但在当前生物信息学领域中,一个集成药物-基因、药物-通路和药物-RNA关系的统一平台仍然是一个重大缺口。
Para_02
  1. 为了填补这一空白并提供更全面的复杂药物-靶点相互作用视图,我们在2022年进行了HCDT 1.0,这是一个专注于高度可信的药物-基因关系的数据库。在这项研究中,我们更新了HCDT 2.0中的药物-基因相互作用,并扩展了关于药物-RNA和药物-通路的相互作用范围。HCDT 2.0涵盖了广泛的相互作用,为生物信息学领域的研究人员提供了丰富的资源。

Methods

Data collection

数据收集

Para_01
  1. 在构建 HCDT 2.0 数据库时,我们遵循了严格的数据收集、整理和整合方法,以确保数据集的精确性和可靠性。
Para_02
  1. HCDT2.0 数据库由三种关系组成,即药物-基因、药物-RNA 和药物-通路。这三个关系数据库中与药物相关的数据是统一的,包括药物名称、同一药物的多种关系、简化分子线性输入系统(SMILES)、国际纯粹与应用化学联合会(IUPAC)名称、国际化学标识符(INCH)、药物类型、分子式和分子量。
  2. 其中,最重要的是 SMILES,因为它是一种独特的标识符,能够区分不同的药物。
Para_03
  1. 我们的HCDT 2.0数据库包含9个专门用于研究药物-基因相互作用的数据库。在遗传数据方面,我们确保至少包括以下标识符之一:基因符号、Entrez ID、Ensemble ID或UniProt ID,这些标识符可以在HGNC数据库中与基因信息进行映射。
  2. 这确保了我们能够准确地关联和分析药物与基因之间的相互作用。
Para_04
  1. 有6个数据库专门用于研究药物-RNA相互作用。对于RNA数据,该数据集包括RNA名称、Ensemble ID、转录本稳定ID、染色体/支架名称、GENCODE基本注释、表型描述、基因% GC含量、基因类型、转录本类型和基因同义词。
  2. 其中最重要的是Ensemble ID,因为这通常是唯一标识符,可以区分一种RNA与其他RNA。
Para_05
  1. 有5个数据库专注于药物-通路相互作用。关于通路数据,信息包括通路名称、REACTOME_ID、KEGG_HSAID、SMPDB_ID、ChEBI_ID、KEGG_ID和GENEIDS。
  2. 这些数据代表了通路在相应数据库中的ID,即区分该通路与其他通路的唯一标识符。

Data filtering

数据过滤

Para_01
  1. 基因数据过滤:我们仍然遵循HCDT 1.0版本,标准是Ki、Kd、IC50和EC50中至少有一个≤10微摩尔。基于此,我们更新了数据库内容。
Para_02
  1. RNA数据过滤:以下四个数据库被排除在外:lnc2cancer3.011主要关注长非编码RNA与癌症的关系。尽管该数据库记录了药物信息,但并未提及药物与相应RNA之间的直接关系;在LncMAP15和LNCmap16中,大多数药物-靶点相互作用是基于计算预测的,并未通过生物实验验证,这不符合本研究对高度可信度的要求;NoncoRNA17是一个支持实验的癌症非编码RNA和药物靶点数据库。但其中有很多预测数据,我们只筛选其中经过验证的数据。剩余的6个数据库被选为HCDT数据库中药物-RNA关系的原始数据来源。为了确保药物-靶点相互作用的高度可信度,我们使用了以下标准:(i)数据必须经过实验验证;(ii)数据必须来自人类。HCDT 2.0由多个数据库整合而成。我们筛选了9个药物-靶点相互作用数据库,排除了两个药物-靶点预测数据库和一个没有直接药物-靶点关系的数据库。剩余的6个数据库都符合我们的高度可信度标准。所有药物-靶点相互作用都通过体内实验验证,并且保证来源于人类而非其他物种。
  2. 所有药物-靶点相互作用都通过体内实验验证,并且保证来源于人类而非其他物种。
Para_03
  1. 在过滤药物通路关系数据库时,为了确保药物-靶点相互作用的高可信度,我们使用了以下标准:(i) 数据库中的数据必须能够找到与药物相对应的通路关系;(ii) 这些药物通路的数据已经过实验验证而不是预测。
  2. 之所以将五个数据库纳入本研究,是因为它们可以提供药物对应信号通路的信息,并且这些药物通路的相互作用数据已被验证。
  3. 相反,某些数据库如治疗靶点数据库(TTD)被排除在外。
  4. 这是因为TTD数据库仅根据目标基因与特定通路中基因之间的一致性推断药物的作用通路,并不直接提供药物作用通路的具体信息。
  5. 因此,它不符合本研究的筛选标准。

Drug-target classification

药物-靶标分类

Para_01
  1. 在HCDT 2.0中,数据包括药物-基因、药物-RNA和药物-通路的关系。在这段文字中,我们对这些数据进行了分类分析。
  2. 众所周知,我们已经有了HCDT 1.0,当时的数据只包括药物-基因的关系。
Para_02
  1. 基因的分类与1.0版一致。这意味着根据功能,基因被分为四组:编码蛋白质的基因、不编码核糖核酸(RNA)的基因、没有实际功能的假基因以及功能尚不清楚的其余基因。
Para_03
  1. 至于RNA,分类是基于源数据库中提供的RNA类型。目前,它们被分为五个不同的组:miRNA(微小RNA)、lncRNA(长链非编码RNA)、RNA(一般RNA)、circRNA(环状RNA)和piRNA(PIWI相互作用RNA)。
  2. 每种这些类别代表一类具有特定生物学功能和在基因调控、细胞过程及疾病机制中的角色的RNA(图1)。

Fig. 1

图片
图片

- 图片说明

◉ HCDT 2.0 中的 RNA 类别。

Para_04
  1. 在路径方面,它们通常不被分类,因为它们描述了生物过程中的连续性和相互联系,而不是离散的实体。因此,我们根据其不同数据库的来源对其进行分类(图2)。
  2. 让我们一步一步地思考。

Fig. 2

图片
图片

- 图片说明

◉ HCDT 2.0 中的通路类别。

Drug-genes update

药物基因更新

Para_01
  1. 在更新后的HCDT 2.0中,相互作用关系的数量为1,224,774(表1),这与之前的HCDT 1.0版本相比有所扩展。这表明我们的HCDT 2.0数据库正在成为一种更全面的药物靶点相互作用数据资源。
  2. 在HCDT 2.0中,新增加的DSigDB18数据库是一个新的资源,它关联了药物及其目标基因。它包含23,325个相互作用数据,补充了现有数据库的内容。

Table 1 Statistics on the updated Drug-Gene data source in HCDT 2.0. 表 1 HCDT 2.0 中更新的药物-基因数据源统计。

图片
图片
Para_02
  1. 与其他常用数据库如BindingDB、GtoPdb、PharmGKB和TTD相比,DSigDB的独特贡献在于其专注于药物特征信息,这对于探索药物再利用及其作用机制具有重要意义。其他数据库已更新到最新版本。
  2. BindingDB包含353,167条相互作用记录,而GtoPdb和PharmGKB分别有14,605和4,831条相互作用记录。
  3. TTD包含530,553条相互作用记录。

Negative drug-target interactions

负向的药物-靶标相互作用

Para_01
  1. 为了全面描述药物-靶标关系,我们在HCDT 2.0中整合了负向的药物-靶标相互作用(DTIs)。这些负向DTI候选者来源于BindingDB、ChEMBL、GtoPdb、PubChem和TTD。
  2. 实验结合亲和力测量值(Ki/Kd/IC50/EC50/AC50/效价 >100 μM)被用来定义这些非活性相互作用。
  3. 我们系统地整合了涉及26,989种药物和1,575个靶基因的38,653个负向DTIs(表2)。

Table 2 Statistics on the Negative Drug-Target Interactions data source in HCDT 2.0. 表 2 HCDT 2.0 中关于负药物-靶标相互作用数据源的统计。

图片
图片

Drug-RNAs

药物-RNAs

Para_01
  1. 在HCDT 2.0中,我们添加了关于药物-RNA的药物靶标信息。我们从六个数据库中收集了药物-RNA的信息,并发现了316种药物和6,430种RNA之间的总共11,770个高可信度相互作用(表3)。
  2. 与单一数据库相比,HCDT 2.0在相互作用方面提供了显著扩展。在这些数据库中,DRmiRNA是最大的数据提供者,占药物的37.03%,靶标的11.84%以及药物-靶标相互作用的46.21%。

Table 3 Statistics on Drug-RNA in HCDT 2.0. 表 3 HCDT 2.0 中药物-RNA 的统计数据。

图片
图片
Para_02
  1. 我们构建了一个药物-RNA相互作用网络,以揭示药物和RNA之间的潜在相互作用。一个涉及度等于或大于10的枢纽RNA的子网络在图3中进行了说明。它包括20个枢纽RNA和56种药物。
  2. 例如,miR-99b可能是十种药物的目标,这些药物可以分为四类:单克隆抗体(如用于抑制癌症生长的西妥昔单抗)、皮质类固醇(如用于管理和调节炎症及免疫反应的地塞米松)、激素药物(如通过影响激素来治疗乳腺癌的他莫昔芬)和化疗药物(如卡铂、顺铂、多柔比星、丝裂霉素C、长春新碱、吉西他滨,它们通过不同的方式杀死癌细胞)。
  3. 我们对药物-RNA相互作用的研究表明,6,822个相互作用(占总数的57.97%)来源于单一数据库,551个相互作用(占总数的4.68%)来源于两个数据库,68个相互作用(占总数的0.58%)来源于三个数据库。
  4. 我们HCDT 2.0数据库中的丰富内容得到了显著强调。这些相互作用从多个数据库得到的支持不仅增强了其可信度,还突显了它们在药物靶点研究和疗法开发中的关键作用。

Fig. 3

图片
图片

- 图片说明

◉ 药物-RNA相互作用子网络用于中心RNA。

Drug-pathways

药物通路

Para_01
  1. 在HCDT 2.0中,我们添加了药物和通路之间新的相互作用。我们从5个数据库中收集了药物-通路信息,并获得了总共47,809个高可信度的相互作用,涉及6,290种药物和3,143条通路(表4)。其中,Pubchem是最大的数据提供者,占药物的13.61%,靶点的91.95%和药物-靶点相互作用的31.08%。

Table 4 Statistics on Drug-Pathway in HCDT 2.0. 表 4 HCDT 2.0 中药物-通路的统计信息。

图片
图片
Para_02
  1. 为了构建全面的多层次药物-靶标相互作用网络,我们系统地整合了来自多个存储库的异质数据。通过聚合KEGG24、Reactome25和信号通路数据库(SMPDB)26注释,推导出通路-基因关联,生成了2,639条整理记录。
  2. 对于RNA-基因调控关系,采用了两种互补的方法:(1)基于顺式调控元件的分析,将RNA剪接位点(RANcentral27)和基因剪接位点(Ensembl28)进行映射,并为顺式距离≤ 10 kb的RNA-基因对建立功能联系(11,509条记录);
  3. (2)直接证据整合策略,从miRNA靶标(miRTarBase29)、长非编码RNA靶标(LncTarD30、LncRNA2Target31)数据库中编译RNA靶标基因相互作用,在严格整理和去除重复后,得到110,294个高可信度相互作用。
  4. 这种双重方法框架确保了基于空间邻近性和直接证据覆盖转录调控机制。

Drug-diseases

药物-疾病

Para_01
  1. 在HCDT 2.0中,我们系统地整合了来自三个互补数据库的药物-疾病关联:比较毒理基因组学数据库(CTD)、KEGG和TTD。这种整合产生了16,317条经过整理的记录,涵盖了7,728种独特的药物和1,473种不同的疾病(表5)。
  2. 这些多源交互的纳入不仅增强了数据库在药物重新定位和精准医学应用中的实用性,还通过统一的多组学数据实现了对药物、基因、RNA、通路和疾病之间分子连通性的整体分析。

Table 5 Statistics on Drug-Disease in HCDT 2.0. 表5 HCDT 2.0中的药物-疾病统计数据。

图片
图片

Data Records

Para_01
  1. HCDT 2.0 中描述的数据集可以通过以下链接公开获取:https://doi.org/10.6084/m9.figshare.2809873433。
Para_02
  1. 所有数据都进行了标准化:药物统一用PubChem CID和名称标注,基因用HGNC符号标注,而RNA和通路保留了其原始数据库特定标识符和命名法,以确保跨源一致性。
  2. 该结构包括五个表格:(1) 药物-基因(包含DRUG_NAME、PUBCHEM_CID、GENE_SYMBOL、HGNC_ID)用于验证的分子靶点;(2) 药物-RNA带有RNA标识符(DRUG_NAME、PUBCHEM_CID、RNA_NAME、RNA_ID);(3) 药物-通路(PATHWAY_NAME、REACTOME_ID、KEGG_ID);(4) 药物-疾病(Disease_Name、ICD-11、MESH、OMIM);以及(5) 负DTIs提供实验确认的非相互作用对。
  3. 所有表格共享PUBCHEM_CID作为通用药物标识符,并包括标准化的注释模式(补充表S1),能够系统地整合多组学数据并支持从药物重定位到可解释目标发现的应用。

Technical Validation

Para_01
  1. HCDT 2.0通过几个验证步骤确保其数据的准确性和可靠性:
Para_02
  1. 所有相互作用,无论是药物-基因、药物-RNA,还是药物-通路,都通过体内或实验数据进行了验证。最终数据集中没有使用任何预测或计算模型
Para_03
  1. 为了确保数据集中标识符的一致性和完整性,所有药物、基因、RNA和通路名称均已使用广泛接受的标识符(例如PubChem CID、Ensemble ID、HGNC ID)进行了标准化。
Para_04
  1. 跨数据库验证:HCDT 2.0 中的相互作用来自多个数据库,提供了额外的验证并增强了数据的可信度。数据库之间的交叉引用可以识别由多个来源支持的相互作用,从而提高数据库的可信度。
  2. ,

Usage Notes

Para_01
  1. HCDT 2.0 数据库可以在 http://hainmu-biobigdata.com/hcdt2/index.php 在线访问。

Code availability

Para_01
  1. 在整理或验证此数据集时,未使用任何自定义代码。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
细胞图谱 | NatMed | 人类血管细胞的器官型图谱
生信菜鸟团
2025/01/16
7670
细胞图谱 | NatMed | 人类血管细胞的器官型图谱
数据库介绍 | NAR | LncSEA 2.0:用于长非编码 RNA 相关的集合和富集分析
生信菜鸟团
2025/02/03
2950
数据库介绍 | NAR | LncSEA 2.0:用于长非编码 RNA 相关的集合和富集分析
Nucleic Acids Res | 药物靶标和转运体信息系统
在新药研发的过程中,甄选出合适的药物靶标(以下简称“药靶”)是靶向药物研发的源头,往往会成为一系列新药发现的突破口。同时,另一类重要的影响药物ADME性质的生物大分子—药物转运体(以下简称“转运体”),近期更已成为了新药发现领域的前沿热点。目前,具有疗效的主要药靶和转运体的可变性被发现是限制新药发现、造成药物耐药性、延缓新药靶临床发现速率等的关键因素,因而延伸出了诸多亟需解决的关键科学问题。如:如何严格确定药物的主要疗效药靶?如何认识转运体不同可变性间的相互影响和交互作用?针对这些问题,浙江大学药学院朱峰教授课题组,分别与同学院曾苏、余露山教授,和新加坡国立大学陈宇综教授合作,在《Nucleic Acids Research》杂志发表背靠背文章。文章分别报道了2020年最新版的《TTD: Therapeutic Target Database》和《VARIDT: Variability of Drug Transporter Database》。在人工智能(AI)药学急速发展的今天,迫切需要药靶与转运体信息的累计,推进基于大数据的AI药学研究。数据库网址如下:TTD(https://idrblab.org/ttd/);VARIDT(https://idrblab.org/varidt/)。
DrugOne
2021/02/01
7380
Cell 关于 小和长非编码RNA 的最新综述,万字精读
生信菜鸟团
2024/11/28
7920
Cell 关于 小和长非编码RNA 的最新综述,万字精读
网页工具 | LnCeCell 2.0:基于单细胞和空间转录组测序数据的长非编码RNA相关ceRNA网络和网络工具更新资源
◉ 图1.LnCeCell 2.0的数据扩展和新特征。(A,B)LnCeCell 2.0数据库对高通量测序和人工整理数据集的收集与扩展。(C–I)LnCeCell 2.0提供了多种灵活、全面且小型化的分析工具,用于在单细胞/点分辨率下研究ceRNA调控机制。
生信菜鸟团
2025/02/27
2500
网页工具 | LnCeCell 2.0:基于单细胞和空间转录组测序数据的长非编码RNA相关ceRNA网络和网络工具更新资源
scNET,将scRNAseq数据与PPI网络整合以更好地捕捉基因注释、通路表征以及基因间关系 | Nat.Methods
◉ 最初,蛋白质相互作用网络、KNN图和基因表达数据被输入到双视图编码器(虚线部分)。◉ 随后,使用图注意力层来提取细胞和基因的潜在表示。◉ 接着,内积解码器用于重建网络连接,而全连接层负责重建基因表达。◉ 然后,KNN图通过使用注意力系数进行修剪,以优化模型性能。
生信菜鸟团
2025/04/11
2260
scNET,将scRNAseq数据与PPI网络整合以更好地捕捉基因注释、通路表征以及基因间关系 | Nat.Methods
综述 | Cancer.Cell | 人工智能与转化癌症研究交叉领域的新视野
错误!!! cannot unpack non-iterable NoneType object 错误!!! cannot unpack non-iterable NoneType object
生信菜鸟团
2025/04/26
2680
综述 | Cancer.Cell | 人工智能与转化癌症研究交叉领域的新视野
Nat. Commun. | 识别药物靶点的贝叶斯机器学习方法
今天给大家介绍的是2019年11月发表在Nature Communications的一篇文章,“A Bayesian machine learning approach for drug target identification using diverse data types“。药物靶标识别是药物开发的关键步骤。为了解决这个问题,作者开发了BANDIT,这是一种集成多种数据类型来预测药物结合靶点的贝叶斯机器学习方法,并提供了一个平台,允许加入新的数据类型进行集成。
DrugOne
2021/01/29
9780
Nat. Commun. | 识别药物靶点的贝叶斯机器学习方法
Cell | 健康与疾病中 53,026 名成人的血浆蛋白质组图谱 | 提供结果数据和源代码
生信菜鸟团
2025/01/16
6880
Cell | 健康与疾病中 53,026 名成人的血浆蛋白质组图谱 | 提供结果数据和源代码
Nature,π-HuB,集成教程数据库等,一个中国和国际科学家组成的蛋白质组学联盟
生信菜鸟团
2024/12/20
1760
Nature,π-HuB,集成教程数据库等,一个中国和国际科学家组成的蛋白质组学联盟
Adv. Sci. | 知识引导图学习赋能表型与靶点融合的创新药物发现
本文介绍了浙江大学药学院侯廷军和谢昌谕团队、浙江大学控制科学与工程学院贺诗波团队和碳硅智慧联合发表的一篇论文。该研究提出了知识引导药物关系预测器(KGDRP),一种有效整合多模态生物医药数据的图表示学习方法。KGDRP通过异质图(HG)结构,融合了生物信息网络、基因表达数据和化学分子结构序列等多种数据。在真实筛选场景中,KGDRP在药物反应预测性能上较以往方法提高了12%。KGDRP生成的知识驱动的表征使药物靶标优先排序能力提高了26%。在COVID-19的零样本评估中,KGDRP在识别潜在药物方面表现出显著更高的成功率。
DrugOne
2025/03/20
1850
Adv. Sci. | 知识引导图学习赋能表型与靶点融合的创新药物发现
数据库 | SPathDB:空间通路活性图谱综合数据库
◉ 图1. SPathDB 数据内容和功能概述。左侧面板包含数据库内容,其中包括空间转录组数据集和通路数据内容,以及空间通路活性谱的构建。右侧面板包含 SPathDB 的工具,用于检索、分析和可视化空间通路活性。
生信菜鸟团
2025/04/18
1550
数据库 | SPathDB:空间通路活性图谱综合数据库
Nat. Rev. Drug Discov. | 计算驱动的药物再定位研究:策略、工具评测与典型案例分析
已有药物的新适应症开发因其可加速药物研发、降低成本而备受关注。针对药物再定位,研究人员已开发数百种可用于预测与筛选的计算资源(如数据库与平台),但如何为具体项目选择合适工具仍具挑战。为解决这一问题,研究人员构建了一个用于药物再定位的本体体系,对现有计算资源进行分类梳理,并综述了各类计算方法。同时,研究人员还对部分代表性资源进行了专家评估,并结合Horizon Europe REMEDi4ALL项目中的三个实际案例,展示其在真实场景中的应用。本文通过系统综述、专家评价与案例分析,为药物再定位中计算资源的高效利用提供了指南,并为构建可持续、可拓展的药物再定位网络目录奠定基础。
DrugOne
2025/03/27
2580
Nat. Rev. Drug Discov. | 计算驱动的药物再定位研究:策略、工具评测与典型案例分析
药物和靶点相关数据库
这是一个公共收录实验测定的蛋白质-配体的结合亲 和力的数据库。 (1)实验测定的结合亲和力; (2)侧重测定候选药物靶点蛋白与小分子或 类药分子等配体的相互作用亲和力。目前含有620000 个蛋白—配体结合数据,5500 个蛋白靶点,超过 270 000 个类药小分 子。。
用户1359560
2021/04/12
3.1K0
Nature | 西湖大学,gsMap:空间+转录组+基因组+性状联合分析,可将空间基因表达与复杂性状相关联
◉ gsMap 首先使用图神经网络 (GNN) 学习嵌入表示,这些嵌入整合了基因表达水平、空间坐标,并可选地整合细胞类型注释先验信息。◉ 随后,gsMap 根据嵌入中的余弦相似性为每个位点识别同质位点,以形成一个微区域。◉ 每个位点依次被视为焦点位点,并通过将基因在微区域内的平均排名除以其在整个空间转录组 (ST) 切片中的平均排名,计算每个基因在每个焦点位点的特异性得分。◉ D,位点的微区域;F,基因表达特异性;G,位点空间图;R,排名;X,基因表达矩阵;Z,嵌入表示。◉ 然后,基于每个位点的 GSS(基因空间特异性得分)与其到转录起始位点 (TSS) 的距离以及 SNP 到基因的链接图,将这些 GSS 映射到单核苷酸多态性 (SNP),从而为每个位点生成一组独特的 SNP 注释。◉ 对于每个位点的 SNP GSS 注释,gsMap 使用分层连锁不平衡回归 (S-LDSC) 来评估具有更高 GSS 的 SNP 是否对目标性状的遗传力有显著富集。◉ LD,连锁不平衡。◉ 为了量化某个空间区域与性状关联的显著性,gsMap 使用柯西组合检验来聚合该空间区域内位点的 P 值。
生信菜鸟团
2025/05/23
6280
Nature | 西湖大学,gsMap:空间+转录组+基因组+性状联合分析,可将空间基因表达与复杂性状相关联
细胞图谱 | Nature | 多模态细胞图谱作为结构与功能基因组学的基础
◉ 蛋白质从全细胞生化提取物中被纯化,并使用亲和纯化-质谱法(AP–MS)确定其生物物理相互作用。◉ 同时,蛋白质通过免疫荧光(IF)被标记,并利用高分辨率共聚焦成像技术确定其亚细胞分布。◉ 这些免疫荧光成像和生物物理相互作用数据被整合成一个多模态细胞图谱。◉ 该图谱在五个生物学应用案例中以及一个交互式可视化平台中进行了探索。◉ 质谱和共聚焦显微镜的图像来自美国国家过敏和传染病研究所(NIAID)NIH BIOART资源库(https://bioart.niaid.nih.gov/bioart/286;https://bioart.niaid.nih.gov/bioart/86)。
生信菜鸟团
2025/07/12
1450
细胞图谱 | Nature | 多模态细胞图谱作为结构与功能基因组学的基础
综述 | Nat.Rev.Genet | 整合模型系统与基因组学见解以破译癌症转移机制
◉ 通过将来自人群队列的组学数据(包括基因组学和转录组学,涉及长读长DNA测序、单细胞RNA测序和空间转录组学)到蛋白质组学和代谢组学的分析结果,与实验系统(包括基因工程小鼠模型、细胞培养、类器官模型和器官芯片平台)的功能性结果相结合,可以推动转移研究的进展。◉ 这种多方法的整合有助于更好地理解决定转移进程的关键因素——肿瘤细胞的转移潜能、上皮-间质转化、肿瘤微环境(TME)的影响以及肿瘤细胞的扩散机制,从而旨在发现更有效的疾病预防、检测和治疗靶点。
生信菜鸟团
2025/07/04
1600
综述 | Nat.Rev.Genet | 整合模型系统与基因组学见解以破译癌症转移机制
视角 | Nature | 迈向分子细胞生物学中的多模态基础模型
◉ 各种分析技术在单细胞分辨率和空间分布上提供了丰富多样的数据。◉ 分析方法的数据可以揭示中心法则中的多个步骤。◉ 内嵌文本列出了用于多组学分析的常见测序方法。◉ 有关当前可用方法的完整列表,我们建议读者参考最近的综述。◉ Pol II指聚合酶II;scRNA-seq指单细胞RNA测序;sgRNA指单导向RNA。◉ 重要潜在应用的机会可以重建细胞动态。◉ 箭头表示这些应用的底层机制是相互关联的,使用MFMs解决一个任务可以有助于其他任务。
生信菜鸟团
2025/04/18
3280
视角 | Nature | 迈向分子细胞生物学中的多模态基础模型
网页工具 | 综合计算分析确定了在癌细胞和T细胞中具有双重作用的治疗靶点
图片说明◉ 图1。ICRAFT的特征(A)ICRAFT整合了来自90项独立研究的168个体内和390个体外免疫相关筛选比较,以及来自83个队列的200万单细胞基因表达数据集和来自18个ICB试验队列的943名患者的RNA-seq数据。(B)癌症细胞扰动筛选比较的分解。(C)免疫细胞扰动筛选比较的分解。(D)83个scRNA-seq数据集概述。(E)临床试验参与者中943名患者在免疫治疗前的RNA-seq样本概述。另请参见图S1和表S1、S2和S3。◉ 图1。ICRAFT的特征(A)ICRAFT整合了来自90项独立研究的168个体内和390个体外免疫相关筛选比较,以及来自83个队列的200万单细胞基因表达数据集和来自18个ICB试验队列的943名患者的RNA-seq数据。(B)癌症细胞扰动筛选比较的分解。(C)免疫细胞扰动筛选比较的分解。(D)83个scRNA-seq数据集概述。(E)临床试验参与者中943名患者在免疫治疗前的RNA-seq样本概述。另请参见图S1和表S1、S2和S3。◉ 图1。ICRAFT的特征(A)ICRAFT整合了来自90项独立研究的168个体内和390个体外免疫相关筛选比较,以及来自83个队列的200万单细胞基因表达数据集和来自18个ICB试验队列的943名患者的RNA-seq数据。(B)癌症细胞扰动筛选比较的分解。(C)免疫细胞扰动筛选比较的分解。(D)83个scRNA-seq数据集概述。(E)临床试验参与者中943名患者在免疫治疗前的RNA-seq样本概述。另请参见图S1和表S1、S2和S3。◉ 图1。ICRAFT的特征(A)ICRAFT整合了来自90项独立研究的168个体内和390个体外免疫相关筛选比较,以及来自83个队列的200万单细胞基因表达数据集和来自18个ICB试验队列的943名患者的RNA-seq数据。(B)癌症细胞扰动筛选比较的分解。(C)免疫细胞扰动筛选比较的分解。(D)83个scRNA-seq数据集概述。(E)临床试验参与者中943名患者在免疫治疗前的RNA-seq样本概述。另请参见图S1和表S1、S2和S3。◉ 图1。ICRAFT的特征(A)ICRAFT整合了来自90项独立研究的168个体内和390个体外免疫相关筛选比较,以及来自83个队列的200万单细胞基因表达数据集和来自18个ICB试验队列的943名患者的RNA-seq数据。(B)癌症细胞扰动筛选比较的分解。(C)免疫细胞扰动筛选比较的分解。(D)83个scRNA-seq数据集概述。(E)临床试验参与者中943名患者在免疫治疗前的RNA-seq样本概述。另请参见图S1和表S1、S2和S3。
生信菜鸟团
2025/05/09
3030
网页工具 | 综合计算分析确定了在癌细胞和T细胞中具有双重作用的治疗靶点
Cell | 都知道 DNA 损伤修复,那细胞是如何应对 RNA 损伤的呢? | 综述
◉ RNA 化学多样性 RNA 易受环境和内源性损伤的影响,并且缺乏核隔离、碱基配对和染色质化所提供的三重保护。而DNA具有这三种保护。◉ 尽管 RNA 也会被 RNA 结合蛋白(RBPs)结合,但由于涉及的相互作用是动态的,因此提供的保护可能不那么显著。
生信菜鸟团
2025/02/27
7140
Cell | 都知道 DNA 损伤修复,那细胞是如何应对 RNA 损伤的呢? | 综述
推荐阅读
细胞图谱 | NatMed | 人类血管细胞的器官型图谱
7670
数据库介绍 | NAR | LncSEA 2.0:用于长非编码 RNA 相关的集合和富集分析
2950
Nucleic Acids Res | 药物靶标和转运体信息系统
7380
Cell 关于 小和长非编码RNA 的最新综述,万字精读
7920
网页工具 | LnCeCell 2.0:基于单细胞和空间转录组测序数据的长非编码RNA相关ceRNA网络和网络工具更新资源
2500
scNET,将scRNAseq数据与PPI网络整合以更好地捕捉基因注释、通路表征以及基因间关系 | Nat.Methods
2260
综述 | Cancer.Cell | 人工智能与转化癌症研究交叉领域的新视野
2680
Nat. Commun. | 识别药物靶点的贝叶斯机器学习方法
9780
Cell | 健康与疾病中 53,026 名成人的血浆蛋白质组图谱 | 提供结果数据和源代码
6880
Nature,π-HuB,集成教程数据库等,一个中国和国际科学家组成的蛋白质组学联盟
1760
Adv. Sci. | 知识引导图学习赋能表型与靶点融合的创新药物发现
1850
数据库 | SPathDB:空间通路活性图谱综合数据库
1550
Nat. Rev. Drug Discov. | 计算驱动的药物再定位研究:策略、工具评测与典型案例分析
2580
药物和靶点相关数据库
3.1K0
Nature | 西湖大学,gsMap:空间+转录组+基因组+性状联合分析,可将空间基因表达与复杂性状相关联
6280
细胞图谱 | Nature | 多模态细胞图谱作为结构与功能基因组学的基础
1450
综述 | Nat.Rev.Genet | 整合模型系统与基因组学见解以破译癌症转移机制
1600
视角 | Nature | 迈向分子细胞生物学中的多模态基础模型
3280
网页工具 | 综合计算分析确定了在癌细胞和T细胞中具有双重作用的治疗靶点
3030
Cell | 都知道 DNA 损伤修复,那细胞是如何应对 RNA 损伤的呢? | 综述
7140
相关推荐
细胞图谱 | NatMed | 人类血管细胞的器官型图谱
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档