今天给大家介绍的是浙江大学侯廷军教授团队发表在Nucleic Acids Research上的一篇文章“PROTAC-DB:an online database of PROTACs”。蛋白水解靶向嵌合体(PROTACs)是一种通过泛素-蛋白酶体系统选择性降解靶蛋白的新型治疗技术,具有传统抑制策略无法比拟的优势。目前PROTAC的设计仍然是一个巨大的挑战,为了对PROTACs进行合理设计,本文提出了一个基于Web的开放式数据库PROTAC-DB,它集成了PROTACs的结构信息和实验数据。目前,PROTAC-DB已经囊括了1662个PROTAC、202个弹头(靶向目标蛋白质的小分子)、65个E3配体(能够招募E3连接酶的小分子)和806个Linker以及它们的化学结构、生物活性和理化性质。其中,PROTAC-DB详细提供了弹头和E3配体的生物活性以及PROTAC的降解能力、结合亲和力和细胞活性。PROTAC-DB可以通过两种常用的搜索方法进行查询:基于文本的(靶点名称、化合物名称或ID)和基于结构的。
1
背景
蛋白水解靶向嵌合体(PROTACs) 是一种新的药物发现技术,通过泛素-蛋白酶体系统选择性地诱导靶向蛋白降解。与传统的基于占位的抑制剂具有足够的结合亲和力到可药物的活性位点相比,PROTAC只需要与靶蛋白瞬时结合就能催化诱导泛素化和降解。此外,由于弹头不必占据调节蛋白质功能的可药物结合位点,PROTAC可以利用目标蛋白质上的所有表面结合位点,因此有可能调节“不可药物”的靶标。
PROTAC由甲硫氨酸氨基肽酶2(MetAP2)的共价抑制剂和一个能够募集F-box蛋白β-转导重复序列蛋白(β-TRCP)的10-残基磷酸肽片段组成。由于基于多肽的PROTACs在体内有局限性,越来越多研究重在开发有效的小分子PROTACs。2008年报道了第一个小分子PROTAC,它通过募集到E3连接酶MDM2来降解雄激素受体(AR)。不久后,基于凋亡蛋白(IAP)的PROTACs (特异性和非遗传的IAP依赖蛋白擦除器)也被开发出来。PROTACs技术的迅速发展,目前已有许多PROTACs在细胞检测甚至体内实验中实现了对靶蛋白的高效、高选择性的降解。其中两种分别针对AR和ER的PROTAC被命名为ARV-110和ARV-471已进入I期临床试验。
目前,设计具有良好的理化、吸收、分布、代谢和消除特性的PROTAC仍然是一个巨大的挑战。与传统的小分子药物不同,PROTAC由于分子量大,可能不符合Lipinski的5法则,这将限制其细胞通透性和其他类药物特性。虽然在PROTAC的优化中一般更多地关注整个分子,但在初步设计中考虑也单个组分。由此,Linker被认为是PROTAC设计中的关键组分。研究表明Linker与PROTAC的熵、选择性、活性、水溶性、渗透性等有关。为合理设计PROTAC,有必要收集和注释PROTAC的实验数据和结构信息。
GtoPdb、PubChem和ChEMBL等综合性数据库收集了一些PROTAC的信息,但其中的数量和实验信息相当有限。因此,本文介绍了一个新开发的数据库PROTAC-DB,它具有一个用户友好的网络界面。这是第一个收集包括化学结构、生物活性和理化性质的PROTAC各种相关信息的在线数据库。此外,PROTAC的三个区域:弹头、E3配体和Linker方便了用户的分析。且PROTAC可分为不同的详细信息页面,这也为PROTAC的合理设计提供了宝贵的资源。此外,PROTAC-DB里的所有数据都可以下载成SDF或CSV文件形式。
2
方法
数据收集与处理
图1显示了PROTAC-DB的基本数据收集与处理阶段。应用计算机检索PubMed数据库中的PROTAC信息,检索词为“degrader* OR protac OR proteolysis targeting chimera”。收集有关小分子PROTACs的文献,排除多肽基PROTACs和HaloTag PROTACs的文献。随后,从文献中手工提取了PROTACs的化学结构和生物活性,生物活性包括降解能力、结合亲和力和细胞活性。
降解能力:通常,DC50(导致50%目标蛋白降解的浓度)和Dmax(最大蛋白降解水平)被用来量化PROTAC的目标蛋白降解能力。因为大多PROTAC缺乏DC50和Dmax,如果至少评估了两种浓度且每个浓度至少进行两次独立实验,降解率也会被整合到数据库中。此外,还收集了蛋白质印迹(WB)图,WB数字只显示在PROTAC的详细信息页面,不显示在搜索结果页面。
结合亲和力:分别收集PROTACs和靶蛋白与PROTACs和E3连接酶的结合亲和力以及三元化合物的形成。三元化合物形成的结合亲和力可以用来评估PROTAC诱导的化合物与E3连接酶和靶蛋白形成的能力。结合亲和力通过对E3连接酶(靶蛋白)与PROTAC和靶蛋白(E3连接酶)的化合物的测定.。有四种类型的值Kd、Ki、IC50和EC50。搜索结果页面上仅显示Kd和IC50,其余显示在详细信息页面上。此外,还收集了生物物理结合数据,包括ΔG、ΔH、-TΔS、t1/2、KON和KOFF,并显示在详细信息页面上。
细胞活性:收集IC50、EC50、GI50、ED50、GR50五种数值。同样,ED50和GR50仅显示在详细信息页面上。
使用RDKIT工具包(http://www.rdkit.org)和ALOGPS计算了与类药物相关的10个重要理化性质,包括分子量、精确质量、分配系数(LogP)、水溶性(Log)、重原子计数、环计数、氢键受体计数、氢键供体计数、旋转键计数和拓扑极性表面积。PROTACs的三元晶体结构的PDB代码也被加入到数据库。
给予收集到的PROTAC的信息,根据文献以及弹头和E3配体的初始结构(修改和收集到PROTAC之前的结构),将PROTAC的结构进一步划分为弹头、E3配体和Linker。从文献和PubChem、ChEMBL和BindingDB等数据库中收集了弹头和E3配体的初始结构的生物活性。用同样的方法计算了Linker的物理化学性质以及弹头和E3配体的初始结构。
3
结果
数据库的查询和浏览
为了方便对PROTAC-DB中的数据进行检索,作者提供了检索和浏览工具。在检索工具上,PROTAC-DB可以进行基于文本的检索和基于结构的检索。基于文本的搜索是在整个PROTAC-DB中进行搜索的一种简单方式,只需输入单个术语,如目标名称、化合物名称或ID。对于基于结构的搜索,用户可以在ChemDoodle编辑器中输入SMILES字符串、上传MOL/SDF文件或绘制分子草图。导入自编辑的分子后,可以从三个搜索选项(similarity、substructure或exact)中选择一个。在相似性搜索中,利用类FCFP指纹中的位向量Morgan指纹来计算两个分子之间的Tanimoto相似度。可以选择数据集(PROTAC、弹头、E3配体或Linker)进行搜索。
浏览工具将PROTAC-DB中的数据归纳为两类:“目标浏览”和“化合物浏览”。目标浏览将在“PROTAC”、“弹头”、“E3配体”和“Linker”类别选项卡下显示目标蛋白质的名称列表,点击列表中选定的蛋白质将跳转到与该蛋白质相对应的所有化合物的列表。化合物浏览主要用于可视化“PROTAC”、“弹头”、“E3配体”和“Linker”类标签下所有化合物的二维结构。此外,在“PROTAC”、“弹头”和“E3配体”类标签下还将展示生物活性。
可视化和过滤数据表中的结果
查询或浏览结果显示为数据表,包含2D结构和其他信息,如化合物ID、目标蛋白质和生物活性(图2)。点击该结构的图像可以获得放大的图像。为了帮助用户精细化搜索,PROTAC-DB还包含基于物理化学的过滤工具属性(例如分子量、log P、log S、拓扑极性表面积),包含了搜索结果中每个属性的最小值和最大值。
对于PROTAC,除了二维结构、化合物ID和靶蛋白外,数据表中还显示了生物活性,包括降解能力、结合亲和力和细胞活性。该数据表可以根据生物活动的值进行排序。
对于弹头和E3配体,搜索结果中只显示了初始结构。修改后PROTAC中的结构汇总在其相应的详细信息页面中。此外,数据表中还显示了初始结构的生物活性。同样,也可以根据这些标准对数据表进行排序。
对于Linker,数据表中只显示了2D结构、化合物ID和目标蛋白。结构中的‘R1’和‘R2’分别代表弹头和E3配体的结合位点。
访问化合物的所有数据
如果用户对一个化合物感兴趣,单击结果数据表中的化合物ID将跳转到详细信息页面,其中汇总了有关该化合物的所有数据。
在PROTAC的详细信息页面中,包含四个不同的选项卡,包括概要(summary)、表示(representation)、计算属性(calculated properties)和活性数据(activity data)。
Summary:如图3A所示,summary选项卡显示了PROTAC、弹头、Linker和E3配体的结构。为了方便用户,还增加了相似度搜索工具,以便在数据库中查找该PROTAC的相似化合物。这里的相似性阈值是≥0.80。化合物的MOL和SDF文件也可在其中下载。此外,如果用户对弹头、Linker或E3配体感兴趣,可以点击“详细信息”按钮打开相应的详细信息页面以获取更多信息。在结构之后,还总结了PROTAC使用的化合物ID、名称、靶点蛋白和E3连接酶以及分子量。如果PROTAC具有三元晶体结构,则也会显示PDB代码。
Representation:包含IUPAC名称、InChI、InChI键、正则化SMILES和分子式。
Calculated properties:显示了十个重要的物理化学性质,包括分子量、精确质量、log P、log S、重原子计数、环数、氢键受体、氢键给体计数、旋转键计数和拓扑极性表面积。
Activity Data:如图3B所示,显示了所选化合物的所有生物活性,包括降解能力、结合亲和力和细胞活性。除了数值活性数据外,还显示了WB图以表征PROTAC的降解能力。
对于弹头和E3配体,它们的详细信息页面非常相似,如图4A所示。对基于该弹头的PROTAC,当该弹头靶向多个蛋白质时,用户还可以选择特定目标的PROTAC数据来显示。此外,详细信息页面的表示法、计算属性、活性数据选项卡与PROTAC的类似。External Resources选项卡包括指向外部数据库(如PubChem、ChEMBL和BindingDB)的链接。
关于Linker,summary选项卡包含结构、化合物ID、分子量和用于相似性搜索和下载的按钮。同样,在PROTAC选项卡中,此处总结了使用该Linker的PROTAC,以帮助用户分析结构。同时还提供了基于目标蛋白的过滤工具。此外,其余两个选项卡,包括表示法和计算属性也类似于PROTACs。
参考资料
Weng G, Shen C, Cao D, et al. PROTAC-DB: an online database of PROTACs[J]. Nucleic Acids Research, 2020.
数据库
http://cadd.zju.edu.cn/protacdb/