首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

RDKit:从锌数据库中生成用于聚类分析的指纹

RDKit是一个开源的化学信息学工具包,用于分子建模和药物发现领域。它提供了丰富的功能和算法,可以用于分子描述符计算、分子结构可视化、化学反应预测等任务。

从锌数据库中生成用于聚类分析的指纹是RDKit在化学信息学中的一个应用场景。锌数据库是一个包含数百万个小分子化合物的数据库,用于药物发现和化学研究。指纹是一种将分子结构转化为二进制编码的方法,用于表示分子的结构特征。在聚类分析中,可以使用指纹来衡量分子之间的相似性,从而将相似的分子聚集在一起。

RDKit提供了生成分子指纹的功能,可以根据分子的结构生成不同类型的指纹,如MACCS键指纹、Daylight指纹、Topological Torsion指纹等。这些指纹可以用于聚类分析、相似性搜索、虚拟筛选等任务。

在腾讯云的产品中,与化学信息学相关的产品包括云原生数据库TDSQL、人工智能平台AI Lab等。TDSQL是一种高性能、高可用的云原生数据库,可以用于存储和管理化学信息学数据。AI Lab是腾讯云提供的人工智能开发平台,提供了丰富的机器学习和深度学习工具,可以用于分子描述符计算、指纹生成等任务。

更多关于RDKit和化学信息学的信息,可以参考腾讯云的官方文档和产品介绍页面:

  • RDKit官方网站:https://www.rdkit.org/
  • 腾讯云TDSQL产品介绍:https://cloud.tencent.com/product/tdsql
  • 腾讯云AI Lab产品介绍:https://cloud.tencent.com/product/ailab
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

RDKit | 化学信息学与AI(专辑)

内容涵盖了基于RDKitPython3分子读写、化合物分子指纹和分子描述符计算、化合物2D/2D比对、化合物相似性搜索、化合物骨架分析和亚结构搜索、RMSD计算与构象生成优化、分子相似图与聚类分析...1 RDKit简介 开源化学信息学与机器学习工具包 RDKit在2000-2006年期间在Rational Discovery开发和使用,用于构建吸收、分布、代谢、代谢、毒性和生物活性预测模型。...2 RDKit特点 商业友好型BSD许可证 核心数据结构和算法由C ++编写 使用Boost.Python生成Python 3.x包装器 用SWIG生成Java和C#包装器 2D和3D分子操作 机器学习与深度学习分子指纹和分子描述符生成...PostgreSQL分子数据库集成 KNIME化学信息学Nod ?...RDKit分子指纹与描述符计算 分子指纹 RDKit:化学指纹(Chemical Fingerprinting) https://blog.csdn.net/u012325865/article/details

2.2K61

Methods | MSNovelist:质谱生成小分子结构新方法

但是这种方法存在结构数量组合爆炸问题,然而用于靶向从头分子生成深度学习模型不存在这样问题,可以查询大量新化合物化学空间。...encoder-decoderRNN模型,在分子表达式约束下,RNN模型可以根据指纹特征向量从头生成分子SMILES表达式;最后,使用修改Platt分数计算生成分子和真实质谱指纹之间得分作为损失来优化模型参数...不但可以被RDKIT解析且可以和分子式匹配样本比率; 已修改Platt分数: 生成SMILES与真实质谱指纹计算出已修改Platt分数,衡量生成候选者与真实指纹接近程度; 相似度: 预测出排名最高候选者...图3: 在苔藓植物数据集上对比结果 图4: 多酚化合物(m/z为381.1020,分子式为C21H16O7)预测结果可视化 5 总结和讨论 MSNovelist表明质谱从头生成分子结构而不依赖于结构数据库是可能...,虽然深度学习模型已经被用于质谱数据中生成候选分子结构,但是MSNovelist能够整合编码结构信息到指纹,并且MSNovelist为超过一半MS2质谱提出了合理分子结构。

57630
  • 开源化学信息学工具包(Open Access Cheminformatics Toolkits)

    ;;2D图表编辑和生成;3D几何图形生成;使用精确结构和SMARTS类查询进行子结构搜索;定量构效关系分子描述子计算(QSAR)研究;指纹计算;国际化学标识符(InChI)支持;在生物信息学领域,功能包括同源配体检测...RDKit 官网:http://www.rdkit.org/ RDKit在2000-2006年期间在Rational Discovery开发和使用,用于构建吸收、分布、代谢、代谢、毒性和生物活性预测模型...RDKit提供各种功能,如不同化学I/O格式,包括SMILES/SMARTS,结构数据格式(SDF),Thor数据树(TDT),Sybyl线符号(SLN),Corina mol2和蛋白质数据库(PDB...其中一些功能和指纹是使用Open Babel和RDKit派生。使用MOPAC,ChemoPy计算大量3D分子描述符。...该软件包第一个版本于2008年出版。它包含用于化合物之间二维结构相似性比较功能,针对化合物数据库相似性搜索,用于聚类整个化合物库功能,以及聚类结果可视化。

    2.2K31

    RDKit | 基于不同描述符和指纹机器学习模型预测logP

    log P(油水分配系数)是确定化合物是否适合用作药物最重要属性之一。当前,用于计算机预测log P大多数可用回归模型都在实验测得log P值(PHYSPROP数据库)。...但是,该数据库大多数化合物并不高度代表药物样化学空间。不幸是,当前缺乏可用于训练更好预测工具公开可用实验log P数据集。...因此,将首先尝试使用上面生成RDKit物理描述符训练我们自己简单logP模型。...在许多可用方法,将测试Morgan指纹(ECFP4和ECFP6),RDKFingerprints和拓扑药效团指纹(TPAPF和TPATF),脚本可从MayaChemTools获得。...总体而言,TPATF指纹性能最好,甚至胜过简单描述符模型。在所有回归方法,默认随机森林性能最佳,尽管在对模型参数进行一些优化后,这种可能性很可能会改变。

    4.2K30

    基于AI新药研发!⛵

    化学指纹生成 化学指纹通常用来做结构检索和相似度检索,如下图所示,最终指纹向量表征为01串,每一位(0/1)代表化学结构例如指定元素,分子片段等是否存在。...图片 MolSearch 这个环节使用了工具 RDKit ,它会生成 RDKit fingerprint,底层算法原始是:分析从一个原子开始直至到达指定数量键路径(path,通常为线性)上所有的分子片段...图例是一个单个起始原子出发片段和比特位,最终完整指纹生成,是对分子每个原子进行这个操作后结果。...可以指定 fpSize 调整生成向量维度,这个过程对于每个分子都适用,我们把最终生成向量导入 Milvus 以实现后续检索,完整指纹向量生成过程示例代码如下: from rdkit import...用于寻找与输入参考分子比较相似的分子。 子结构检索。检测一个分子结构是否为另一个分子子结构。 超结构检索。检测一个分子结构是否为另一个分子超结构。

    68381

    Milvus 赋能 AI 药物研发

    | 系统概览 MolSearch 系统运用虚拟化合物筛选技术,首先通过 RDKit 工具[3]将化合物分子化学式转换为化学式指纹 (Chemical Fingerprint),就是一组特征向量,然后通过计算这些向量之间距离来分析化合物分子之间相似性...化学指纹生成 化学指纹通常用来做结构检索和相似度检索,如下图所示,指纹是 (1/0) 位表示有序列表,每一位代表化学结构例如指定元素,分子片段等存在。...MolSearch 系统利用 RDKit 工具生成 RDKit fingerprint,该算法分析从一个原子开始直至到达指定数量键路径(path,通常为线性)上所有的分子片段,然后对每一个路径进行哈希...(hash)产生指纹(fingerprint),如下图中展示了NH2(已圈出)开始一直到 6 个长度所有路径,然后将每个路径散列为二进制位。...此类指纹用于任意一个分子,并可以指定 fpSize 调整其向量维度,最终生成 vectors 可以导入 Milvus 并检索。

    1K10

    . | 增强指纹图注意力网络(FinGAT)模型用于抗生素发现

    它利用了两种类型分子表示,即二维指纹和基于图表示。对于二维指纹,作者考虑使用2048位Morgan指纹(MorganFP),它可以分子SMILES序列生成。...对于每个分子,根据RDKit分子图使用SMILES序列生成节点特征矩阵和邻接矩阵。需要注意是,边表示分子共价键。邻接矩阵指示了分子图中任意两个原子是否共享一个共价键。...每个节点代表一个原子,节点特征是基于其对应基于原子属性使用RDKit构建。通过将表1所有基于原子属性组合起来,形成了一个大小为133节点特征。...类似地,边特征矩阵每一行是一个大小为4向量,包含了键类型、共轭性、环成员资格和立体化学等信息。这些信息也是RDKit中计算得出。...在FinGAT模型,作者提出了基于SMILESMorgan指纹和基于GAT结构相结合方法,用于抗生素活性预测。在指纹研究,作者首先使用梯度提升树比较了八种2D指纹性能。

    34010

    Knowledge-based BERT: 像计算化学家一样提取分子特征方法

    此外,由K-BERT 生成通用指纹 K-BERT-FP 在 15个药物数据集上表现出与 MACCS 相当预测能力。...预训练任务1-原子特征预测(图1A):对RDKit计算所得分子每个重原子原子特征进行预测。...使用RDKit 计算 CHEMBL 每个分子一个canonical SMILES和4个随机生成 SMILES,用于预训练任务3。...CHIRAL1每个分子只有一个四面体中心,根据中心手性分为R和S。在本研究,共有204778个分子用于进一步预训练,使得K-BERT能学习到手性信息。...此外,作者以分子‘C=CCC(O)CC(C)(C)C’(不在预训练数据集中)为例,通过RDkit随机生成十个SMILES字符串,并对分子不同原子embedding进行了t-SNE可视化,结果如图2所示

    98931

    JCIM|VenomPred2.0:基于AI药物分子毒性预测工具

    对于科学社区实际有用是能够结构角度解释和解密机器学习模型预测,直接可视化分析分子哪些部分可能具有毒性/不希望特性。...具体来说,计算了Morgan、RDKit和PubChem化学指纹(FPs)。...可靠性 对在开发VenomPred中生成模型进行了性能分析,观察到基于PubChem、RDKit和Morgan指纹机器学习模型在统计上表现优于使用LINGO和Pharm2D指纹其他模型。...图2显示了基于相同指纹类型五组模型在Matthew相关系数(MCC)方面的排名分布。如图所示,基于PubChem、RDKit和Morgan指纹模型获得MCC位排名显著高于其他两组模型。...、RDKit和Morgan指纹模型平均性能似乎明显高于其他模型。

    53410

    JCIM|大型语言模型作为分子设计引擎

    数据集与表征学习 本研究选取了ZINC数据库约130万个小分子作为数据集,这些分子具有特定化学特性,如含氮以及至少一个氢键供体或受体,且分子量低于200道尔顿。...这些母分子SMILES(简化分子输入行输入系统)字符串被用于生成其变体,并通过RDKit化学信息学工具包验证生成分子有效性及唯一性。...谷本相似度:用于量化母分子与生成分子之间结构相似度,通过计算它们摩根指纹之间Tanimoto相似度得出。...这个查看器已经包含在Zenodo软件库,可供研究人员免费使用和下载。 分子指纹潜空间 为量化LLM修饰分子行为,作者利用摩根指纹生成分子潜空间嵌入,并用三维坐标z描述分子特征。...图3 用基于计数Morgan指纹对ZINC数据库小分子进行特征化并用PCA嵌入得到潜在空间。

    8710

    . | 利用条件循环神经网络生成特定性质分子

    实验表明输入条件可操纵循环神经网络生成目标化学空间中分子,例如对特定蛋白质结构有生物活性分子。 2 方法 2.1 数据集 作者使用两个开源分子数据库:ChEMBL和ExCAPE-DB。...其中ChEMBL被用于训练条件循环神经网络,而ExCAPE-DB中靶向多巴胺受体(DRD2)分子被用于训练基于支持向量机QSAR分类模型进而检验生成模型能否通过输入条件来生成对DRD2有生物活性分子...(B)基于指纹模型(FPB)接受由RDKIT计算2048bit Morgan指纹向量。...图3 DRD2测试集中随机挑选两个分子作为conditional seed(中心),以其结构指纹为条件,利用FPB模型生成分子(虚线内);以其物理化学描述符为条件,利用PCB模型生成分子(虚线外)。...图3展示了DRD2测试集中随机挑选活性分子作为conditional seed,利用FPB和PCB模型生成分子。

    63651

    DGL | 基于深度学习框架DGL分子图初探

    DGL与化学 个人关注是药物模型,用于分子性质预测,生成和优化各种模型,DGL 致力于将GNN(图形神经网络)应用于化学领域,并且作为分子生成模型,DGMG(图形深度生成模型)和JT-VAE(连接树变分自动编码器...化学家开发了一种规则,将分子转换为二进制字符串,其中每个位都表明存在或不存在特定子结构。指纹发展使分子比较容易得多。以前机器学习方法主要基于分子指纹来开发。...图神经网络使数据驱动原子、键和分子图拓扑结构之外分子表示成为可能,这可以看作是学习指纹。...它们可用于分子生成和优化。 ?...基于深度学习框架DGL分子图初探 导入库 import osimport numpy as npimport pandas as pdfrom rdkit import Chemfrom rdkit.Chem

    1.2K40

    JCIM|深度学习用于血液毒性预测和血液毒性化合物结构分析

    然后,作者分析了模型学习到原子权重热图和SHAP值,并用于解释模型,以及训练模型总体水平和个体水平错误分类分子。...8.200 bitRDKit描述符(RDKit-d),一组构象无关描述符,可以是分子符号表示获得实验描述符或理论描述符。...9.RDKit指纹(the RDKit fingerprint, RDKit-f),1024 bit哈希子结构或路径指纹。...对于Murcko骨架,超过81%骨架含有不超过10个分子。对于碳骨架,约64%含有不超过10个分子。血液毒性数据中提取频率最高150个支架,并用于生成相关云图,以直观地说明数据多样性。...相似度AD和RF模型中性能最好结构指纹RDKit指纹

    1.2K10

    RDKit | 基于Murcko骨架聚类化合物库

    化合物多样性评估 一种方法是使用合适指纹技术将化合物矢量化并评估他们之间距离。这种方法经常被使用,但是对于人类很难直观地理解化合物之间距离。...基于Murcko骨架,分子大致聚集在化合物骨架,并且每个簇顶部化合物都作为候选化合物。此方法非常符合人类直觉,因此可以预期人将通过查看候选化合物列表来自动缩小化合物范围。...Murcko骨架 Murcko骨架通过从化合物中去除多余侧链并仅表达连接它们“环结构”和“连接子”,可以执行更简单化合物表达。 ?...Murcko骨架生成 基于Murcko骨架聚类化合物库 导入库 import numpy as np from rdkit import Chem from rdkit.Chem import Draw...from rdkit.Chem.Scaffolds import MurckoScaffold from rdkit.Chem.Draw import IPythonConsole 载入数据 sdfloader

    2.5K50

    榕树集--新型抗生素发现

    数据处理 作者使用Chemprop,进行图神经网络训练,以建立一个基于化学结构二元分类预测模型。 首先使用Rdkit基于输入SMILES格式生成基于图分子表示。...基于Rdkit可以计算特征(Supplementary Data 1),为分子每个原子和键生成一个特征向量: 原子特征包括原子序数、每个原子键数、正电荷、手性、与之相连氢原子数、杂化化、芳香性和原子质量...并且与其余没有Rdkit特征模型以及基于Morgan分子指纹模型相比,使用ChemProp构建基于Rdkit特征模型表现最好。...作者应用了基于Morgan指纹t-SNE 分析并将分子进行可视化。可以看到作者筛选出药物,多个hits与训练集中活性化合物不同,证明作者所建立模型,筛选到了未知化学空间。...讨论: 抗生素耐药危机,1962年氟喹诺酮类抗生素引入后38年内变得明显,直到2000年氧唑烷酮类抗生素引入。

    19610

    RDKit | 通过评估合成难度筛选化合物

    药物研发合成难度评估重要性 药物发现研究主要候选化合物 预期活性值 结构新颖,易于申请专利 如果化合物是从商业产品或内部数据库获得,则“合成潜力”得到保证。...在这种情况下,如果优先考虑其他指标(例如活性)并在最后考虑“合成难易程度”,则倾向于选择具有相似化学型和骨架化合物。为了防止这种情况,期望筛选初期就通过均等地处理“合成可及性”来评价化合物。...这是一种判断合成难度技术。后者可以说是更可靠指标,但是计算量很大,并且反应数据库维护也很困难。 SA Score SA Score是根据简洁规则设计,可以快速评估大量化合物。...具体地,基于PubChem获得100万种化合物ECFP4指纹频率进行加权。由出现频率加权然后相加子结构为下式“ fragmentScore” ?...---- 导入库 from rdkit import rdBase, Chem from rdkit.Chem import AllChem, Draw, PandasTools from rdkit.Chem.Draw

    1.3K40

    RDKit | 基于Ward方法对化合物进行分层聚类

    导入库 from rdkit import rdBase, Chem, DataStructsfrom rdkit.Chem import AllChemfrom rdkit.Chem.Draw import...np.random.seed(1234)np.random.shuffle(mols_free) 基于scikit-learn通过Ward方法进行聚类 Morgan指纹生成和距离矩阵计算 创建指纹作为聚类输入数据...因此,有必要在保留数据集特征同时将维数减小为我们可以理解形式。最常用于此目的方法称为“ 主成分分析(PCA) ”。...主成分分析累积贡献 通过将数据多维数据转换为具有大量信息轴来实现主成分分析。在尺寸减小过程具有大量信息轴中进行选择。在此过程,最初沿轴信息量最少信息会丢失。...随着主要成分数量增加,累积贡献率逐渐增加。这种情况下,用于可视化前两个组件只能解释大约37%信息量。换句话说,如果主要使用剩余60%信息进行聚类,则无法在2D平面上将其分离。

    1.7K60
    领券