首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

RDKit:从锌数据库中生成用于聚类分析的指纹

RDKit是一个开源的化学信息学工具包,用于分子建模和药物发现领域。它提供了丰富的功能和算法,可以用于分子描述符计算、分子结构可视化、化学反应预测等任务。

从锌数据库中生成用于聚类分析的指纹是RDKit在化学信息学中的一个应用场景。锌数据库是一个包含数百万个小分子化合物的数据库,用于药物发现和化学研究。指纹是一种将分子结构转化为二进制编码的方法,用于表示分子的结构特征。在聚类分析中,可以使用指纹来衡量分子之间的相似性,从而将相似的分子聚集在一起。

RDKit提供了生成分子指纹的功能,可以根据分子的结构生成不同类型的指纹,如MACCS键指纹、Daylight指纹、Topological Torsion指纹等。这些指纹可以用于聚类分析、相似性搜索、虚拟筛选等任务。

在腾讯云的产品中,与化学信息学相关的产品包括云原生数据库TDSQL、人工智能平台AI Lab等。TDSQL是一种高性能、高可用的云原生数据库,可以用于存储和管理化学信息学数据。AI Lab是腾讯云提供的人工智能开发平台,提供了丰富的机器学习和深度学习工具,可以用于分子描述符计算、指纹生成等任务。

更多关于RDKit和化学信息学的信息,可以参考腾讯云的官方文档和产品介绍页面:

  • RDKit官方网站:https://www.rdkit.org/
  • 腾讯云TDSQL产品介绍:https://cloud.tencent.com/product/tdsql
  • 腾讯云AI Lab产品介绍:https://cloud.tencent.com/product/ailab
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

  • Nat. Methods | MSNovelist:从质谱生成小分子结构的新方法

    今天给大家介绍来自苏黎世联邦理工学院和耶拿弗里德里希-席勒-耶拿大学团队发表在Nature Methods上的文章,文章提出了一种基于encoder-decoder神经网络的从质谱生成小分子结构的新方法:MSNovelist,它首先使用SIRIUS和CSI:FingerID来分别从质谱中预测出分子的指纹和表达式,然后将其输入到一个基于encoder-decoder的RNN模型来生成分子的SMILES。作者使用来自Global Natural Product Social Molecular Networking网站上的3863个质谱数据集进行评估,MSNovelist重现出了61%的分子结构,这些重现的分子结构都是未在训练集中见过的;并且使用CASMI2016数据集进行了评估,MSNovelist重现了64%的分子结构。最后,本文将MSNovelist应用在苔藓植物质谱数据集上进行验证,结果表明MSNovelist非常适合在分析物类别和新化合物表现不佳的情况下注释质谱对应的分子。

    03

    识辨 | 什么是分类?什么是聚类?

    本文转自人机与认知实验室 【人工智能某种意义上是辨识区别精度的弥聚过程,因而自然少不了分类与聚类方法】 分类是指按照种类、等级或性质分别归类。 聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类

    05

    J. Chem. Inf. Model. | 增强指纹图注意力网络(FinGAT)模型用于抗生素发现

    今天为大家介绍的是来自JunJie Wee和Kelin Xia团队的一篇关于抗生素发现的论文。人工智能(AI)技术在改变抗生素发现行业方面具有巨大潜力。高效和有效的分子特征化是实现高准确性学习用于抗生素发现的模型的关键。作者提出了一种通过结合基于序列的2D指纹和基于结构的图表示的指纹增强的图注意力网络(FinGAT)模型。在特征学习过程中,序列信息转化为指纹向量,结构信息通过GAT模块编码为另一个向量。这两个向量被连接并输入到多层感知机(MLP)进行抗生素活性分类。模型经过广泛的测试并与现有模型进行比较。研究发现, FinGAT在抗生素发现中可以胜过各种最先进的GNN模型。

    01

    Nat. Commun. | Metal3D: 一种用于准确预测蛋白质中金属离子位置的通用深度学习框架

    今天为大家介绍的是来自Ursula Rothlisberger研究团队的一篇关于金属离子位置预测的论文。金属离子是许多蛋白质的重要辅因子,在酶设计、蛋白质相互作用设计等许多应用中发挥关键作用,它们在生物体中丰富存在,并通过强烈的相互作用与蛋白质结合,并具有良好的催化特性。然而,生物相关金属(如锌)的复杂电子结构限制了金属蛋白质的计算设计。在这项工作中,作者开发了两个工具——基于3D卷积神经网络的Metal3D和仅基于几何标准的Metal1D,以改进蛋白质结构中锌离子的位置预测。与其他当前可用的工具进行比较显示,Metal3D是迄今为止最准确的锌离子位置预测器,其预测结果与实验位置相差在0.70 ± 0.64 Å范围内。Metal3D为每个预测位置输出置信度指标,并可用于在蛋白质数据库中具有较少同源物的蛋白质上工作。Metal3D可以预测全局锌密度,用于计算预测结构的注释,还可以预测每个残基的锌密度,用于蛋白质设计工作流程中。Metal3D目前是针对锌进行训练的,但通过修改训练数据,该框架可以轻松扩展到其他金属。

    02

    四种聚类方法之比较

    聚类分析是一种重要的人类行为,早在孩提时代,一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用,如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等[1]。  聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。  聚类技术[2]正在蓬勃发展,对此有贡献的研究领域包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等。各种聚类方法也被不断提出和改进,而不同的方法适合于不同类型的数据,因此对各种聚类方法、聚类效果的比较成为值得研究的课题。 1 聚类算法的分类  目前,有大量的聚类算法[3]。而对于具体应用,聚类算法的选择取决于数据的类型、聚类的目的。如果聚类分析被用作描述或探查的工具,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。  主要的聚类算法可以划分为如下几类:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法[4-6]。  每一类中都存在着得到广泛应用的算法,例如:划分方法中的k-means[7]聚类算法、层次方法中的凝聚型层次聚类算法[8]、基于模型方法中的神经网络[9]聚类算法等。  目前,聚类问题的研究不仅仅局限于上述的硬聚类,即每一个数据只能被归为一类,模糊聚类[10]也是聚类分析中研究较为广泛的一个分支。模糊聚类通过隶 属函数来确定每个数据隶属于各个簇的程度,而不是将一个数据对象硬性地归类到某一簇中。目前已有很多关于模糊聚类的算法被提出,如著名的FCM算法等。  本文主要对k-means聚类算法、凝聚型层次聚类算法、神经网络聚类算法之SOM,以及模糊聚类的FCM算法通过通用测试数据集进行聚类效果的比较和分析。 2 四种常用聚类算法研究 2.1 k-means聚类算法  k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高,所以在对大规模数据进行聚类时被广泛应用。目前,许多算法均围绕着该算法进行扩展和改进。  k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。k-means算法的处理过程如下:首先,随机地 选择k个对象,每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇;然后重新计算每个簇的平均值。 这个过程不断重复,直到准则函数收敛。通常,采用平方误差准则,其定义如下:

    01

    【数据挖掘】写给新人数据挖掘基础知识介绍

    一、数据挖掘技术的基本概念 随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数据量与日俱增。企业数据实际上是企业的经验积累,当其积累到一定程度时,必然会反映出规律性的东西;对企业来,堆积如山的数据无异于一个巨大的宝库。在这样的背景下,人们迫切需要新一代的计算技术和工具来开采数据库中蕴藏的宝藏,使其成为有用的知识,指导企业的技术决策和经营决策,使企业在竞争中立于不败之地。另一方面,近十余年来,计算机和信息技术也有了长足的进展,产

    011

    【学习】写给新人数据挖掘基础知识介绍

    一、数据挖掘技术的基本概念 随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数据量与日俱增。企业数据实际上是企业的经验积累,当其积累到一定程度时,必然会反映出规律性的东西;对企业来,堆积如山的数据无异于一个巨大的宝库。在这样的背景下,人们迫切需要新一代的计算技术和工具来开采数据库中蕴藏的宝藏,使其成为有用的知识,指导企业的技术决策和经营决策,使企业在竞争中立于不败之地。另一方面,近十余年来,计算机和信息技术也有了长足的进展,产

    06

    J. Phys. Chem. C | 基于自然语言处理的材料化学文本数据库

    今天为大家介绍的是来自Kamal Choudhary团队的一篇论文。在这项工作中,作者介绍了ChemNLP库,它可用于以下方面:(1)整理材料和化学文献的开放访问数据集,开发和比较传统机器学习、transformer和图神经网络模型,用于(2)对文本进行分类和聚类,(3)进行大规模文本挖掘的命名实体识别,(4)生成摘要以从摘要中生成文章标题,(5)通过标题生成文本以建议摘要,(6)与密度泛函理论数据集集成,以识别潜在的候选材料,如超导体,以及(7)开发用于文本和参考查询的网络界面。作者主要使用公开可用的arXiv和PubChem数据集,但这些工具也可以用于其他数据集。此外,随着新模型的开发,它们可以轻松集成到该库中。

    03

    J Cheminform|使用具有自适应训练数据的GANs搜索新分子

    今天给大家介绍的是美国橡树岭国家实验室的Andrew E. Blanchard等人于2021.2.23发表在Journal of Cheminformatics上的文章Using GANs with adaptive training data to search for new molecules。药物发现的过程涉及到对所有可能的化合物的空间进行搜索,生成对抗网络(GAN)为探索化学空间和优化已知化合物提供了一个有力工具。然而,训练GANs的标准方法可能导致模式崩溃,其中生成器主要产生与训练数据的一小部分密切相关的样本。相反,寻找新化合物需要超越原始数据的探索。在本文中,作者提出了一种训练GANS的方法,它促进增量探索,并利用遗传算法的概念限制模式崩溃的影响。在此方法中,来自生成器的有效样本被用来替换来自训练数据的样本。在替换过程中,作者考虑随机和引导选择以及重组。通过跟踪训练过程中产生的新化合物的数量,结果表明,对训练数据的更新大大优于传统的方法,增加了GANs在药物发现中的潜在应用。

    03
    领券