RDKit:从锌数据库中生成用于聚类分析的指纹

RDKit是一个开源的化学信息学工具包，用于分子建模和药物发现领域。它提供了丰富的功能和算法，可以用于分子描述符计算、分子结构可视化、化学反应预测等任务。

从锌数据库中生成用于聚类分析的指纹是RDKit在化学信息学中的一个应用场景。锌数据库是一个包含数百万个小分子化合物的数据库，用于药物发现和化学研究。指纹是一种将分子结构转化为二进制编码的方法，用于表示分子的结构特征。在聚类分析中，可以使用指纹来衡量分子之间的相似性，从而将相似的分子聚集在一起。

RDKit提供了生成分子指纹的功能，可以根据分子的结构生成不同类型的指纹，如MACCS键指纹、Daylight指纹、Topological Torsion指纹等。这些指纹可以用于聚类分析、相似性搜索、虚拟筛选等任务。

在腾讯云的产品中，与化学信息学相关的产品包括云原生数据库TDSQL、人工智能平台AI Lab等。TDSQL是一种高性能、高可用的云原生数据库，可以用于存储和管理化学信息学数据。AI Lab是腾讯云提供的人工智能开发平台，提供了丰富的机器学习和深度学习工具，可以用于分子描述符计算、指纹生成等任务。

更多关于RDKit和化学信息学的信息，可以参考腾讯云的官方文档和产品介绍页面：

RDKit官方网站：https://www.rdkit.org/
腾讯云TDSQL产品介绍：https://cloud.tencent.com/product/tdsql
腾讯云AI Lab产品介绍：https://cloud.tencent.com/product/ailab

今天给大家介绍来自苏黎世联邦理工学院和耶拿弗里德里希-席勒-耶拿大学团队发表在Nature Methods上的文章，文章提出了一种基于encoder-decoder神经网络的从质谱生成小分子结构的新方法：MSNovelist，它首先使用SIRIUS和CSI：FingerID来分别从质谱中预测出分子的指纹和表达式，然后将其输入到一个基于encoder-decoder的RNN模型来生成分子的SMILES。作者使用来自Global Natural Product Social Molecular Networking网站上的3863个质谱数据集进行评估，MSNovelist重现出了61%的分子结构，这些重现的分子结构都是未在训练集中见过的；并且使用CASMI2016数据集进行了评估，MSNovelist重现了64%的分子结构。最后，本文将MSNovelist应用在苔藓植物质谱数据集上进行验证，结果表明MSNovelist非常适合在分析物类别和新化合物表现不佳的情况下注释质谱对应的分子。

本文转自人机与认知实验室【人工智能某种意义上是辨识区别精度的弥聚过程，因而自然少不了分类与聚类方法】分类是指按照种类、等级或性质分别归类。聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。“物以类聚，人以群分”，在自然科学和社会科学中，存在着大量的分类问题。聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于分类学，但是聚类不等于分类。聚类与分类的不同在于，聚类

数据挖掘分类、聚类算法学习摘要

数据挖掘案例:基于 ReliefF和K-means算法的应用

.NET数据挖掘与机器学习原文：http://www.cnblogs.com/asxinyu/archive/2013/08/29/3289682.html 数据挖掘方法的提出，让人们有能力最终认识数据的真正价值，即蕴藏在数据中的信息和知识。数据挖掘 (DataMiriing)，指的是从大型数据库或数据仓库中提取人们感兴趣的知识，这些知识是隐含的、事先未知的潜在有用信息，数据挖掘是目前国际上，数据库和信息决策领域的最前沿研究方向之一。因此分享一下很久以前做的一个小研究成果。也算是一个简单的数据挖掘处理的例

CNGBdb有哪些实用科学数据库？【时空+单细胞数据库合辑】 | CNGBdb-Question Time

STOMICS DataBase是一个与时空组学主题相关的综合平台，通过对公共数据库的6000多篇文献进行数据挖掘，联合时空数据汇交系统，策划了140个时空组学数据集，收录超1000张时空切片数据。

Nat. Commun. | Metal3D: 一种用于准确预测蛋白质中金属离子位置的通用深度学习框架

今天为大家介绍的是来自Ursula Rothlisberger研究团队的一篇关于金属离子位置预测的论文。金属离子是许多蛋白质的重要辅因子，在酶设计、蛋白质相互作用设计等许多应用中发挥关键作用，它们在生物体中丰富存在，并通过强烈的相互作用与蛋白质结合，并具有良好的催化特性。然而，生物相关金属（如锌）的复杂电子结构限制了金属蛋白质的计算设计。在这项工作中，作者开发了两个工具——基于3D卷积神经网络的Metal3D和仅基于几何标准的Metal1D，以改进蛋白质结构中锌离子的位置预测。与其他当前可用的工具进行比较显示，Metal3D是迄今为止最准确的锌离子位置预测器，其预测结果与实验位置相差在0.70 ± 0.64 Å范围内。Metal3D为每个预测位置输出置信度指标，并可用于在蛋白质数据库中具有较少同源物的蛋白质上工作。Metal3D可以预测全局锌密度，用于计算预测结构的注释，还可以预测每个残基的锌密度，用于蛋白质设计工作流程中。Metal3D目前是针对锌进行训练的，但通过修改训练数据，该框架可以轻松扩展到其他金属。

特征选择算法实战

数据挖掘方法的提出，让人们有能力最终认识数据的真正价值，即蕴藏在数据中的信息和知识。数据挖掘 (DataMiriing)，指的是从大型数据库或数据仓库中提取人们感兴趣的知识，这些知识是隐含的、事先未知的潜在有用信息，数据挖掘是目前国际上，数据库和信息决策领域的最前沿研究方向之一。因此分享一下很久以前做的一个小研究成果。也算是一个简单的数据挖掘处理的例子。 1.数据挖掘与聚类分析概述数据挖掘一般由以下几个步骤： (l)分析问题:源数据数据库必须经过评估确认其是否符合数据挖掘标准。以决定预期结果，也就选择

四种聚类方法之比较

聚类分析是一种重要的人类行为，早在孩提时代，一个人就通过不断改进下意识中的聚类模式来学会如何区分猫狗、动物植物。目前在许多领域都得到了广泛的研究和成功的应用，如用于模式识别、数据分析、图像处理、市场研究、客户分割、Web文档分类等[1]。　聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离。　聚类技术[2]正在蓬勃发展，对此有贡献的研究领域包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等。各种聚类方法也被不断提出和改进，而不同的方法适合于不同类型的数据，因此对各种聚类方法、聚类效果的比较成为值得研究的课题。 1 聚类算法的分类　目前，有大量的聚类算法[3]。而对于具体应用，聚类算法的选择取决于数据的类型、聚类的目的。如果聚类分析被用作描述或探查的工具，可以对同样的数据尝试多种算法，以发现数据可能揭示的结果。　主要的聚类算法可以划分为如下几类：划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法[4-6]。　每一类中都存在着得到广泛应用的算法，例如：划分方法中的k-means[7]聚类算法、层次方法中的凝聚型层次聚类算法[8]、基于模型方法中的神经网络[9]聚类算法等。　目前,聚类问题的研究不仅仅局限于上述的硬聚类，即每一个数据只能被归为一类，模糊聚类[10]也是聚类分析中研究较为广泛的一个分支。模糊聚类通过隶属函数来确定每个数据隶属于各个簇的程度，而不是将一个数据对象硬性地归类到某一簇中。目前已有很多关于模糊聚类的算法被提出，如著名的FCM算法等。　本文主要对k-means聚类算法、凝聚型层次聚类算法、神经网络聚类算法之SOM,以及模糊聚类的FCM算法通过通用测试数据集进行聚类效果的比较和分析。 2 四种常用聚类算法研究 2.1 k-means聚类算法　k-means是划分方法中较经典的聚类算法之一。由于该算法的效率高，所以在对大规模数据进行聚类时被广泛应用。目前，许多算法均围绕着该算法进行扩展和改进。　k-means算法以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。k-means算法的处理过程如下：首先，随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇;然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。通常，采用平方误差准则，其定义如下：

1.数据挖掘与聚类分析概述数据挖掘一般由以下几个步骤： (l)分析问题:源数据数据库必须经过评估确认其是否符合数据挖掘标准。以决定预期结果，也就选择了这项工作的最优算法。 (2)提取、清洗和校验数据:提取的数据放在一个结构上与数据模型兼容的数据库中。以统一的格式清洗那些不一致、不兼容的数据。一旦提取和清理数据后，浏览所创建的模型，以确保所有的数据都已经存在并且完整。 (3)创建和调试模型:将算法应用于模型后产生一个结构。浏览所产生的结构中数据，确认它对于源数据中“事实”的准确代表性，这是很重要的一点。虽然

一、数据挖掘技术的基本概念随着计算机技术的发展，各行各业都开始采用计算机及相应的信息技术进行管理和运营，这使得企业生成、收集、存贮和处理数据的能力大大提高，数据量与日俱增。企业数据实际上是企业的经验积累，当其积累到一定程度时，必然会反映出规律性的东西；对企业来，堆积如山的数据无异于一个巨大的宝库。在这样的背景下，人们迫切需要新一代的计算技术和工具来开采数据库中蕴藏的宝藏，使其成为有用的知识，指导企业的技术决策和经营决策，使企业在竞争中立于不败之地。另一方面，近十余年来，计算机和信息技术也有了长足的进展，产

011

75个每个人都应该知道的大数据术语

在第一篇文章中介绍了以下术语：算法，分析，描述性分析，规定分析，预测分析，批处理，Cassandra，云计算，集群计算，黑暗数据，数据湖，数据挖掘，数据科学家，分布式文件系统，ETL，Hadoop，内存计算，IOT，机器学习，Mapreduce，NoSQL，R，Spark，流处理，结构化。非结构化数据。现在我们来看看还有50个更大的数据条款。 Apache软件基金会（ASF）提供了许多Big Data开源项目，目前有350多个项目。我可以花一整天的时间来解释这些项目，而不是选择几个热门词汇。 Apache

今天为大家介绍的是来自Kamal Choudhary团队的一篇论文。在这项工作中，作者介绍了ChemNLP库，它可用于以下方面：（1）整理材料和化学文献的开放访问数据集，开发和比较传统机器学习、transformer和图神经网络模型，用于（2）对文本进行分类和聚类，（3）进行大规模文本挖掘的命名实体识别，（4）生成摘要以从摘要中生成文章标题，（5）通过标题生成文本以建议摘要，（6）与密度泛函理论数据集集成，以识别潜在的候选材料，如超导体，以及（7）开发用于文本和参考查询的网络界面。作者主要使用公开可用的arXiv和PubChem数据集，但这些工具也可以用于其他数据集。此外，随着新模型的开发，它们可以轻松集成到该库中。

J Cheminform｜使用具有自适应训练数据的GANs搜索新分子

今天给大家介绍的是美国橡树岭国家实验室的Andrew E. Blanchard等人于2021.2.23发表在Journal of Cheminformatics上的文章Using GANs with adaptive training data to search for new molecules。药物发现的过程涉及到对所有可能的化合物的空间进行搜索，生成对抗网络(GAN)为探索化学空间和优化已知化合物提供了一个有力工具。然而，训练GANs的标准方法可能导致模式崩溃，其中生成器主要产生与训练数据的一小部分密切相关的样本。相反，寻找新化合物需要超越原始数据的探索。在本文中，作者提出了一种训练GANS的方法，它促进增量探索，并利用遗传算法的概念限制模式崩溃的影响。在此方法中，来自生成器的有效样本被用来替换来自训练数据的样本。在替换过程中，作者考虑随机和引导选择以及重组。通过跟踪训练过程中产生的新化合物的数量，结果表明，对训练数据的更新大大优于传统的方法，增加了GANs在药物发现中的潜在应用。

多组学在线分析工具

10大数据挖掘算法及其简介

我希望你能把这篇文章作为一个跳板，学习更多关于数据挖掘的知识。算法如下: 1. C4.5 2. k-means 3. 支持向量机 4. Apriori 5. EM 6. PageRank 7. AdaBoost 8. kNN 9. Naive Bayes 10. CART 1.C4.5 C4.5以决策树的形式构造了一个分类器。为了做到这一点，C4.5给出了一组已经分类的数据。分类器是数据挖掘中的一个工具，它取一堆数据来表示我们想要分类的东西，并试图预测新数据属于哪个类。例如，假设在患者数据集中。我们知道

013

10大数据挖掘算法及其简介

AiTechYun 编辑：xiangxiaoshan 我希望你能把这篇文章作为一个跳板，学习更多关于数据挖掘的知识。算法如下: 1. C4.5 2. k-means 3. 支持向量机 4. Apriori 5. EM 6. PageRank 7. AdaBoost 8. kNN 9. Naive Bayes 10. CART 1.C4.5 C4.5以决策树的形式构造了一个分类器。为了做到这一点，C4.5给出了一组已经分类的数据。分类器是数据挖掘中的一个工具，它取一堆数据来表示我们想要分类的东西，并试图预测

聚类小分子数据集(基于RDKit的Python脚本)

聚类是一种有价值的化学信息学技术，用于将大型化合物数据集合细分为单个小组相似化合物。其中一个优点是处理非常大的小分子数据集时特别有用。通常用于分析高通量筛选结果、虚拟筛选或对接研究的分析。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

RDKit:从锌数据库中生成用于聚类分析的指纹

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐