首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

使用rdkit或其他python模块将微笑转换为化学名称或IUPAC名称

要将SMILES(Simplified Molecular Input Line Entry System)转换为化学名称或IUPAC名称,您可以使用RDKit库,它是一个广泛用于化学信息学的开源Python库

首先,请确保您已安装RDKit库。如果尚未安装,请按照以下步骤操作:

  1. 安装RDKit的依赖项:numpy, pandas, matplotlib, scikit-learn, rdkit等。这可以通过运行以下命令来完成: conda create -n my-rdkit-env rdkit numpy pandas matplotlib scikit-learn conda activate my-rdkit-env
  2. 使用以下命令从RDKit官方网站上下载并安装RDKit的二进制文件: conda install -c conda-forge rdkit
  3. 在Python脚本中导入RDKit库,并定义一个函数来将SMILES转换为IUPAC名称: from rdkit import Chem from rdkit.Chem import AllChem def smiles_to_iupac_name(smiles: str) -> str: mol = Chem.MolFromSmiles(smiles) iupac_name = Chem.MolToIUPACName(mol) return iupac_name
  4. 调用函数并传入SMILES字符串: smiles = "CC(C)C1=CC=C(C=C1)O" iupac_name = smiles_to_iupac_name(smiles) print(iupac_name) 输出结果将会是:“2-Propanol”。

在此示例中,我们使用了RDKit库中的Chem.MolFromSmiles函数将SMILES字符串转换为分子对象,然后使用Chem.MolToIUPACName函数将分子对象转换为IUPAC名称。如果您需要化学名称而不是IUPAC名称,您可能需要使用另一个库,例如pyopenbabel,它可以将化学信息从一个格式转换为另一个格式。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

J Pharm Anal|化学自然语言引导基于扩散的生成式类药分子编辑

该研究探索了扩散模型的预训练生成性能能否迁移至化学自然语言领域。研究人员开发的DiffIUPAC是一种可控的分子编辑扩散模型,能够将IUPAC名称转换为SMILES字符串。...研究人员构建了一个基于规则的IUPAC分词器,将IUPAC名称转换为表示片段、官能团、子结构、立体化学和分子的词元。...为了将扩散模型应用于IUPAC名称到SMILES字符串的设置中,使用编码器-解码器Transformer架构扩展了SeqDiffuSeq文本扩散模型。...图5 (A)输入屏蔽的国际纯粹与应用化学联合会(IUPAC)名称Ziftomenib以生成接头(突出显示IUPAC名称中屏蔽的接头,替换为“*”)。...未来,将更多维的数据和方法(如强化学习)结合起来,有望满足多目标药物优化和设计需求。结合3D/4D分子结构数据将实现从IUPAC名称到3D结构的分子或材料设计。

13110

. | 化学自然语言引导基于扩散的生成式类药分子编辑

该研究探索了扩散模型的预训练生成性能能否迁移至化学自然语言领域。研究人员开发的DiffIUPAC是一种可控的分子编辑扩散模型,能够将IUPAC名称转换为SMILES字符串。...研究人员构建了一个基于规则的IUPAC分词器,将IUPAC名称转换为表示片段、官能团、子结构、立体化学和分子的词元。...为了将扩散模型应用于IUPAC名称到SMILES字符串的设置中,使用编码器-解码器Transformer架构扩展了SeqDiffuSeq文本扩散模型。...C5T5首先生成新的IUPAC名称,然后将其转换为SMILES字符串。...未来,将更多维的数据和方法(如强化学习)结合起来,有望满足多目标药物优化和设计需求。结合3D/4D分子结构数据将实现从IUPAC名称到3D结构的分子或材料设计。

8910
  • 科研人再也不担心有机物命名不规范了:基于Transformer的开源工具自动起名

    研究人员构建了一个基于 Transformer 的神经网络,可以将分子从 SMILES(简化分子线性输入规范) 表示转换为 IUPAC 名称,反之亦然。...研究结果表明:将 SMILES 字符串转换为 IUPAC 名称的 Struct2IUPAC 模型在 PubChem 的测试集上达到了98.9% 的准确率。...训练了两个模型:将 SMILES 字符串转换为 IUPAC 名称的 Struct2IUPAC 和执行反向转换的IUPAC2Srtuct。...在线可用 新的解决方案已经在 Syntelly 平台上实现,并可在线使用。研究人员希望他们的方法可以用于化学符号之间的转换,以及其他与技术符号相关的任务,例如数学公式的生成或软件程序的翻译。...期刊论文里提到:「可以将分子从 SMILES 表示转换为 IUPAC 名称,反之亦然。」

    1.3K20

    . | 化学自然语言引导的扩散式类药分子编辑:DiffIUPAC的魔法之旅

    DiffIUPAC的主要涉及IUPAC名称和SMILES字符串之间的转换,但其潜力也可以扩展到其他化学语言的互相转换中图1。...二、DiffIUPAC:魔法翻译器的诞生 为了破解这个难题,研究人员提出了 DiffIUPAC,一个基于 IUPAC 名称引导的条件扩散模型,能够将化学自然语言转换为化学语言(SMILES 字符串)。...首先生成新的 IUPAC 名称。 2. 然后将其转换为 SMILES 字符串。 2....五、小编观点:开启了化学魔法的新篇章 这项研究就像给化学家们发放了一把“翻译器魔杖”,能将化学自然语言(IUPAC 名称)转换为化学语言(SMILES),并根据指定的规则进行受控的分子编辑。...将更多维的数据和方法结合,有望满足多目标药物优化和设计需求。结合 3D/4D 分子结构数据,将实现从 IUPAC 名称到 3D 结构的分子或材料设计。

    12910

    GPT模型在化学领域可以做些什么?

    化学名预测 表 2 对于一个分子来说,存在不同类型的化学名称,比如SMILES、IUPAC名称和分子式。...为了研究GPT模型是否具有基本的化学名称理解能力,作者构建了4个化学名称预测任务,包括SMILES到IUPAC名称的转换(smiles2iupac)、IUPAC名称到SMILES的转换(iupac2smiles...这表明GPT模型缺乏基本的化学名称理解能力。Davinci-003的准确率明显低于其他模型。...最后,为了评估生成的分子是否有效,使用RDKIT 来检查生成的分子的有效性,并报告有效分子的百分比。结果见表9。...由于化学信息学中的许多任务依赖于SMILES字符串对分子的准确表示,GPT模型在将结构转换为SMILES字符串(反之亦然)方面的非竞争性性能影响到反向合成、反应和命名预测等下游任务。

    46910

    Elsevier的Greg Landrum访谈 | 成功的开源化学信息软(RDKit)的要素是什么?

    许多其他公司也在使用RDKit。...Python社区将语言的创造者Guido van Rossum称为 "Benevolent dictator for life"(简称BDFL)。目前,RDKit或多或少地遵循了这种模式。...其他三个开发者分别来自Schrodinger、Novartis和Relay。 RDKit在什么许可证下运行? Greg指出,操作系统许可证是非常重要的,也是有争议的。RDKit使用的是BSD许可证。...Schrodinger和Cresset在计算化学代码中使用了RDKit。RDKit的目的是用于计算软件,这些公司不需要向Greg或RDKit社区传达任何信息。此外,还有使用RDKit的已申请专利。...例如,截至2020年10月,在谷歌专利搜索中,有168个结果使用了RDKit。 当人们向 RDKit 贡献时,是否有任何知识产权或版权? 显然,在某些情况下可能会很棘手。

    85750

    Brief. Bioinform. | 从直觉到人工智能:药物发现中的小分子表征演变

    小分子的数字化表征 在分子表示的演变历程中,最初使用通用名称对分子进行命名,但随着化学领域的发展,1919年IUPAC的成立标志着对化学命名法和术语的规范化。...RDKit是基于C++的流行包,提供Python接口,可计算208个描述符和5个指纹。CDK是用Java开发的另一种软件,可计算275个描述符和9个指纹图谱。...首先,将小分子的字符串表示转换为数字表示,通常是整数标记或2D二进制独热编码矩阵。使用SMILES字符串来表示小分子在深度神经网络中的能力被证明在捕捉分子图方面具有优势。...(B) 转换器架构,全部由预处理和位置嵌入步骤组成,然后是多个顺序编码器和/或解码器模块。上图:序列到序列的原始或 BART 样式的 Transformer,其中编码器输出可以聚合为学习嵌入表示。...在化学文献等领域,这些模型提取信息的能力尤为有趣。然而,它们在处理化学问题时可能存在准确性不足的问题,例如对分子结构和IUPAC名称的处理。

    39710

    RDKit相关文章汇总

    RDKit简介: ---- RDKit在2000-2006年期间在Rational Discovery开发和使用,用于构建吸收、分布、代谢、代谢、毒性和生物活性的预测模型。...子结构搜索; 标准SMILES; 手性支持;化学转化;化学反应;分子序列化;相似性/多样性选择;二维药效团;分层子图/片段分析; Bemis和Murcko骨架;逆合成组合分析程序(RECAP); 多分子最大共同亚结构...描述符计算及可视化: RDKit toolkit实战:描述符计算及可视化 RDKit分子间RMSD计算: RDKit:计算不同分子或构象之间的RMSD RDKit:计算不同小分子构象之间的RMSD...RMSD:通过旋转计算两个分子间的最小rmsd RDKit分子格式转换sdf转smiles: 基于RDKit的Python脚本:SDF格式转SMILES格式 RDKit小分子聚类: 聚类小分子数据集...(基于RDKit的Python脚本) RDKit形状相似性: RDKit:运用RDKit计算USRCAT(形状相似性) RDKit化合物骨架分析: RDKit:化合物骨架分析 基于RDKit的QSAR

    56940

    Nucleic Acids Research | PROTAC-DB:PROTACs在线数据库

    PROTAC-DB可以通过两种常用的搜索方法进行查询:基于文本的(靶点名称、化合物名称或ID)和基于结构的。 ?...使用RDKIT工具包(http://www.rdkit.org)和ALOGPS计算了与类药物相关的10个重要理化性质,包括分子量、精确质量、分配系数(LogP)、水溶性(Log)、重原子计数、环计数、氢键受体计数...基于文本的搜索是在整个PROTAC-DB中进行搜索的一种简单方式,只需输入单个术语,如目标名称、化合物名称或ID。...可视化和过滤数据表中的结果 查询或浏览结果显示为数据表,包含2D结构和其他信息,如化合物ID、目标蛋白质和生物活性(图2)。点击该结构的图像可以获得放大的图像。...Representation:包含IUPAC名称、InChI、InChI键、正则化SMILES和分子式。

    3K41

    J. Chem. Inf. Model. | 基于Transformer的分子生成模型用于抗病毒药物设计

    相反地,我们构建了基于规则的IUPAC标记化器,其中IUPAC名称中的标记类似于众所周知的功能团和基团。 图1....为了获得这些属性值标记,我们将属性值的分布离散化为三个区间。第二点是将最大似然目标的输出作为IUPAC嵌入表示获取。...首先,TransAntivirus利用属性控制的Transformer模型以及预训练和微调的训练模式来学习IUPAC名称的内部关系。...图2 使用TransAntivirus模型进行虚拟筛选和分子设计的分子化学空间的高效增强采样 结果与讨论 模型性能比较 表1....融合更多维度的数据,满足更多目标的要求对于开发这样的AI模型至关重要;例如,可以将强化学习方法与TransAntivirus相结合,使用基于提示的方法进行微调。

    71050

    开源化学信息学工具包(Open Access Cheminformatics Toolkits)

    Open Babel 官网:http://openbabel.org/wiki/Main_Page Open Babel是一款开源自由软件,使用Open Babel可以将一种化学结构类型的文件格式转换成另一种文件格式...Cinfony 官网:http://cinfony.github.io/index.html Cinfony是一个Python模块,它通过一种简单而强大的方法为Open Babel、RDKit和CDK提供了一个通用接口...它是Pybel的扩展,Pybel是一个只提供Open Babel访问权限的Python模块。它允许在应用程序编程接口(API)级别的互操作性,其优点是不需要对现有软件进行任何更改。...Indigo是一个基于C ++语言的库,主要关注性能和基本化学特性。 围绕Python,Java和C#语言构建高级包装器或绑定。 这个库也允许多线程使用。...最近的增加还包括快速和高效的指纹搜索,支持使用原子对或PubChem指纹,并通过新的SMIset对象类和SMILES导入/导出功能改进SMILES支持。

    2.3K31

    生物信息中的Python 02 | 用biopython解析序列

    上一篇文章生物信息中的Python 01 | 从零开始处理基因序列自己造轮子实现了序列的基础操作,但是在Python的世界里,一项工作只要重复的次数多了,那么一定就会有大神来开发相应的包来解决,这个包名就是...接下来我们试着使用它来实现简单的序列处理。 一、准备工作 1、 按照上一篇下载fasta文件的步骤,可以同理得到GeneBank的数据格式 ?...IUPAC (International Union of Pure and Applied Chemistry ) 是一个制定化学相关标准的组织,Biopython 所使用的编码表就是由它制定的,想了解详细细节可以参考...http://www.bioinformatics.org/sms2/iupac.html ,详细定义如下: 名称 编码表 ambiguous_dna_letters GATCRYWSMKHBVDN unambiguous_dna_letters...GC含量愈高,DNA的密度也愈高,同时热及碱不易使之变性,因此利用这一特性便可进行DNA的分离或测定。

    1.8K10

    SMILES & InChI | 化学结构的线性表示法

    Simplified Molecular Input Line Entry System: SMILES SMILES表示法规则 SMILES标记根据某些规则将化学结构转换为字符串: 原子由各自原子符号表示...为此,将发现该化合物应该有一个与该化合物名称的IUPAC名称相对应的SMILES标记。这种SMIELS表示法称为“ Canonical SMILES ”。...当使用Daylight软件时,会生成相同的SMILES,但是其他开源软件使用独特的算法,即使使用相同的化合物也可以获得不同的SMILES。...SMARTS中增加的一点是,它允许使用通配符表示原子和化学键。因此,它在化合物数据库中广泛用于结构的计算机化搜索。...由于每种化合物都具有不同的InChI,因此可以认为它与化合物名称的IUPAC名称相似。如前所述,与Canonical SMILES的不同之处在于生成算法是非盈利性的,可以自由使用。

    3.8K70

    JCIM|VenomPred2.0:基于AI的药物分子毒性预测工具

    Morgan和RDKit的FPs是使用RDKit python库生成的,而PubChem的FPs是使用PyBioMedpython模块计算的。...特别地,网格搜索交叉验证包括将训练集划分为几个子集或折叠,并在这些折叠的不同组合上迭代地训练和评估模型。...可靠性 对在开发VenomPred中生成的模型进行了性能分析,观察到基于PubChem、RDKit和Morgan指纹的机器学习模型在统计上表现优于使用LINGO和Pharm2D指纹的其他模型。...、RDKit和Morgan指纹的模型的平均性能似乎明显高于其他模型。...这种小分子可以自发聚合或使用催化剂(如紫外光),形成非常耐用的聚合物。丙烯酸单体是强力的致敏化学品,会引起接触性皮炎。

    94810

    清华大学刘知远团队提出ChatMol模型,基于自然语言进行交互式的分子发现

    在数据准备方面,相应的对可以从化学的数据库中获得,其中提供了物质的简短文字介绍。 如果分子名称出现在文本中,可能会导致信息泄露。...此外,作者过滤掉那些只包含一个对话回合的条目,并删除句子中带有“-”的条目,以避免出现标准化学命名法(例如IUPAC命名法)来直接揭示答案。...注入分子知识是为了深入理解给定的化学语言表达式,生成更合理、更有信息量的自然语言描述。ChatMol使用两种类型的分子知识进行训练。一是属性知识。...为了满足理解分子结构的需要,作者引入了空间相关的预训练任务,使用RDKit工具包来获得输入分子的空间结构。 作者将ChatMol与一些具有代表性的方法进行了比较,如表1和表2所示。...表1 分子理解:与其他方法对比 表2 分子生成:与其他方法对比 作者设计了消融实验来验证模型设计的有效性。

    23310

    RDKit | 通过评估合成难度筛选化合物

    在这种情况下,如果优先考虑其他指标(例如活性)并在最后考虑“合成的难易程度”,则倾向于选择具有相似化学型和骨架的化合物。为了防止这种情况,期望从筛选的初期就通过均等地处理“合成可及性”来评价化合物。...经验丰富的合成化学家可以通过查看化合物的结构来确定合成的难度,但是它不能解决数百万种化合物的筛选问题。因此,有必要使用计算机来评估“合成的容易性”。...将值标准化为1(简单)到10(困难)。...---- 导入库 from rdkit import rdBase, Chem from rdkit.Chem import AllChem, Draw, PandasTools from rdkit.Chem.Draw...将smiles转换为RDKit 的Mol对象 PandasTools.AddMoleculeColumnToFrame(frame=df, smilesCol='smiles') df.head() ?

    1.4K40

    BIB |基于分而治之的分子图片识别深度学习框架

    该文章基于分而治之的思想提出把分子识别问题转换为其组成元素的识别,包括分子键线与原子字符标识,然后使用关键点识别技术进行相关元素的识别并重新组装恢复分子结构。...基于分而治之的原则,作者提出将原子或键建模为中心的单个点。通过这种方式,作者可以利用全卷积神经网络生成一系列热图来识别这些点并预测相关属性,例如原子类型、原子电荷、键类型和其他属性。...幸运的是,两个不同的化学信息学库(RDKit和Indigo)提供了一些API,可在绘制分子图期间进行自动标注。因此,作者开发了一个Python程序,可以在绘图时自动记录所需的标注信息。...然后将RDKit图像数据集和Indigo图像数据集以8:1:1的比例分成三组(训练、验证和测试)。此外,作者还通过将RDkit和Indigo数据集组合在一起构建了一个混合数据集。...为了训练模型,作者使用了两个开源 Python 库(RDKit 和 Indigo)来绘制分子图像并在绘图过程中对这些图像进行注释。

    88120
    领券