smiles - 腾讯云开发者社区

文章/答案/技术大牛

发布

pysmiles：一个用于读写SMILES表达式的python库

技术背景 SMILES表达式是化学里面常用的用于标定元素之间关系的字符串，旨在用最简短的语句来完整的表达一个分子体系内所蕴含的基本信息，比如元素、连接性以及连接属性等。...由于SMILES表达式的定义种类太多，需要完整介绍的可以阅读这篇博客或者是opensmiles的官方网站。...这里我们简单介绍几种常见的情况：在SMILES表达式中，往往会去掉 H 元素，比如甲烷 CH_4 用SMILES表达式来表达的话就是 C ；双键用 = 来表示，比如 C(=O)=O 表示一个二氧化碳...import networkx as nx import matplotlib.pyplot as plt smiles = 'N#CC#N' # 给定的SMILES表达式 mol = read_smiles...总结概要本文介绍了一款基于python语言的SMILES化学表达式的读写SDK，使用openSMILES表达式所定义的分子结构是非常精简的，但是其中的规则又非常的多，因此使用一款友好的SMILES表达式能够大大的缩减解析的成本

2.8K3 0

. | 基于SMILES的利用骨架的分子生成模型

作者认为这种基于SMILES的生成模型将成为对已经存在的基于SMILES的体系结构的有用补充，并且可以替代基于图的装饰方法。...在这些模型中，常用两种方式来表示分子数据，一类是利用SMILES字符串，一类是利用分子图。...基于SMILES字符串的模型因为SMILES字符串的简单结构可以使得模型更快的进行训练，并且2019年Josep Arús‑Pous等人提出的在分子生成模型中引入Randomized SMILES可以大大改善生成结果...半装饰分子的随机SMILES表示在每个步骤都会改变，因此会移动SMILES字符串中连接点的相对位置。这个过程允许在装饰带有n个连接点的分子时考虑所有可能的排序。...5 总结作者提出了一种新的基于SMILES的分子生成模型，该模型可以从骨架生成分子。

1.4K4 0

您找到你想要的搜索结果了吗？

是的

没有找到

Briefings in Bioinformatics | 基于SMILES的药物分子表征深度模型和数据增强策略研究

在模型方面使用双向LSTM模型以及多步注意力策略提高从SMILES表征中抽取隐含特征的能力。...这极大的限制了基于SMILES的深度神经网络模型的学习与预测能力，导致基于SMILES的模型无法达到传统模型以及基于分子图的模型的效果。...在数据层面，作者使用SMILES 枚举策略增加扩增训练样本数量以及多样性（图1）。图1....分子SMILES表征通常由分子图通过深度优先搜索展开得到，由于起始点以及方向的不同，同一分子通常有多种SMILES分子格式。...进一步的，作者把SMILES枚举策略应用到测试阶段，通过对化学分子生成多种形式SMILES进行预测并融合预测结果以获得最终预测。测试增强策略有助于纠正预测偏差并提供更可靠的预测。

4K4 1

J.Cheminform| MACCS密钥：在逆合成预测中弥补SMILES的局限性

分子结构的SMILES表示是基于序列到序列模型的典型输入。然而，以前报告的模型都没有关注子结构、片段、级别上的翻译。...他们还用RDKit删除了780个由于SMILES标准化失败的反应。数据固有的局限性是绝大多数的条目都是单个产品的反应。因此，本研究只使用了对应92%数据集的单个产品案例。...SMILES符号用字母、数字和符号组成的线性序列表示分子结构。因此，从语言学的角度来看，SMILES是一种具有语法规范的语言。...在基于SMILES的方法中，网络不仅要理解SMILES的复杂语法，而且要理解规范表示，才能综合预测正确的序列。SMILES符号语法结构学习的困难可能会导致出现问题的结果，如无效的SMILES字符串。...根据设计，模型预测的是MACCS密钥表示，而不是SMILES字符串。将预测的结构指纹序列转换为有效分子需要一个字典来查找匹配指纹的候选反应物。

2K1 0

｜Root-aligned SMILES：为化学反应预测而设计的一种紧凑表示

由于SMILES是由深度优先遍历而生成的，所以一个分子往往可以通过枚举的方式，来获得多个有效的SMILES表示形式，称之为randomized SMILES。...SMILES之间的关系。...如图1所示，与前人使用的randomized SMILES和 canonical SMILES不同，本研究提出的Root-aligned SMILES（R-SMILES），通过将输入和输出的根原子进行对齐的方式...R-SMILES 在逆向反应的P2R阶段中，获得R-SMILES的流程如表1所示，其中包含以下主要步骤：（1）随机挑选一个带有原子映射的反应SMILES作为原始数据；（2）在生成物SMILES中随机挑选一个原子作为根原子...（5）从左往右遍历新的生成物SMILES的原子映射，如果该原子映射在某一个反应物分子的SMILES中出现，那么这个原子映射就作为该反应物SMILES的根原子。

1.2K2 0

Nat Commun｜通过单一基础模型双向生成分子的结构和特性

图1 SPMM结构图然后，将编码后的SMILES和PV特征通过融合编码器，实现SMILES和PV特征的交叉注意力。...此外，SPM还可以预测给定的一对SMILES和PV是否代表相同的分子。如图1b所示，经过训练的SPMM可以同时用于多模态的下游任务，包括SMILES到PV的生成，以及PV到SMILES的生成。...在SMILES标记化中，标记器将给定的SMILES标记为片段，这些片段包含在包含300个子词的准备好的标记字典中。...如表1所示，正向反应预测中，将底物SMILES作为输入，预测产物SMILES，而逆向反应预测则相反。...SPMM通过SMILES-PV-SMILES的流程，实现SMILES-PV的双向学习，并用于SMILES预测。

3851 0

使用Python构建智能药物发现平台

数据准备我们使用公开的分子数据集，包含分子SMILES（简化分子输入线性表示法）和生物活性值。...from rdkit import Chem from rdkit.Chem import AllChem # 转化SMILES为分子指纹 def smiles_to_fingerprint(smiles...2, nBits=1024) # 生成分子特征矩阵 df['Fingerprint'] = df['SMILES'].apply(smiles_to_fingerprint) features = list...# 示例新分子 new_smiles = ['CCBr', 'CNBr'] new_fingerprints = [list(smiles_to_fingerprint(smiles)) for smiles...smiles, pred in zip(new_smiles, predictions): print(f"Molecule: {smiles}, Predicted Activity: {'

4761 0

Nat. Commun. | 通过单一分子基础模型实现结构和属性的双向生成

然后，编码的SMILES和PV特征通过融合编码器传递，该编码器在SMILES和PV特征之间执行跨注意力操作。...融合编码器通过下一个单词预测（NWP）进行SMILES的预训练，下一个属性预测（NPP），和SMILES-PV匹配损失（SPM）。...一旦训练完成，SPMM可以用于需要理解SMILES和属性的各种双向下游任务，如属性预测（SMILES到属性）和基于属性的分子生成（属性到SMILES，也称为逆向QSAR）如图1b所示。...图 2 为了展示SPMM的分子生成能力，作者准备了一系列的PV到SMILES生成场景，并让预训练的SPMM使用输入的属性自回归地生成SMILES。...对于第一个PV到SMILES生成场景，我们准备了来自PubChem的1000个SMILES的PV，这些PV不包含在预训练数据集中，并将它们输入到预训练的SPMM中以生成相应的SMILES。

4221 0

R语言实现分子信息获取

(smile)[[1]] get.smiles(mol) # get.smiles(mols[[1]]) ##多个SMILE结构数据的读取 options("java.parameters"=c("-Xmx4000m...")) library(rcdk) for (smile in smiles) { msmiles(smile) ## perform operations on this...、原子标签、波动键索引、环状立体键信息和反应片段级分组信息输出 get.smiles(m,smiles.flavors(c('CxSmiles'))) ##SMILE坐标信息获取 get.smiles(...m,smiles.flavors(c('CxCoordinates'))) 3....分子结构的可视化 ###坐标系中添加分子结构 img smiles("B([C@H](CC(C)C)NC(=O)[C@H](CC1=CC=CC=C1)NC(=

1.8K2 0

100天跟着CP学PostgreSQL+AI,第32天 :药物研发：分子数据库与 AI 模拟的结合点

一、SMILES 格式：化合物结构的 "数字密码" SMILES（Simplified Molecular Input Line Entry System）是一种用 ASCII 字符串描述分子结构的格式...列表 smiles_list = ["CCO", "CC(=O)O", "c1ccccc1"] # 生成分子特征向量（以ECFP为例） def generate_ecfp(smiles): mol...(mol, 2, nBits=1024) return list(ecfp) # 生成特征向量列表 feature_vectors = [] for smiles in smiles_list...enumerate(zip(smiles_list, feature_vectors), 1): cur.execute( "INSERT INTO molecules (smiles..., distance in results: print(f"SMILES: {smiles}, 距离: {distance}") # 关闭连接 cur.close() conn.close(

3641 0

GPT模型在化学领域可以做些什么？

为了研究GPT模型是否具有基本的化学名称理解能力，作者构建了4个化学名称预测任务，包括SMILES到IUPAC名称的转换（smiles2iupac）、IUPAC名称到SMILES的转换（iupac2smiles...）、SMILES到分子式的转换（smiles2formula）和分子式到SMILES的转换（formula2smiles）。...在所有四个名称预测任务中，最佳方法的准确率非常低（iupac2smiles任务为0.014，smiles2formula任务为0.086），甚至为0（smiles2iupac和formula2smiles...然而，有几个问题使得LLM难以准确理解和解释SMILES字符串：1）氢原子在SMILES字符串中没有明确表示，因为它们可以根据标准的键合规则进行推断。...第一种类型发生在输入以SMILES格式给出的情况下（例如，名称预测）；GPT模型偶尔会在正确解释这些SMILES时遇到困难。

7811 0

Research | 使用无监督学习、多任务学习的分子性质预测新方法

同时，在预训练、微调和测试阶段将SMILES枚举用作数据增强策略，以大幅增加数据多样性并帮助从复杂的SMILES字符串中学习关键相关模式。...因此，每个训练样本都可以通过不同数量的SMILES表示进行扩展，以增加数据多样性并帮助学习隐藏在SMILES字符串的复杂语法中的关键相关模式。...然后，这些SMILES字符串被标记化并进一步随机屏蔽以进行预训练预测。SMILES增强策略可以显着增加数据多样性并有效地从SMILES字符串中学习语义信息。...然后，这些数据集通过随机SMILES枚举增加了20倍。在预测阶段，本文对来自同一分子的枚举SMILES进行所有预测的融合操作，以获得最终预测。...SMILES枚举作为一种有效的数据增强策略，可以显着增加训练数据的多样性，并有助于关注更重要的特征，这些特征可以用于预训练和微调以从 SMILES 字符串中提取关键相关特征。

1.4K3 0

R语言之分子指纹(1)计算分子指纹及批量保存sdf格式

(rcdk) setwd('D:\\SCIwork\\F29\\lianxishuju') #读取数据 data <- read.csv('train.csv', header = T) # # SMILES...)=O # 6 COC1=CC2=C(C=C1OC)C1=C(C=C(OC)C(OC)=C1)C(=C2)C(=O)C1=CC=CN1 #去重 data % distinct(SMILES...write.csv(data, file = 'train.csv', row.names = F) #读取数据 data <- read.csv('train.csv', header = T) SMILES...SMILES #iter_num设置为smile的总数 iter_num <- 195 i = 1 mols smiles(SMILES[i]) fp SMILES[i]) fp <- get.fingerprint (mols[[1]], type = 'standard', fp.mode = 'bit',depth = 6, size =

2.1K2 1

RDKit | 基于化合物结构式图像估算分子式

2 环境系统：Win10 工具：RDKit、OpenCV、Keras、TensorFlow 3 实验步骤训练数据300,000种化合物的SMILES字符串（足够的训练数据）。...使用RDKit将SMILES字符串转换为结构式图像，并进行学习以计算图像中的原子数。 4 数据预处理提取获得类似如下数据 ?...= df['CAN_SMILES'].values SMILES转numpy # convert to arraySMILES = np.asarray(SMILES)SMILES_train, SMILES_test...= train_test_split(SMILES, test_size=0.30, random_state=110) print(SMILES_train.shape, SMILES_test.shape...) (210000,) (90000,) 定义DataGenerator数据生成函数 #Release memory for read datadel df, SMILES class DataGenerator

2.1K5 0

Knowledge-based BERT: 像计算化学家一样提取分子特征的方法

与主流的基于描述符和图的分子特性预测方法相比，基于 SMILES 的方法无需人类专家知识即可直接从 SMILES 中提取分子特征，但它们需要更强大的特征提取算法和更大量的数据进行训练，这使得基于 SMILES...SMILES形式。...使用RDKit 计算 CHEMBL 中每个分子的一个canonical SMILES和4个随机生成的 SMILES，用于预训练任务3。...Data augmentation: 每个分子的SMILES，通过rdkit随机扩充到5个不同的SMILES。在训练集中，每个SMILES都被当做是单独（不同的）分子。...对比学习任务能够让模型更好的“理解”SMILES 作者比较了同一分子不同SMILES通过模型生成的embedding的平均Tanimoto相似度。

1.3K3 1

Nat. Mach. Intell. | 探索稀疏化学空间的化学语言模型新策略

随机在ZINC 数据库中抽取1,000 到 500,000 个 SMILES 字符串样本来训练模型，每个训练模型中采样 500,000 个 SMILES（图 1c）。...数据增强对 CLM 的矛盾影响按照惯例，每个化学结构都有一个单一的、“规范的” SMILES 表示。然而，通过改变分子中原子的遍历顺序，也可以列举数百个“非规范”SMILES 表示（图 4h）。...非规范 SMILES 的枚举已被用于通过训练序列到序列模型来学习化学结构的连续表示，并且最新研究表明 SMILES 枚举可以提高生成模型的质量。...作者测试了 SMILES 枚举是否可以减少学习 CLM 所需的训练示例数量（图 4h）。在枚举 SMILES 上训练的模型以显着更高的速率生成有效分子，尤其是在最小的训练数据集中（图 4i）。...量化SMILES 枚举的性能影响发现（图 4l、m），在结构化的大型数据集中存在“过度枚举”的可能性，反映了SMILES 枚举的矛盾影响。

9962 0

复旦大学王满宁教授团队提出MoleSG模型，通过非重叠掩模的互补多模态自监督学习进行分子性质预测

对于SMILES序列，作者按照ChemBERTa首先转换被掩膜的SMILES令牌，通过对数据集中的所有标记进行全面分析来扩展其词汇表。...在主干中提取特征后，对输出特征可以拆分为SMILES特征和图特征，用于对应模态的掩码重建任务。...因此，作者收集表示原子的令牌，并为它们分配索引，以建立图中的原子与过滤后的SMILES令牌中的原子之间的一致对应关系。接着随机掩膜图上的原子特征和SMILES序列上的原子标记。...具体来说，基于原子索引的一对一对应关系，将图中被遮挡原子的位置定位到SMILES序列上，从而避免了在SMILES序列上掩盖已经在图上被掩盖的原子。...“SMILES scratch”和“Graph scratch”代表了两个从头开始训练的网络。

5801 0

药物发现中的分子设计：深度生成模型的全面回顾

SMILES形式的分子示例如图中A所示，从分子结构到文本的转换使得SMILES易于被计算机处理，易于用于训练机器学习模型。...SMILES既有优点，也有缺点：(1)SMILES未能捕捉到分子结构的相似性，两个相似结构之间的微小变化可能会导致SMILES字符串有很大不同，这导致从生成模型中学习到的潜在空间不平滑。...(2)SMILES 字符串是非唯一的，一个分子可以编码成多个SMILES表示。这些问题在目前的工作中或多或少都得到了解决。...SMILES。...值得注意的是，尽管近年来基于SMILES的模型激增，仍然面临有效性问题，而且SMILES的非结构化性质使得两个相似的分子极有可能完全不同。

3.7K3 1

J. Pharm. Anal. | 化学自然语言引导基于扩散的生成式类药分子编辑

目前，深度分子生成模型主要采用序列（SMILES）和分子图进行训练。尽管SMILES字符串便于训练，但缺乏3D信息；分子图可以弥补这一缺陷，但涉及高维信息处理。...目前，分子主要通过化学语法（SMILES字符串）和化学自然语法（IUPAC名称）来描述。...图1展示了同一分子的SMILES字符串和IUPAC名称之间的差异。...逆向扩散过程通过学习到的去噪过程逐步去除噪声，以恢复原始SMILES序列或生成新的SMILES样本。该过程条件化于输入的IUPAC名称，以确保生成的SMILES与输入相关联。...C5T5首先生成新的IUPAC名称，然后将其转换为SMILES字符串。

2611 0

开源化学信息学库：ScaffoldGraph

骨架匹配与高亮 query_smiles = 'c1ccncc1' # lets use this subscaffold as a query query_mol = Chem.MolFromSmiles...(query_smiles) next_scaffolds = [] for succ in network.successors(query_smiles): if network.nodes...分子匹配与高亮 molecules = [] for succ in nx.bfs_tree(network, query_smiles, reverse=False): if network.nodes...)) # Molecules are PubChem IDs so lets get the SMILES and view som of the molecules smiles = [network.nodes...[pid]['smiles'] for pid in molecules] mols = [Chem.MolFromSmiles(smi) for smi in smiles] Draw.MolsToGridImage

9114 0

点击加载更多

pysmiles：一个用于读写SMILES表达式的python库

. | 基于SMILES的利用骨架的分子生成模型

Briefings in Bioinformatics | 基于SMILES的药物分子表征深度模型和数据增强策略研究

J.Cheminform| MACCS密钥：在逆合成预测中弥补SMILES的局限性

｜Root-aligned SMILES：为化学反应预测而设计的一种紧凑表示

Nat Commun｜通过单一基础模型双向生成分子的结构和特性

使用Python构建智能药物发现平台

Nat. Commun. | 通过单一分子基础模型实现结构和属性的双向生成

R语言实现分子信息获取

100天跟着CP学PostgreSQL+AI,第32天 :药物研发：分子数据库与 AI 模拟的结合点

GPT模型在化学领域可以做些什么？

Research | 使用无监督学习、多任务学习的分子性质预测新方法

R语言之分子指纹(1)计算分子指纹及批量保存sdf格式

RDKit | 基于化合物结构式图像估算分子式

Knowledge-based BERT: 像计算化学家一样提取分子特征的方法

Nat. Mach. Intell. | 探索稀疏化学空间的化学语言模型新策略

复旦大学王满宁教授团队提出MoleSG模型，通过非重叠掩模的互补多模态自监督学习进行分子性质预测

药物发现中的分子设计：深度生成模型的全面回顾

J. Pharm. Anal. | 化学自然语言引导基于扩散的生成式类药分子编辑

开源化学信息学库：ScaffoldGraph

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐