前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Nat. Commun. | 机器学习驱动的质谱大数据解码:探索未知有机反应

Nat. Commun. | 机器学习驱动的质谱大数据解码:探索未知有机反应

作者头像
DrugAI
发布于 2025-04-09 04:51:42
发布于 2025-04-09 04:51:42
740
举报
文章被收录于专栏:DrugAIDrugAI

DRUGAI

科学界积累的大规模数据已超出现有处理方法的能力,凸显出亟需高效算法来深入挖掘实验数据。为应对这一挑战,研究人员开发了一种专为太量级高分辨质谱(HRMS)数据设计的机器学习搜索引擎。该引擎结合同位素分布算法与两个协同的机器学习模型,助力发现未知化学反应。这一方法不仅高效支持化学假设验证,减少实验需求,还拓展了自动化反应假设生成的可能性。在实际验证中,研究人员成功识别出多种反应,包括Mizoroki-Heck反应中的杂环-乙烯基偶联,展示了该引擎解析复杂化学过程的潜力。

实验在验证假设和推动化学发现中起着关键作用。然而,实验过程往往受限于方法效率、试剂成本、废物处理、操作延迟以及数据处理的复杂性,导致耗时较长。为此,研究人员主要采用两种策略来降低实验所需的时间和人力资源:一是自动化数据采集,例如自动合成、基于质谱的蛋白质组学或高通量显微成像;二是自动化数据解析,如化学空间探索、核磁共振或质谱数据分析

此外,研究人员也提出第三种策略,即利用已有实验数据进行假设验证,从而减少新的实验需求。尽管该策略面临数据可获取性与管理(如遵循FAIR原则)等挑战,但通过建立开放数据库和共享分析平台等方式,这些问题正在逐步解决。然而,目前仍缺乏专门的软件来实现高效的化学数据搜索与提取。

在有机合成中,研究人员通常通过设定特定反应条件、准备样品,并使用分析方法(如高分辨质谱 HRMS)进行产物检测。HRMS 凭借分析速度快、灵敏度高和数据积累便利等优势,被广泛应用于多个化学领域。日常实验中,HRMS实验室会持续产生大量质谱数据,短时间内便可积累上万个文件,总量高达数TB。然而,人工分析通常只关注目标产物及少数副产物,忽略大量潜在的信号,导致已有数据资源被严重低估。

因此,研究人员提出开发能在TB级数据库中高效筛查分子模式的方法,有助于在无需新实验的前提下,实现绿色、低成本的化学发现。

本研究展示了一种面向质谱数据的搜索引擎思路,通过自动化离子检测算法,开发出名为 MEDUSA Search 的工具。该工具能够在高复杂度的HRMS数据库中高效搜索目标离子,并识别已知与未知的化学产物、转化路径或杂质。该方法不仅避免化学品消耗与实验废弃物,还能辅助用户利用如NMR、MS/MS等手段进行后续验证。

目前复杂质谱数据的搜索主要应用于代谢组学和蛋白质组学,常依赖于将实验MS/MS谱与理论谱进行匹配,但存在化学空间覆盖有限等问题。此外,尽管部分软件已实现同位素分布识别,但其准确性仍受限,易导致误报。

为了克服监督学习中标注数据稀缺的问题,研究人员采用了合成质谱数据进行模型训练。过去相关研究已验证合成数据在原子模式识别、去同位素处理和反向结构预测中的可行性,同时,质谱增强技术也在持续发展中。

综上,研究人员提出了一种基于合成数据训练的搜索算法,应用于超过8TB、含22000个HRMS光谱的数据库中,实现大规模离子搜索。MEDUSA Search 不仅适用于多种离子形式,还可广泛应用于催化反应、偶联反应等多个领域。作为示例,该工具成功发现了Mizoroki–Heck反应中一个此前未被关注的杂环-乙烯基偶联过程,充分体现出其在揭示被忽略化学现象方面的优势。

这种“重用过去实验”的策略,为交叉偶联与加氢反应中催化转化路径的发现提供了新途径,也证明了有机化学领域在数据复用上的巨大潜力。

结果与讨论

搜索引擎概览

为了实现反应发现流程,研究人员首先开发了一个搜索引擎,即本文提出方法的核心。MEDUSA Search 引擎采用了一个由五个步骤组成的机器学习驱动的搜索流程(见图2)。其多层架构借鉴了网页搜索引擎的设计,确保了搜索速度的实用性。

值得一提的是,该搜索系统无需大量标注质谱数据即可训练。所有模型均通过合成质谱数据进行训练,合成数据基于分子式构建同位素分布图,并通过模拟仪器误差进行数据增强。

在正式搜索之前,需基于反应系统的先验知识生成一系列假设反应路径(图2,步骤A)。此处,我们基于可断裂的化学键及其重组片段构建查询离子。用户可提供潜在的反应片段,系统会自动组合生成查询离子;同时也支持基于BRICS片段化或多模态大模型生成假设(示例见补充材料 S5)。假设生成方法仍是一个开放研究问题,未来的新方法可轻松集成至本系统。

当输入离子的分子式和电荷信息后,系统可计算其理论同位素分布图。接着,在构建的倒排索引中搜索该离子最强的两个同位素峰,允许精度为0.001 m/z(图2,步骤B)。包含这些峰值的质谱数据被定义为候选谱图,后续步骤将在这些候选中进行更精细的搜索。

在候选谱图中,系统执行查询离子的同位素分布匹配,包括三个步骤:

  • 估算离子是否存在的初始阈值;
  • 在谱图中匹配同位素分布;
  • 筛除误判结果。

其中,匹配算法以余弦距离衡量理论分布与候选谱图中观测分布的相似度。是否存在该离子取决于预先估算的余弦距离阈值,该阈值由离子分子式决定。该阈值由一个机器学习回归模型估算。

在分布匹配步骤(图2,步骤C2)中,算法将理论峰与实验谱图中的峰逐一匹配,并计算余弦距离。如果某一峰缺失,则以噪音中位数作为替代。最终余弦距离若小于离子存在阈值,则认为该离子在谱图中被发现。

为避免误判(例如将目标分布错误识别为其他离子的子集),系统引入了额外的ML分类器,利用邻近峰的信息判断是否为假阳性。

反应发现策略

在提出多种可能新反应的假设路径之后,为尽可能覆盖广阔的化学空间,本研究通过组合法则生成候选产物的分子式(即结构唯一、取代基不同的分子式),并将其与现有的质谱数据进行自动化比对,以实现反应发现与数据驱动的离子搜索之间的结合。来自以往实验的 FAIR 描述数据同样在实际验证搜索结果中起到了重要作用。

在无任何先验成分信息的前提下,研究人员在超过20,000个质谱数据中进行新反应产物的搜索(图3b)。该搜索过程不限制文件名、实验记录者或其他可能缩小搜索空间的信息。为可视化大规模数据集的复杂性,采用 t-SNE 降维技术绘制了两个图谱:图3a 显示这些质谱所覆盖的化学空间具有良好的多样性,而图3b 中每个点代表一个质谱图,相似的图谱在空间中彼此靠近。由图中可见,不同研究人员记录的谱图存在显著差异;同时也能识别出由多人参与的同一项目记录的相似谱图。其中,操作员C负责样品接收服务,记录了最多样化的数据。

在有机反应研究中,中间体的发现对于机制解析和新反应路径设计至关重要,电喷雾电离质谱(ESI-MS)是常用的检测工具之一[65–70]。为验证所开发搜索引擎的实际适用性,研究人员以 Pd/NHC(NHC = N-杂环卡宾)催化反应为例,结合离子公式生成方法,探索了潜在的新反应路径(图3c)。对于13种结构核心中的每一个官能团或NHC配体(图3d),均计算出对应的分子式,最终共生成520个离子公式,其中400个具有唯一质量。由于高分辨质谱(HRMS)在不进行碎片化的前提下,仅能提供分子式信息,因此不能区分结构异构体。

生成假设集合后,研究人员将其应用于先前采集的数据和实验记录中进行验证。整个搜索流程(图2)对这520个生成离子逐一运行,遍历 TB 级质谱数据库,总计算时间为3–4天(平均每个离子8–11分钟)。结果发现多个具有代表性的同位素分布模式,但多数搜索结果无法验证,原因是缺乏 FAIR 数据来识别反应混合物的初始组成。不过,部分样本通过实验室记录得以验证,汇总结果如下:

  • 在所有与 M/NHC 催化相关反应中检测到相应的唑鎓盐离子(m/z 147)(图4a);
  • 在交叉偶联反应中检测到已知的 [phenyl-NHC]+ 离子(m/z 223)(图4a);
  • 在 Sonogashira 反应中检测到近期发现的 [ethynyl-NHC]+ 离子(m/z 247)(图4a);
  • 在 Sonogashira 反应中检测到未知的 [ethyl-NHC]+ 离子(m/z 251)(图4a);
  • 在 Pd/NHC 催化的 Mizoroki–Heck 反应中检测到未知的 [vinyl-NHC]+(m/z 273)和 [vinyl-phenyl-NHC]+(m/z 591)离子,该结果由不同年份不同研究者记录(图4b);
  • 在 Pd/NHC 催化的氢化反应中检测到未知的 [vinyl-NHC]+ 离子(m/z 325)(图4c)。

图3e 总结了整个搜索中检测到的离子数量,这些离子均具有唯一的质量。结果显示,最常见的转化类型为 phenyl–NHC 偶联,而 vinyl–NHC 偶联则较为罕见。所得结果与反应路径的量子化学计算研究相一致。

需要指出的是,大多数离子的反应来源无法明确确认,缺乏进一步结构确认实验。因此,后续仍需开展更深入的实验验证工作(图5)。

除 Pd/NHC 催化反应外,为展示搜索引擎的多样化应用能力,研究人员还利用其识别了镍催化烯硫化反应中的副产物。

实验验证

图3d中催化剂转化产物的形成与相关反应机理密切相关。研究人员此前已进行多种Pd/NHC催化的Mizoroki–Heck和偶联反应(如Sonogashira、Suzuki、Buchwald-Hartwig等),使用不同的NHC配体和卤素取代基。在通过ESI-MS分析反应混合物时,发现了[NHC-H]+、[NHC-Ph]+、[NHC-O]+ 和 [NHC-N]+等偶联产物。基于这些结果,研究人员揭示了R-NHC偶联和M-NHC键断裂在催化条件下M/NHC复合物转化过程中的关键作用。此类研究首次描述了M/NHC催化剂活性种的演化过程及无NHC共催化体系的形成,包括H-NHC盐和O-NHC偶联产物的形成。

在Sonogashira反应中,研究人员分离得到了此前未知的乙炔-NHC偶联产物,并探讨了可能的反应路径。该产物较为活泼,可能参与其他转化反应。在分析氢化衍生物的过程中,ESI-MS谱图中还观察到了[NHC-(CH2)2-Ph]+产物,推测可能通过氢转移反应生成。

类比乙炔-NHC和芳基-NHC偶联产物的发现,研究人员预测在Mizoroki–Heck反应中可能形成插入步骤前后的两种乙烯基-NHC偶联产物。实验表明,这两类产物均可在反应混合物中检测到。为了验证此转化过程,研究人员回溯实验记录,在p-甲氧基碘苯与丁基丙烯酸酯反应中(催化剂为[BIMePh]+[BIMePdI3]-),通过超高分辨质谱确认了[BIMe(CH)2COOBu]+的分子式。在另一实验中,为区分均相与非均相催化机制,研究人员采用[IPrCHC(Ph)COOBu]+的生成实验(未添加汞),也通过超高分辨质谱与MS/MS验证其结构。

进一步实验表明,使用不同NHC配体的Pd复合物也均可观察到乙烯基-NHC偶联产物,表明该反应具有普适性。研究人员测试了五种不同的Pd/NHC配合物,在所有情况下均检测到乙烯基-NHC和乙基-NHC产物,且质量误差小于1 ppm。为防止在测定过程中发生转化,研究人员调整了MS设置。通过ESI-MS监测也进一步确认了该偶联产物的存在。

此外,在转移氢化反应中,也观察到了另一类型的乙炔-NHC偶联产物的形成,揭示了该催化体系的动态特性,为开发Pd催化的咪唑环官能化反应提供了新线索。

为进一步验证这些新发现反应的可行性,研究人员还进行了DFT理论计算,证实了乙烯基-NHC偶联路径的合理性。

本研究开发了一种基于机器学习的高效反应发现计算系统。该方法从化合物假设生成入手,利用同位素分布算法与两个机器学习模型组合,显著降低了误报率,从而提升了海量数据库中的搜索效率。模型具备良好的可解释性,搜索步骤经过合成和实验验证,突出体现了以同位素分布为核心的优势策略。

此系统适用于所有具备足够分辨率检测同位素分布的质谱仪,结合其他计算方法(如离子碎片预测、加合物分析)后可成为强大的分析工具,加速多学科研究进展。

尽管FAIR数据描述是该方法的关键前提,研究人员仍可通过多次查询降低误报率,例如同时搜索产物和起始原料,以缩小验证范围。此外,本研究强调了数据规范采集与描述在反应发现中的重要性。

该系统已成功识别出Pd/NHC催化反应中的新型副产物,实现了“回顾性实验发现”理念的实践,主要体现在以下两方面的新颖性:

  • 反应路径新颖性:部分发现虽在其他催化体系中已有报道,但此前未在相关反应中被提出,如H-NHC盐、乙炔-NHC偶联等产物,可通过NMR和单晶衍射等方法验证。这些发现有助于联系不同催化体系之间的共性,推动催化剂设计。
  • 全新反应或产物:首次提出Mizoroki–Heck反应中可能发生乙烯基–NHC偶联,产物[BIMe(CH)2COOn-Bu]+[X]-和[IPrCHC(Ph)COOn-Bu]+[X]-此前从未被报道,且在SciFinder和Reaxys数据库中均无记录。研究还观察到多种氢化产物,提出了进一步机制研究的可能性。

所有发现均通过不同配体体系下的实验复现、超高分辨质谱验证(误差小于1 ppm)以及MS/MS结构确证,结合理论计算,进一步增强了反应可行性的信心。

研究人员将继续探索质谱数据自动解析,期待其在未来成为化学发现的重要途径。

整理 | WJM

参考资料

Kozlov, K.S., Boiko, D.A., Burykina, J.V. et al. Discovering organic reactions with a machine-learning-powered deciphering of tera-scale mass spectrometry data. Nat Commun 16, 2587 (2025).

https://doi.org/10.1038/s41467-025-56905-8

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Nat. Methods | MSNovelist:从质谱生成小分子结构的新方法
今天给大家介绍来自苏黎世联邦理工学院和耶拿弗里德里希-席勒-耶拿大学团队发表在Nature Methods上的文章,文章提出了一种基于encoder-decoder神经网络的从质谱生成小分子结构的新方法:MSNovelist,它首先使用SIRIUS和CSI:FingerID来分别从质谱中预测出分子的指纹和表达式,然后将其输入到一个基于encoder-decoder的RNN模型来生成分子的SMILES。作者使用来自Global Natural Product Social Molecular Networking网站上的3863个质谱数据集进行评估,MSNovelist重现出了61%的分子结构,这些重现的分子结构都是未在训练集中见过的;并且使用CASMI2016数据集进行了评估,MSNovelist重现了64%的分子结构。最后,本文将MSNovelist应用在苔藓植物质谱数据集上进行验证,结果表明MSNovelist非常适合在分析物类别和新化合物表现不佳的情况下注释质谱对应的分子。
DrugAI
2022/11/28
6990
Nat. Methods | MSNovelist:从质谱生成小分子结构的新方法
稳定同位素——如何玩转质谱内标定量 - MedChemExpress
质谱分析具有灵敏度高、样品用量少、分析速度快、分离和鉴定同时进行等优点。随着质谱定量检测技术的广泛发展,稳定同位素类化合物作为内标定量 (Stable Isotope-Labeled Internal Standard,简称 SIL-IS) 目前已被公认为是质谱定量分析领域好的选择。因为稳定同位素类化合物与被分析物具有几乎完全相同的分子结构 (图 1)、化学性质、色谱和质谱行为,可以有效地消除电离变化和基质效应[1],因而受到越来越多科研人员的推崇,广泛用于临床医学研究及生物医学、环境科学、食品检测等领域。
MedChemExpress
2022/12/26
5280
稳定同位素——如何玩转质谱内标定量 - MedChemExpress
Nat. Rev. Drug Discov. | 药物发现中的天然产物:进展与机遇
本文介绍由Atanas G. Atanasov和Claudiu T. Supuran共同通讯发表在 Nature Reviews Drug Discovery 的研究成果:在过去天然产物及其结构类似物对药物治疗做出了重大贡献,然而,天然产物也给药物发现带来了挑战,比如筛选、分离、表征和优化方面的技术障碍,导致制药行业降低对它们的关注。近年来,一些技术和科学的发展,包括改进的分析工具、基因组挖掘、工程策略以及微生物培养进展,正在应对这些挑战并开辟新的机遇,将天然产物作为药物先导重新引起了人们的兴趣。本文作者总结了最近可能实现基于天然产物进行药物发现的先进技术,并讨论了关键机遇和应用前景。
DrugAI
2022/04/19
9380
Nat. Rev. Drug Discov. | 药物发现中的天然产物:进展与机遇
Nat. Rev. Drug Discov. | 人工智能在天然产物药物发现领域的应用
今天为大家介绍的是来自Gerard J. P. van Westen, Anna K. H. Hirsch, Roger G. Linington, Serina L. Robinson和Marnix H. Medema团队的一篇药物发现综述。计算组学技术的发展为我们提供了新的方法工具,用以挖掘天然产物的隐藏多样性,为药物发现提供新的可能性。与此同时,人工智能方法,如机器学习,也在计算药物设计领域取得了令人兴奋的发展,促进了生物活性预测和针对感兴趣的分子靶标的从头药物设计。
DrugAI
2023/11/22
8010
Nat. Rev. Drug Discov. | 人工智能在天然产物药物发现领域的应用
Nat. Mater. | 利用机器学习和组合化学加速发现可电离脂质mRNA传递
今天为大家介绍的是来自Robert S. Langer与Daniel G. Anderson团队的一篇论文。为了充分发挥信使RNA(mRNA)疗法的潜力,扩大脂质纳米粒子的工具库至关重要。然而,脂质纳米粒子开发的一个关键瓶颈是识别新的可离子化脂质。在本文中,作者描述了一种加速发现用于mRNA递送的有效可离子化脂质的方法,该方法结合了机器学习和先进的组合化学工具。作者从一个简单的四组分反应平台开始,创建了一个化学多样性的584种可离子化脂质库。作者筛选了包含这些脂质的脂质纳米粒子的mRNA转染效率,并使用这些数据作为训练各种机器学习模型的基础数据集。作者选择了表现最佳的模型来探查一个包含40,000种脂质的扩展虚拟库,合成并实验评估了其中表现突出的16种脂质。作者得到了脂质119-23,它在多种组织中的肌肉和免疫细胞转染中表现优于已建立的基准脂质。该方法促进了多用途可离子化脂质库的创建和评估,推进了精确mRNA递送的脂质纳米粒子配方的发展。
DrugAI
2024/06/18
2250
Nat. Mater. | 利用机器学习和组合化学加速发现可电离脂质mRNA传递
Nat. Chem. | 使用高通量实验数据探索化学“反应组”
今天为大家介绍的是来自Roger M. Howard和Alpha A. Lee团队的一篇论文。高通量实验是一种可以系统地研究不同化学空间中反应活性的方法。目前该领域主要挑战是缺乏大规模的公开数据集,以及需要更简便的方法来解读这些数据中隐藏的化学洞见。为此作者提出了一个新开发的高通量实验分析器,这是一个健壮且统计上严谨的框架。它适用于任何规模和范围的HTE数据集,无论其目标反应结果如何。这个分析器能够揭示起始物料、试剂和反应结果之间的可解释相关性。
DrugAI
2024/02/23
2000
Nat. Chem. | 使用高通量实验数据探索化学“反应组”
Nat. Biotechnol. | 用机器学习预测多肽质谱库
本文介绍Max-Planck生物化学研究所计算系统生物化学研究组的Jürgen Cox近期发表在Nature Biotechnology的综述Prediction of peptide mass spectral libraries with machine learning。最近开发的机器学习方法用于识别复杂的质谱数据中的肽,是蛋白质组学的一个重大突破。长期以来的多肽识别方法,如搜索引擎和实验质谱库,正在被深度学习模型所取代,这些模型可以根据多肽的氨基酸序列来预测其碎片质谱。这些新方法,包括递归神经网络和卷积神经网络,使用预测的计算谱库而不是实验谱库,在分析蛋白质组学数据时达到更高的灵敏度或特异性。机器学习正在激发涉及大型搜索空间的应用,如免疫肽组学和蛋白质基因组学。该领域目前的挑战包括预测具有翻译后修饰的多肽和交联的多肽对的质谱。将基于机器学习的质谱预测渗透到搜索引擎中,以及针对不同肽类和测量条件的以质谱为中心的数据独立采集工作流程,将在未来几年继续推动蛋白质组学应用的灵敏度和动态范围。
DrugAI
2022/11/28
1.2K0
Nat. Biotechnol. | 用机器学习预测多肽质谱库
Nature | 有机合成的数字化
2019年7月,普林斯顿大学的Ian W. Davies学者在Nature上发表了一篇文章——有机合成的数字化。
DrugAI
2021/01/29
8110
榕树集-天然产物领域的AI研究
计算的发展为探索天然产物的潜在多样性提供了新手段,揭示了其药物研发方面的新潜力。 与此同时,人工智能方法同样也突飞猛进,在生物活性预测和药物设计领域都取得了很大的进展。本文介绍一篇发表于9月11日的综述。主要介绍了当前天然产物领域AI的发展以及面临的挑战。‍‍‍
DrugScience
2023/12/09
4660
榕树集-天然产物领域的AI研究
Nat. Commun. Biol. | 基于深度学习的可成药结合位点的时空识别
今天给大家带来的是斯科尔科沃科学技术研究院lgor Kozlovskii和Petr Popov发表在Nature Communications Biology的文章“Spatiotemporal identification of druggable binding sites using deep learning”。新型蛋白质结合位点的鉴定扩大了可成药基因组,为药物发现提供了新的机会。一般来说,结合位点的存在与否取决于蛋白质的三维构象,这使得结合位点的识别类似于计算机视觉中的物体检测问题。研究人员开发了一种快速准确的深度神经网络(BiteNet)框架,适用于大规模和时空识别蛋白质结合位点。
DrugAI
2021/02/02
1.1K0
Nat. Commun. Biol. | 基于深度学习的可成药结合位点的时空识别
Nat. Commun. | 深度学习驱动的酶动力学参数预测模型CataPro助力高效酶挖掘与改造
在生物催化领域,酶作为高效、特异性强的生物催化剂,在工业生产中发挥着至关重要的作用,广泛应用于制药、化工、食品饮料加工以及生物燃料合成等行业。酶挖掘的目的是从自然界中(比如微生物、植物、动物来源)中筛选和鉴定具有特定催化功能的新酶,以满足不同工业应用的需求。然而,自然界中的野生酶往往难以满足工业生产对其催化效率等性能的要求,因此需要对其进行优化和改造以进一步提高其工业适用性。传统的酶挖掘和酶改造方法主要依赖湿实验,这一过程耗时长且成本高昂,并且受实验条件的限制,筛选范围有限。而基于理性设计的酶改造依赖于对酶的结构、功能和作用机制的深入理解,这在许多情况下难以全面获取,进一步增加了酶改造的难度。近年来,随着计算技术的迅猛发展,基于深度学习的酶挖掘和改造方法逐渐兴起,为这一领域带来了新的希望。
DrugAI
2025/03/27
1620
Nat. Commun. | 深度学习驱动的酶动力学参数预测模型CataPro助力高效酶挖掘与改造
Nat. Metab. | 大规模基因组-脂质关联图谱指导脂质鉴定
大家好,今天分享一篇发表在nature metabolism上的文章“A large-scale genome–lipid association map guides lipididentification”,通讯作者是来自威斯康星大学麦迪逊分校的Joshua J.Coon教授,该课题组主要从事化学仪器技术、信息学、蛋白质组学和代谢组学等技术的开发研究,并用于探索疾病、生物能源等生物学问题。
DrugAI
2021/02/02
6670
Nat. Metab. | 大规模基因组-脂质关联图谱指导脂质鉴定
蛋白质组学研究概述
作者简介:中科院遗传与发育生物学研究所中丹学院博士生张泽宇,外号 “大神”,口号 “Now you see me”。 这是其刚入学时做的一个报告。 本篇介绍下蛋白质组学,如果覆盖度深的话,应该是新时代
生信宝典
2018/06/26
1.4K0
Nat. Commun. | 用于反应性能预测的基于化学知识的图模型
今天为大家介绍的是来自Shuo-Qing Zhang和Xin Hong团队的一篇关于反应性能预测的论文。准确预测反应活性和选择性为合成开发提供所需的指导。由于分子结构和合成功能之间存在高维关系,要实现具有必要的外推能力和化学可解释性的合成转化预测是具有挑战性的。为了弥合化学丰富领域知识与先进分子图模型之间的差距,作者提出了一种基于知识的图模型。此外,还开发了一个分子相互作用模块,用于学习反应组分之间的协同影响。
DrugAI
2023/09/19
4410
Nat. Commun. | 用于反应性能预测的基于化学知识的图模型
Nat.Commun.| MolDiscovery:新算法使用质谱数据预测分子的身份
研究人员Hosein Mohimani 助理教授说:“科学家们浪费了大量时间来分离已知的分子,基本上是重新发现青霉素。” “尽早检测分子是否已知可以节省时间和数百万美元,并有望使制药公司和研究人员更好地寻找可能导致新药开发的新型天然产品。”
DrugAI
2021/07/28
7390
4分钟成功复现诺奖!CMU开发GPT-4化学家,自主编码操控机器人颠覆化学研究登Nature
先是谷歌DeepMind的AI工具GNoME成功预测出200万种晶体结构,随后微软推出的MatterGen,大大加速了设计所需材料特性的速度。
新智元
2023/12/21
5060
4分钟成功复现诺奖!CMU开发GPT-4化学家,自主编码操控机器人颠覆化学研究登Nature
基于AI的连续流反馈系统加速化学反应开发
今天给大家介绍的是ASCOUNTS of chemical research上有关连续流的文章 "Feedback in Flow for Accelerated Reaction Development"
智药邦
2021/06/07
1.3K0
基于AI的连续流反馈系统加速化学反应开发
Nat. Mach. Intell. | InstaNovo助力蛋白质组学:用扩散模型高效破解肽段序列密码
基于质谱的蛋白质组学旨在识别生成串联质谱图的肽段。传统方法依赖蛋白数据库,但在某些情境下受限或无法应用。de novo肽段测序无需先验信息,具有广泛的生物学应用价值,但因准确性不足而难以推广。研究人员在此提出InstaNovo,一种将碎片离子峰直接转译为肽段序列的Transformer模型,表现优于现有技术。进一步,研究人员开发了InstaNovo+扩散模型,通过迭代优化提升预测性能。该方法在多个数据集中实现更高的治疗性测序覆盖率,发现新型肽段,并识别未报道的生物体,拓展了蛋白质组学的搜索范围与检出能力,适用于直接蛋白测序、免疫肽组学及“暗蛋白组”等多个领域。
DrugAI
2025/04/15
760
Nat. Mach. Intell. | InstaNovo助力蛋白质组学:用扩散模型高效破解肽段序列密码
质谱与热重协同效应:TG-MS气体产物分析的优势-测试狗
热重分析(Thermogravimetric Analysis,TGA)和质谱分析(Mass Spectrometry,MS)的联用技术(TG-MS)在材料科学、化学、环境科学和生物学等领域中具有广泛的应用;这种联用技术不仅能够提供样品在热处理过程中的质量变化信息,还能对逸出气体的成分进行定性和定量分析,从而更全面地揭示材料的热行为和反应机理。
测试狗科研
2024/12/03
1530
质谱与热重协同效应:TG-MS气体产物分析的优势-测试狗
Nat. Biotechnol. | 戴上启动帽,MIT王潇团队提出LEGO增强翻译能力
今天为大家介绍的是来自马萨诸塞理工学院的王潇团队的一篇论文。基于mRNA的蛋白质和疫苗疗法可以通过增加翻译能力获益。在此,作者报道了一种名为连接促使mRNA-寡核苷酸组装(LEGO)的方法来增强翻译。作者系统性地筛选了不同的化学拓扑结构,并发现一种分支mRNA帽子能够在不依赖内含核糖体进入位点(IRES)的情况下,有效地启动线性或环状mRNA的翻译。两种化学修饰——在帽子上的锁核酸(LNA)N7-甲基鸟苷修饰和在5′非翻译区(UTR)上的LNA+5×2′-O-甲基修饰——增强了RNA与真核翻译起始因子(eIF4E-eIF4G)的结合能力,并提高了体外RNA对去帽酶的稳定性。通过对双帽mRNA和带帽环状RNA的多维化学拓扑工程,作者在体内将mRNA蛋白质的产量提高了多达十倍,并在新冠病毒(SARS-CoV-2)疫苗的初免和加强针接种后分别实现了17倍和3.7倍的抗体产量提升。LEGO平台为设计超越经典线性和环状RNA的非天然RNA结构和拓扑结构,提供了新的可能性,适用于基础研究和治疗应用。
DrugAI
2024/11/23
1270
Nat. Biotechnol. | 戴上启动帽,MIT王潇团队提出LEGO增强翻译能力
推荐阅读
相关推荐
Nat. Methods | MSNovelist:从质谱生成小分子结构的新方法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档