1. Positional embeddings and zero-shot learning using BERT for molecular-property prediction
期刊:Journal of Cheminformatics
链接:https://jcheminf.biomedcentral.com/articles/10.1186/s13321-025-00959-9
简介:本文探讨了使用BERT模型结合不同位置编码(PEs)进行分子性质预测的潜力,创新性地分析了零样本学习在化学信息学中的应用。研究采用预训练和微调两阶段方法,利用SMILES和DeepSMILES表示分子结构,并通过多种PEs优化模型性能。实验基于ZINC、ChEMBL等大规模数据集以及新提出的抗疟疾药物、共晶形成和COVID-19相关数据集,结果表明相对键查询PE在分类和回归任务中表现最佳,DeepSMILES在零样本学习中展现出与SMILES相当甚至更优的性能。研究表明,适当的位置编码和分子表示可显著提升BERT模型在化学性质预测中的泛化能力和准确性。
2. DeepAllo: Allosteric Site Prediction using Protein Language Model (pLM) with Multitask Learning
期刊:bioRxiv
链接:https://www.biorxiv.org/content/10.1101/2024.10.09.617427v2
简介:本文提出了一种名为DeepAllo的新方法,通过结合微调的蛋白质语言模型(pLM)和FPocket特征来预测蛋白质的变构位点,创新性地引入了多任务学习(MTL)策略,显著提升了预测性能。方法上,作者首先在变构数据库(ASD)上微调了ProtBERT-BFD模型,并结合FPocket提取的蛋白质口袋特征,训练了XGBoost和AutoML模型进行分类。实验使用了ASD数据集,经过预处理后包含207个蛋白质,最终模型在F1分数上达到了89.66%,并在前3位的预测中准确率达到了90.5%。结果表明,结合pLM和FPocket特征的模型在变构位点预测上优于现有方法,且多任务学习进一步提升了性能。总结来说,DeepAllo通过引入pLM和多任务学习,显著提高了变构位点预测的准确性。
3. sCIN: A Contrastive Learning Framework for Single-Cell Multi-omics Data Integration
期刊:bioRxiv
链接:https://www.biorxiv.org/content/10.1101/2025.02.03.636095v1
简介:本文提出了一种名为sCIN的新型对比学习框架,用于整合单细胞多组学数据,在配对和非配对数据场景下均表现出色。sCIN通过模态特定编码器将不同组学数据映射到共享低维潜在空间,并利用对比损失函数对齐细胞嵌入同时消除技术偏差。实验在SHARE-seq、PBMC和CITE-seq三个真实数据集及模拟非配对数据上完成,结果表明sCIN在多个评估指标(如Recall@k、ASW、细胞类型准确性)上优于Con-AAE、Harmony和MOFA等方法。研究验证了sCIN在保留生物学信息和处理复杂单细胞数据整合任务中的高效性和鲁棒性。
4. A transferability-guided protein-ligand interaction prediction method
期刊:Methods
链接:https://www.sciencedirect.com/science/article/pii/S1046202325000283
简介:本文提出了一种基于迁移能力引导的蛋白-配体相互作用(PLI)预测方法,通过交叉注意力机制深度融合蛋白与配体模态,并利用迁移能力度量指导微调以优化知识转移。方法结合了交叉注意力机制和迁移能力引导策略,分别用于模态融合和减少负迁移。实验在PDBbind、Kinase、DUD-E和GPCR四个数据集上进行,结果表明该方法显著优于传统微调方法,性能提升达0.61%-8.03%,并通过统计检验验证了改进的显著性。研究表明,该方法有效提升了PLI预测的准确性和鲁棒性,为药物发现提供了新工具。
5. From Mechanistic Interpretability to Mechanistic Biology: Training, Evaluating, and Interpreting Sparse Autoencoders on Protein Language Models
期刊:bioRxiv
链接:https://www.biorxiv.org/content/10.1101/2025.02.06.636901v1
简介:本文提出了一种基于稀疏自编码器(SAE)的方法,用于解释蛋白质语言模型(pLM)的内部特征,并揭示其生物学意义。通过在ESM-2模型的不同层上训练SAE,提取并分类了可解释的潜在特征,结合线性探针分析其在下游任务中的表现。实验使用了UniRef50序列数据集以及多个下游任务数据集(如TAPE二级结构、亚细胞定位和热稳定性数据集),结果表明SAE潜在特征不仅能与已知生物学机制对应,还可能揭示未知功能特性。研究表明,SAE为理解pLM的工作机制及发现新生物学机制提供了有力工具。
6. Kinase-Inhibitor Binding Affinity Prediction with Pretrained Graph Encoder and Language Model
期刊:bioRxiv
链接:https://www.biorxiv.org/content/10.1101/2025.02.06.636965v1
简介:本文提出了一种名为Kinhibit的新框架,通过结合图对比学习和预训练蛋白质语言模型(ESM-S)显著提升了激酶-抑制剂结合亲和力预测的准确性,其创新点在于利用多视图图对比学习策略和知识融合特征优化模型性能。该方法使用自监督预训练分子编码器提取抑制剂特征,并通过结构信息增强的ESM-S模型提取激酶特征,再通过特征融合捕捉抑制剂与激酶间的复杂相互作用。实验基于MAPK数据集(包括RAF、MEK、ERK激酶)和多激酶数据集完成,结果表明Kinhibit在三类激酶上的预测准确率达到92.6%,并在包含200多种激酶的数据集中达到93.4%的准确率。研究为激酶抑制剂筛选和药物开发提供了高效工具,具有重要的应用前景。
7. ChemEmbed: A deep learning framework for metabolite identification using enhanced MS/MS data and multidimensional molecular embeddings
期刊:bioRxiv
链接:https://www.biorxiv.org/content/10.1101/2025.02.07.637102v1
简介:本文介绍了一种名为ChemEmbed的深度学习框架,通过结合增强的MS/MS数据和多维分子嵌入技术显著提升了代谢物注释的准确性与效率,其创新点在于使用合并的质谱数据和中性丢失信息以及Mol2vec生成的连续向量表示来改进模型性能。该方法利用卷积神经网络(CNN)从MS/MS谱图预测300维分子嵌入,并通过欧几里得距离和余弦相似度进行候选分子排名。实验基于NIST2018、GNPS、Agilent METLIN等数据集,测试结果显示在超过42%的情况下正确注释了排名第一的候选分子,在76%的情况下找到正确分子位于前五名;在CASMI 2016、CASMI 2022和ARUS数据集上的验证进一步证明其优于现有工具SIRIUS的表现。研究为高通量代谢组学应用提供了一个高效且可扩展的解决方案。
8. Top-DTI: Integrating Topological Deep Learning and Large Language Models for Drug Target Interaction Prediction
期刊:bioRxiv
链接:https://www.biorxiv.org/content/10.1101/2025.02.07.637146v1
简介:本文提出了一种名为Top-DTI的新型药物-靶点相互作用(DTI)预测框架,通过整合拓扑数据分析(TDA)和大型语言模型(LLM),显著提升了DTI预测的准确性和鲁棒性。该方法利用持久同调从药物分子图像和蛋白质接触图中提取拓扑特征,并结合ProtT5和MoLFormer生成的序列嵌入,通过动态特征融合模块和异构图神经网络(GNN)进行建模。实验在BioSNAP和Human基准数据集上完成,结果表明Top-DTI在多个评估指标(如AUROC、AUPRC)上优于现有最先进方法,尤其在冷启动场景下表现突出。研究为计算药物发现提供了更高效和稳健的解决方案。
9. Exploiting Transformer-Based Networks and Boosting Algorithms for Ultralow Compressible Boride Design
期刊:ChemRxiv
链接:https://chemrxiv.org/engage/chemrxiv/article-details/6774bb16fa469535b969c4f2
简介:本文开发了一种结合Transformer网络和Boosting算法的计算框架,用于设计超低可压缩硼化物,创新点在于利用Transformer生成新化学组成并结合机器学习预测高体模量材料。研究使用BLMM模型生成二元和三元硼化物,并通过AdaBoost和Gradient Boosting混合模型预测体模量,数据集来自Materials Project数据库和DFT计算。实验筛选出Re3B2、Re2B3、W5VB4和Re5CrB4等具有高体模量且稳定的材料,验证了其机械和动态稳定性。该研究为发现新型超硬材料提供了高效方法。
10. ISLRWR: A network diffusion algorithm for drug–target interactions prediction
期刊:PLOS One
链接:https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0302281
简介:本文提出了一种名为ISLRWR的网络扩散算法,通过改进随机游走策略显著提升了药物-靶标相互作用(DTIs)预测性能,其创新点在于增加孤立节点自环概率并重新校正转移概率矩阵。研究整合了药物、蛋白质、疾病和副作用等异构网络信息,采用RWR、MHRW和IMRWR等多种扩散算法学习网络拓扑结构并提取低维特征向量。实验基于DrugBank、HPRD、CTD和SIDER等数据库构建的两个数据集(Dataset A和Dataset B),结果表明ISLRWR在AUROC和AUPRC指标上较基线模型提升5.72%-7.53%。该方法为DTIs预测提供了高效且可靠的工具,并具有潜在的广泛应用前景。
11. Chemical Space Networks Enhance Toxicity Recognition via Graph Embedding
期刊:Journal of Chemical Information and Modeling
链接:https://pubs.acs.org/doi/10.1021/acs.jcim.4c02140
简介:本文提出了一种利用化学空间网络(CSN)结合图神经网络(GNN)嵌入的方法,显著提升了对八种人类健康毒性终点的预测能力,创新点在于通过可解释的人工智能框架将嵌入特征与分子路径关联,揭示潜在的结构警报。研究采用基于分子图表示和Tanimoto相似性构建的CSN,并使用GNN将其映射到度量空间以增强分类性能。实验基于公开数据集“Vega HUB”中的毒性数据,结果表明嵌入方法使ROC曲线下面积平均提升12%,且分类敏感性和特异性均有显著改善。该方法为设计更安全的化学品和药物提供了新思路,同时推动了毒性预测领域的替代方法发展。
12. Bayesian Optimization over Multiple Experimental Fidelities Accelerates Automated Discovery of Drug Molecules
期刊:ACS Central Science
链接:https://pubs.acs.org/doi/10.1021/acscentsci.4c01991
简介:本文提出了一种结合多保真贝叶斯优化(MF-BO)与自动化分子发现平台的方法,用于加速药物分子的筛选与优化,创新点在于通过整合不同实验保真度的成本与信息质量提升筛选效率。研究使用遗传算法生成化学空间,并利用MF-BO算法选择实验和保真度,同时结合ChEMBL数据库中的HDAC抑制剂数据集及模拟的对接分数、单点抑制率和剂量-反应曲线进行验证。实验通过自动化平台完成了超过3500次分子对接、120个分子的自动合成与测试,并手动评估了少量高保真分子,最终发现了多个亚微摩尔级别的新型HDAC抑制剂。研究表明,MF-BO在多样化化学空间中具有显著优势,为药物发现提供了高效工具。
13. Unifying Genetic and Chemical Perturbagen Representation through a Hybrid Deep Learning Framework
期刊:bioRxiv
链接:https://www.biorxiv.org/content/10.1101/2025.02.02.635055v1
简介:本文提出了一种名为UniPert的混合深度学习框架,旨在统一遗传和化学扰动剂的表示,通过对比学习和实验驱动的化合物-靶点相互作用,将不同扰动剂编码到共享的语义表示空间中,显著提升了扰动结果的预测能力。方法上,UniPert采用多尺度分子输入、自适应模型架构和组合训练策略,分别处理化学扰动剂的SMILES输入和遗传扰动剂的氨基酸序列输入,并通过图神经网络和对比学习优化表示。实验使用了多个数据集(如Dixit et al.、Norman et al.、sciPlex3、CPJUMP1和LINCS),验证了UniPert在区分药理学类别、预测未见扰动结果以及跨域扰动建模中的优越性能,特别是在转录组数据上,预训练模型在仅使用20%化学数据微调时,预测性能优于未预训练模型使用80%数据的情况,显著降低了化学扰动模拟成本。总结而言,UniPert为跨域扰动建模提供了统一的表示框架,推动了精准医学中的个性化药物筛选。
14. Linking machine learning and biophysical structural features in drug discovery
期刊:Front. Mol. Biosci.
链接:https://www.frontiersin.org/journals/molecular-biosciences/articles/10.3389/fmolb.2024.1305272/full
简介:该研究通过结合机器学习与药效团特征分析,识别出与配体选择性蛋白构象相关的关键特征,为药物优化提供直观且机制驱动的工具。研究利用分子动力学模拟生成四种GPCR蛋白的构象集合,并通过MOE软件生成药效团特征,使用多种机器学习算法筛选重要特征。实验基于DUD-E和GDD数据集进行药效团筛选和对接验证,结果表明模型在ADRB2上的富集率最高达54.27,显著优于传统方法。该研究为结合生物物理特性与机器学习优化药物设计提供了新思路。