1. metaCDA: A Novel Framework for CircRNA-Driven Drug Discovery Utilizing Adaptive Aggregation and Meta-Knowledge Learning
期刊:Journal of Chemical Information and Modeling
链接:https://pubs.acs.org/doi/10.1021/acs.jcim.4c02193
简介:本文提出了一种名为metaCDA的新框架,用于预测环状RNA(circRNA)与疾病的关联,通过自适应聚合和元知识学习提高预测准确性。该方法结合了多种相似性度量构建异质图,利用元网络提取元知识,并引入节点自适应注意力聚合机制来捕获高阶融合信息。实验在四个公开数据集(CircR2Disease、Circ2Disease、CircRNADisease)上进行,结果表明metaCDA在AUC、AUPR等指标上优于现有方法,能够有效预测疾病相关的circRNA。总结来说,metaCDA通过元知识和自适应注意力聚合机制显著提升了circRNA-疾病关联预测的准确性,为circRNA驱动的药物发现提供了新思路。
2. BenchXAI: Comprehensive Benchmarking of Post-hoc Explainable AI Methods on Multi-Modal Biomedical Data
期刊:bioRxiv
链接:https://www.biorxiv.org/content/10.1101/2024.12.20.629677v2
简介:本文提出了一种名为BenchXAI的新型可解释人工智能(XAI)基准测试框架,用于评估15种XAI方法在生物医学数据中的鲁棒性、适用性和局限性,创新点在于引入了样本归一化方法,使得不同XAI方法的结果具有可比性。研究方法包括使用蒙特卡洛交叉验证(MCCV)对XAI方法进行多次测试,并在临床数据、医学图像和信号数据、生物分子数据三种典型生物医学任务中进行验证。实验使用了威斯康星乳腺癌数据集(WBCD)、心脏病数据集(Heart)、合成信号数据集(Synthetic)、印度糖尿病视网膜病变图像数据集(IDRiD)和癌症基因组图谱乳腺癌数据集(BRCA),结果显示Integrated Gradients、DeepLift、DeepLiftShap和GradientShap在所有任务中表现良好,而Deconvolution、Guided Backpropagation和LRP-α1-β0在某些任务中表现不佳。总结表明,BenchXAI框架能够有效评估XAI方法在不同生物医学数据中的表现,为未来的医学AI应用提供了重要参考。
3. GENERator: A Long-Context Generative Genomic Foundation Model
期刊:arXiv
链接:https://arxiv.org/abs/2502.07272
简介:本文提出了一种名为Generator的长上下文生成基因组基础模型,具有98k碱基对(bp)的上下文长度和1.2B参数,通过训练包含386B bp真核生物DNA的扩展数据集,在多个基准测试中表现出色。方法上,Generator采用基于Transformer解码器的架构,使用6-mer分词器进行预训练,并通过基因序列训练策略优化模型性能。实验部分,模型在Genomic Benchmarks、NT任务和新提出的Gener任务上进行了评估,结果显示其在序列分类、K-mer预测和启动子设计等任务中均优于现有模型,特别是在生成功能蛋白质编码序列和优化启动子序列方面表现出显著潜力。总结来说,Generator为基因组研究和生物技术进步提供了强大的工具,能够增强对复杂生物系统的解释和预测能力。
4. A Guided Variational Autoencoder for Targeted Molecule Optimization in Drug Discovery
期刊:Journal of Healthcare Informatics Research
链接:https://link.springer.com/article/10.1007/s41666-025-00189-6
简介:本文提出了一种基于变分自编码器(VAE)的分子优化框架,通过引入辅助分类器直接映射输入分子到目标属性的潜在子空间,避免了复杂的后处理步骤。方法上,模型使用消息传递图神经网络(MPGNN)编码分子结构,结合向量量化变分自编码器(VQ-VAE)和循环神经网络(RNN)生成分子片段,并通过辅助分类器引导生成具有目标属性的分子。实验在BACE、GSK3和JNK3三个基准数据集上进行,结果显示生成的分子在目标属性上有所提升,且具有较高的新颖性和多样性,特别是在BACE数据集上,属性得分提升了13.9%。总结来说,该框架在小数据环境下有效优化了药物分子,为药物发现提供了新的工具。
5. PROBind: A Web Server for Prediction, Analysis and Visualization of Protein-Protein and Protein-Nucleic Acid Binding Residues
期刊:bioRxiv
链接:https://www.biorxiv.org/content/10.1101/2025.02.08.637237v1
简介:本文提出了PROBind,一个用于预测、分析和可视化蛋白质-蛋白质及蛋白质-核酸结合残基的Web服务器,创新点在于整合了12种基于结构或无序蛋白质训练的预测器,并通过元预测平衡不同方法的差异。PROBind支持FASTA格式的蛋白质序列或PDB格式的蛋白质结构作为输入,提供交互式图形工具进行结果分析和可视化。实验在包含结构注释和无序注释的蛋白质数据集上进行,结果表明元预测器在AUC指标上优于单个预测器,尤其在结构蛋白和无序蛋白之间表现出更好的平衡。总结来说,PROBind通过整合多种预测器和元预测机制,显著提升了蛋白质结合残基预测的准确性和实用性。
6. LLMs for Drug-Drug Interaction Prediction: A Comprehensive Comparison
期刊:arXiv
链接:https://arxiv.org/abs/2502.06890
简介:本文首次全面评估了大语言模型(LLMs)在药物-药物相互作用(DDI)预测中的潜力,创新点在于将分子结构(SMILES)、靶标生物体和基因相互作用数据作为文本输入,并通过微调显著提升了预测性能。研究评估了18种不同规模的LLMs,包括零样本预测和微调实验,使用了DrugBank和13个外部DDI数据集进行验证。结果表明,微调后的小型模型(如Phi-3.5)在敏感性和准确性上优于传统方法(如l2正则化逻辑回归),尤其在外部数据集上表现出色。总结来说,LLMs通过微调能够有效捕捉复杂的分子相互作用模式,为DDI预测提供了新的工具。
7. FAST AND FLEXIBLE 3D MOLECULE DESIGN FRAMEWORK FOR NOVEL ORGANIC OPTOELECTRONIC MATERIALS
期刊:ChemRxiv
链接:https://chemrxiv.org/engage/chemrxiv/article-details/67ae0f2cfa469535b92fae05
简介:本文提出了一种名为O^2-GEN的新型框架,用于快速、灵活地设计有机光电材料(OOMs),通过3D预训练模型和虚拟粒子方法,实现了高效且新颖的分子生成,显著提升了分子生成的速度和化学结构有效性。该方法利用超过1000万分子的多样化数据集进行预训练,支持全局和局部生成模式,并结合密度泛函理论(DFT)数据进行多属性筛选,生成的新分子在有效性和新颖性上接近100%。实验在COMPAS-1X、PAS、FORMED和AOMAD等数据集上进行,结果表明O^2-GEN在生成大分子时速度比现有模型快30倍,且生成的分子具有更高的完整性和连接性。总结来说,O^2-GEN为有机光电材料的设计和高通量筛选提供了强大的工具,具有广泛的应用潜力。
8. Convolutional Neural Network Based Characterization of Atomic Diffusion from Spectroscopic Imaging
期刊:ChemRxiv
链接:https://chemrxiv.org/engage/chemrxiv/article-details/67acfef26dde43c9089f2e84
简介:本文提出了一种基于卷积神经网络(CNN)的方法,用于表征原子扩散过程,通过光谱成像数据对扩散程度进行分类,创新点在于利用CNN的概率输出量化扩散程度,克服了传统扩散模型的局限性。方法上,使用光谱图像训练CNN,并通过不同的网络架构和池化函数(如全局平均池化和展平函数)分析其对模型性能的影响。实验通过生成的光谱图像数据集进行训练和验证,结果表明CNN在低节点数和较少隐藏层时表现最佳,全局平均池化在减少过拟合方面优于展平函数。总结来说,该方法为半导体制造中的原子扩散过程提供了一种高效且准确的表征工具。
9. Towards automated physics-based absolute drug residence time predictions
期刊:ChemRxiv
链接:https://chemrxiv.org/engage/chemrxiv/article-details/67ab714e81d2151a02fa2c3d
简介:本文提出了一种自动化的工作流程,结合随机加速分子动力学(RAMD)和罕见元动力学(iMetaD)来预测药物与靶标结合的绝对停留时间,创新点在于通过探索-利用模式自动生成集体变量(CVs),减少了人工干预和计算成本。方法上,首先使用RAMD生成药物解离路径,然后通过聚类确定主要路径,最后利用iMetaD计算停留时间。实验在多个蛋白质-配体复合物(如p38 MAP激酶、CDK8、A2A受体等)上进行,结果显示预测的停留时间与实验值具有良好的一致性(RMSE为1.22,R²为0.80)。总结来说,该工作流程为药物设计中的动力学预测提供了一种高效且准确的工具,适用于广泛的化学类型和时间尺度。
10. Large Language Models in Traditional Chinese Medicine: A Systematic Review
期刊:Acupuncture and Herbal Medicine
链接:https://doi.org/10.1097/HM9.0000000000000143
简介:这篇论文首次系统回顾了大语言模型(LLMs)在传统中医(TCM)中的应用,重点分析了其在生成任务中的表现,并总结了相关证据。研究通过检索截至2024年6月的电子数据库,筛选出10篇符合条件的研究,涵盖了TCM垂直领域、包含TCM数据的中医模型以及致敬TCM贡献的模型。实验使用了手动和自动评估指标来衡量模型性能,结果显示LLMs在TCM应用中表现出显著优势,能够有效处理智能TCM任务。研究指出,未来需要在TCM临床和基础研究领域进一步深入开发LLMs,并关注生成式AI技术在TCM应用场景中的功能分割发展方向。总结认为,LLMs在TCM中具有巨大潜力,但仍需解决临床接受度和解释合理性等挑战。