癌症功能蛋白质组学通过解析蛋白质表达及其翻译后修饰,为揭示肿瘤发生机制、发现生物标志物和治疗靶点提供了重要支持。尽管癌症基因组学和转录组学数据已通过项目如癌症基因组图谱(TCGA)和癌症细胞系百科全书(CCLE)积累了丰富资源,但在蛋白质功能调控层面仍存在显著空白。传统工具,如反相蛋白芯片(RPPA)数据分析平台,在蛋白质标记覆盖范围和分析灵活性上存在局限。
为此,MD Anderson癌症中心的梁晗教授研究团队在2021年的时候推出DrBioRight第一版(论文链接:https://doi.org/10.1016/j.ccell.2020.09.002),基于自然语言处理技术建立起一个自动化分析平台。然而,如何进一步降低技术门槛、实现“无代码化”分析仍面临挑战。
随着LLM技术的发展,团队进一步开发了DrBioRight 2.0,一款基于大语言模型(LLM)的生物信息学聊天机器人,旨在通过整合大规模蛋白质组数据和自然语言交互,推动癌症研究的深入。最新发布的DrBioRight 2.0通过整合LLM,彻底革新了交互模式——用户可通过自然语言指令完成从数据提取到可视化的一站式分析。该成果已发表在《自然·通讯》(Nature Communications)。
DrBioRight 2.0整合了来自TCGA(7828例患者肿瘤样本)和CCLE(878株癌细胞系)的近9000个样本,覆盖32种癌症类型,包括乳腺癌、肺癌等。平台包含447个高验证抗体标记,其中包括357个总蛋白和90个翻译后修饰蛋白,涉及50个癌症核心通路(如PI3K-AKT、凋亡、DNA修复等),相较前代工具覆盖度提升约115%。此外,它通过标准化存储DNA、RNA、蛋白质及临床数据,构建了包含超10亿数据点的HDF5格式数据库,支持高效实时提取和多组学整合分析。
DrBioRight 2.0利用大语言模型实现了对话式分析,用户可通过自然语言提出问题,例如“请展示AKT2磷酸化与IL6表达的相关性”。系统会自动生成代码、执行统计分析并可视化结果(如热图或生存曲线)。平台支持高度定制化分析,用户可动态调整参数(如按性别分层或修改图表颜色),并下载R Markdown报告以复现分析流程。其多代理工作流采用图架构(LangGraph),协调生存分析、通路映射等任务,分析成功率达90%,显著优于通用GPT-4(58%)和传统工具(26%)。
为确保安全性,DrBioRight 2.0设计了输入过滤、代码隔离和频率限制三重防护机制,测试中恶意指令拦截率达100%。同时,平台通过基于用户反馈的强化学习(RLHF)和专家评分持续优化模型性能,为未来功能扩展奠定了基础。
DrBioRight 2.0在实际研究中展示了其灵活性和实用性。例如:
这些功能通过简单指令即可实现,大幅降低了生物信息学分析的技术门槛,使非专业用户也能轻松操作。
DrBioRight 2.0在以下方面取得了重要进展:
相较于传统工具(如TCPA),DrBioRight 2.0在灵活性(支持用户自定义分析)和可解释性(提供链式推理逻辑)方面具有显著优势,为癌症多组学研究提供了新的可能性。
研究团队计划进一步扩展蛋白质标记库,并探索单细胞蛋白质组学的整合,以提升平台的应用范围。目前,DrBioRight 2.0的所有数据可通过官网(https://drbioright.org )免费获取,代码和详细文档已开源,用户可访问TCGA(https://portal.gdc.cancer.gov)和CCLE(https://depmap.org/portal)获取原始数据。
DrBioRight 2.0通过整合大规模蛋白质组数据和智能化分析工具,为癌症功能蛋白质组学研究提供了一个高效、易用的平台。其自然语言交互设计和多组学整合能力,不仅提升了数据可访问性,也推动了从基础研究到临床转化的进程。对于癌症机制和转化医学领域的研究人员而言,DrBioRight 2.0有望成为探索蛋白质组数据的重要工具。
Wei Liu, Jun Li, et al. DrBioRight 2.0: an LLM-powered bioinformatics chatbot for large-scale cancer functional proteomics analysis. Nature Communications, 2025. DOI: https://doi.org/10.1038/s41467-025-57430-4
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有