2024年7月12日,香港中文大学李煜团队与复旦大学智能复杂体系基础理论与关键技术实验室孙思琦团队、智峪生科王晟团队等在生物技术领域顶级期刊Nature Biotechnology发表论文论文Fast, sensitive detection of protein homologs using deep dense retrieval。
该研究提出了一种全新的超高速、高灵敏度的蛋白质同源物检测方法--Dense Homolog Retriever (DHR)。该方法利用蛋白质语言模型和密集检索技术,在不依赖序列比对的情况下,实现了蛋白质远程同源物的快速检测,显著提升了多序列比对(MSA)构建速度和蛋白质结构预测效率。
蛋白质同源物质检测的基础与挑战
蛋白质同源物检测是计算生物学中的一项基础工作,在蛋白质结构预测、生物分子功能分析、转录调控研究、系统发育重建以及生物标志物预测和药物发现等几乎所有生物序列相关研究中都发挥着重要作用。随着下一代测序技术的发展,生物序列数据库的规模不断扩大,传统的同源物检测方法在速度和灵敏度之间难以权衡,常常会遗漏远同源蛋白(即序列相似性较低但结构或功能相似的蛋白质)。这些方法中的一部分会在第一阶段就过于激进地丢弃远同源序列,剩下的方法则非常依赖于序列比对,耗时费力。
通过语言模型实现快速的蛋白质同源物检测
图1 DHR 用于快速检测远程同源物。a) 与AF2使用的传统 MSA 构造方法相比,DHR实现了极快的同源物搜索和MSA构建。b) DHR构建的MSA能提升结构预测精度。
似于基于人类语言训练的ChatGPT,在大规模序列数据集上预训练的蛋白质语言模型展现出捕获进化信息的潜力。此外,蛋白质语言模型的另一个优势在于其无需比对的特性,在处理序列时速度极快。因此,联合团队基于蛋白质语言模型和密集检索(Dense Retrieval)开发了Dense Homolog Retriever (DHR)方法(图1)。该系统利用先进的蛋白质语言模型将查询序列编码为嵌入式向量表示,并通过向量之间的简单相似度度量对数据库进行搜索和同源性比较。
实验表明,DHR在远程同源物检测中表现出极高的速度和灵敏度。与传统方法相比,DHR的灵敏度提高了10%以上,在传统方法难以识别的超家族水平上,DHR的灵敏度更是提高了超过56%。同时,DHR的速度是传统方法(如PSI-BLAST和DIAMOND2)的22倍,是HMMER的28,700倍。当将DHR与JackHMMER串联以加速迭代MSA构建过程时,DHR比传统方法快93倍,并且构建的MSA与AlphaFold2生成的MSA高度一致。此外,DHR与JackHMMER生成了更多样化和全面的MSA,在与AlphaFold2生成的MSA合并时,平均能提高0.4 Å的蛋白质预测精度。
总结与展望
DHR为蛋白质远程同源物鉴定这一项计算生物学的基本挑战提供了强大的解决方案,有望成为蛋白质进化、结构和功能分析的基础,这也是语言模型在生物学中的一种强大应用。除了预测蛋白质结构和功能外,还可以进一步开发此类模型以解决序列分析中的其他重要计算挑战。联合团队后续将利用这些方法无需序列比对的特性和处理海量数据集的能力,开发更强大的工具。
参考资料:
1.https://www.nature.com/articles/s41587-024-02353-6
2.https://mp.weixin.qq.com/s/I4pT0kydBYTsFLKtMJsq1A
--------- End ---------