前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Nat Biotechnol|香港中文大学李煜/复旦大学孙思琦等:利用语言模型实现快速的蛋白质同源物检测和RNA三级结构预测

Nat Biotechnol|香港中文大学李煜/复旦大学孙思琦等:利用语言模型实现快速的蛋白质同源物检测和RNA三级结构预测

作者头像
智药邦
发布2024-12-05 16:48:37
发布2024-12-05 16:48:37
1530
举报
文章被收录于专栏:智药邦

2024年7月12日,香港中文大学李煜团队与复旦大学智能复杂体系基础理论与关键技术实验室孙思琦团队、智峪生科王晟团队等在生物技术领域顶级期刊Nature Biotechnology发表论文论文Fast, sensitive detection of protein homologs using deep dense retrieval。

该研究提出了一种全新的超高速、高灵敏度的蛋白质同源物检测方法--Dense Homolog Retriever (DHR)。该方法利用蛋白质语言模型和密集检索技术,在不依赖序列比对的情况下,实现了蛋白质远程同源物的快速检测,显著提升了多序列比对(MSA)构建速度和蛋白质结构预测效率。

蛋白质同源物质检测的基础与挑战

蛋白质同源物检测是计算生物学中的一项基础工作,在蛋白质结构预测、生物分子功能分析、转录调控研究、系统发育重建以及生物标志物预测和药物发现等几乎所有生物序列相关研究中都发挥着重要作用。随着下一代测序技术的发展,生物序列数据库的规模不断扩大,传统的同源物检测方法在速度和灵敏度之间难以权衡,常常会遗漏远同源蛋白(即序列相似性较低但结构或功能相似的蛋白质)。这些方法中的一部分会在第一阶段就过于激进地丢弃远同源序列,剩下的方法则非常依赖于序列比对,耗时费力。

通过语言模型实现快速的蛋白质同源物检测

图1 DHR 用于快速检测远程同源物。a) 与AF2使用的传统 MSA 构造方法相比,DHR实现了极快的同源物搜索和MSA构建。b) DHR构建的MSA能提升结构预测精度。

似于基于人类语言训练的ChatGPT,在大规模序列数据集上预训练的蛋白质语言模型展现出捕获进化信息的潜力。此外,蛋白质语言模型的另一个优势在于其无需比对的特性,在处理序列时速度极快。因此,联合团队基于蛋白质语言模型和密集检索(Dense Retrieval)开发了Dense Homolog Retriever (DHR)方法(图1)。该系统利用先进的蛋白质语言模型将查询序列编码为嵌入式向量表示,并通过向量之间的简单相似度度量对数据库进行搜索和同源性比较。

实验表明,DHR在远程同源物检测中表现出极高的速度和灵敏度。与传统方法相比,DHR的灵敏度提高了10%以上,在传统方法难以识别的超家族水平上,DHR的灵敏度更是提高了超过56%。同时,DHR的速度是传统方法(如PSI-BLAST和DIAMOND2)的22倍,是HMMER的28,700倍。当将DHR与JackHMMER串联以加速迭代MSA构建过程时,DHR比传统方法快93倍,并且构建的MSA与AlphaFold2生成的MSA高度一致。此外,DHR与JackHMMER生成了更多样化和全面的MSA,在与AlphaFold2生成的MSA合并时,平均能提高0.4 Å的蛋白质预测精度。

总结与展望

DHR为蛋白质远程同源物鉴定这一项计算生物学的基本挑战提供了强大的解决方案,有望成为蛋白质进化、结构和功能分析的基础,这也是语言模型在生物学中的一种强大应用。除了预测蛋白质结构和功能外,还可以进一步开发此类模型以解决序列分析中的其他重要计算挑战。联合团队后续将利用这些方法无需序列比对的特性和处理海量数据集的能力,开发更强大的工具。

参考资料:

1.https://www.nature.com/articles/s41587-024-02353-6

2.https://mp.weixin.qq.com/s/I4pT0kydBYTsFLKtMJsq1A

--------- End ---------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档