
DRUGONE
科学研究高度依赖对海量文献的系统综合,但随着论文数量激增,研究人员难以高效获取、整合并验证相关知识。大语言模型虽具潜力,但常出现幻觉引用、知识过时及缺乏可靠归因等问题。
研究人员提出了 OpenScholar ——一种专为科学文献综合设计的检索增强语言模型系统。该系统可从 4,500 万篇开放获取论文中检索相关段落,并生成带有精确引用支撑的长篇综合回答。同时,研究人员构建了首个多学科大规模评测基准 ScholarQABench,用于系统评估文献综合能力。实验结果表明,即使是参数规模较小的 OpenScholar-8B,也在复杂多文献综合任务中超越 GPT-4o 与现有系统,并显著减少虚假引用问题。研究人员进一步开源了模型、数据存储库及评测框架。

科学文献综合需要同时满足:
但现有大语言模型存在明显缺陷:
传统检索增强方法(RAG)虽有所改善,但缺乏:
OpenScholar 系统框架
OpenScholar 由三大核心组件构成:
专用科学文献数据存储库(OSDS)
是目前规模最大的开源科学文献向量库之一。
多阶段高精度检索管线
综合三类信息源:
并通过:双编码器初筛 + 交叉编码器重排序。确保相关性与覆盖性兼顾。
自反馈迭代生成机制
不同于一次性生成,OpenScholar采用:
显著提升:

图1:OpenScholar系统架构与ScholarQABench评测框架。
ScholarQABench 多学科评测基准
研究人员提出首个面向文献综合的大规模开放式基准:
覆盖领域:
数据规模:
评测方式:
解决以往短问答或选择题无法评估真实文献综合能力的问题。
主要性能结果
单篇论文任务表现
OpenScholar 在准确率与引用正确性上显著优于:
多论文综合任务表现
在专家评测中:


幻觉问题系统分析
研究人员系统统计发现:
不带检索的大语言模型
OpenScholar
同时,检索增强模型在信息覆盖范围上显著优于纯语言模型。
消融实验与系统分析
关键发现:
此外:
专家人工评测结果
专家从多个维度进行细致打分:
结果显示:
讨论
该研究首次系统构建了:
核心贡献在于:
OpenScholar 展示了检索增强语言模型在科研辅助中的巨大潜力,未来有望成为:
主要限制包括:
未来可引入:
整理 | DrugOne团队
参考资料
Asai, A., He, J., Shao, R. et al. Synthesizing scientific literature with retrieval-augmented language models. Nature (2026).
https://doi.org/10.1038/s41586-025-10072-4

内容为【DrugOne】公众号原创|转载请注明来源