
过去几年,AI 在科研中的角色正在发生变化。
早期的科研 AI 多用于文献检索、摘要生成和数据分析辅助;而最新一批系统开始进入更靠近科学发现的环节:提出假设、生成代码、设计实验、分析结果,并根据新数据继续迭代。
当前的主要痛点并不只是模型会不会回答问题,而是科研流程本身存在多个低效率环节:经验软件编写慢、文献知识分散、实验数据分析依赖专家经验、候选假设很难被系统性比较。前天,Nature期刊三连发。三篇 Nature 论文分别从不同入口切入这一问题:ERA 面向可评分科研软件,Robin 面向实验生物学闭环,Co-Scientist 面向结构化科学假设生成。



与传统方法不同,这些系统并不是简单调用一个大模型完成一次回答,而是把科研过程拆解成多个可执行步骤。
大语言模型(LLM)在这里的作用,是把文献、任务描述和实验反馈转化为可执行的代码、假设或研究方案。
多智能体系统指由多个专门代理协同工作,每个代理负责文献检索、假设生成、排名、反思或数据分析等不同任务。
树搜索(Tree Search)的作用,是在大量候选方案中平衡探索与利用,避免系统只沿着最早生成的单一路线改进。
这三篇论文的共同问题是:当科研任务可以被拆分、评分和反馈时,AI 是否能参与更长链条的科学推理?
ERA 关注的是经验软件。
经验软件指以某个可量化指标为目标、不断优化性能的科研代码,例如单细胞数据整合、流行病预测、时序预测和数值积分等任务。论文指出,科学发现常被计算实验所需软件的人工编写速度限制,而许多设计选择更多依赖直觉或便利性,而不是系统性搜索。
Robin 关注的是实验生物学闭环。
在药物再利用中,许多关键线索本已存在于文献中,但要把分散证据连接成可测试假设,需要跨疾病机制、药理学和实验模型进行综合判断。Robin 的目标不是替代实验,而是让 AI 参与“提出假设—建议实验—分析数据—更新假设”的循环。
Co-Scientist 则关注更通用的科研假设生成。
这项研究并不是把深度研究工具包装成科研系统,而是构建一个由生成、反思、排名、演化和元评审等代理组成的结构化科学思考引擎,用于持续生成、辩论和改进假设。
ERA 的核心是LLM + 树搜索。
系统先让 LLM 根据任务说明、评价指标和已有代码生成候选程序,再在沙盒中执行并打分。分数、日志和错误信息被反馈给树搜索,用于决定下一步改写哪一条代码路线。值得注意的是,ERA 还会把论文、教材或搜索结果中的研究思想注入提示词,让模型不只是调参,而是尝试重组方法。
Robin 的核心是文献智能体 + 数据分析智能体。
Crow 和 Falcon 负责不同深度的文献检索与候选药物评估;Finch 负责处理流式细胞术、RNA-seq 等实验数据。RNA-seq 是转录组测序技术,其作用是观察药物处理后细胞中基因表达如何变化。流式细胞术用于在单细胞水平检测荧光信号,从而量化吞噬能力等细胞功能。
Co-Scientist 的核心是生成—辩论—演化。
系统将科学假设放入类似锦标赛的比较机制中,通过 Elo 评分进行排序。Elo 评分原本常用于棋类或竞技系统,在这里用于衡量不同假设在成对比较中的相对质量。测试时计算(test-time compute)的作用,是让系统在推理阶段投入更多计算,通过多轮反思和演化提升假设质量。
在 ERA 中,研究人员将任务定义为可评分问题。系统生成多份代码,运行、打分,再选择值得继续探索的节点。可评分任务指有明确评价指标的科研问题,其作用是为 AI 提供即时反馈,使搜索过程可以自动迭代。
在 Robin 中,研究人员只给出目标疾病,例如干性年龄相关性黄斑变性(dAMD)。系统先识别疾病机制,再选择体外实验模型,提出候选药物;实验完成后,原始数据被交给 Finch 分析,分析结论再反过来指导下一轮候选药物生成。
在 Co-Scientist 中,科学家通过自然语言输入研究目标和约束。系统生成多个假设,由反思代理检查合理性,由排名代理组织科学辩论,由演化代理重组高分假设,最后形成可供专家审查的研究方案。
ERA 在单细胞 RNA 测序批次整合任务中表现突出。批次效应指不同实验批次带来的非生物学差异,其校正作用是让多来源细胞数据可以被共同分析。ERA 在 OpenProblems 基准上生成了多种优于人工方法的实现,其中 BBKNN 与 ComBat 的重组方案比最佳已发表方法整体提升 14%,并在多个数据集和指标上保持优势。
在公共卫生预测中,ERA 生成的 COVID-19 住院预测模型平均 WIS 为 26,优于 CovidHub Ensemble 的 29。WIS 是加权区间评分,其作用是同时衡量预测准确性和不确定性校准。论文还报告,ERA 产生了 14 种优于 CDC 集成模型的策略。
Robin 的验证集中在 dAMD。系统提出增强视网膜色素上皮细胞吞噬作用作为治疗策略。RPE 吞噬作用指视网膜色素上皮清除感光细胞外节碎片的能力,其异常与黄斑变性相关。实验中,Robin 识别出 ripasudil 和 KL001 可增强 RPE 吞噬;其中 ripasudil 是日本已批准用于青光眼的 ROCK 抑制剂,在 ARPE-19 细胞中使吞噬作用相对 DMSO 对照提升 1.89 倍,并在原代人 RPE 细胞中得到验证。
值得注意的是,Robin 进一步建议进行 RNA-seq,发现 ROCK 抑制相关处理可上调 ABCA1。ABCA1 是脂质外排泵,其作用是帮助细胞转运胆固醇和磷脂;这一结果提示 AI 驱动实验不仅能筛药,也可能暴露新的疾病通路。
Co-Scientist 的验证更偏向假设空间探索。在 203 个研究目标中,系统的 Elo 评分随推理轮次增加而提高;在 15 个专家策划的复杂生物医学目标上,系统通过持续计算逐步超过多个前沿模型和专家初始猜想。
在真实生物医学验证中,Co-Scientist 提出了急性髓系白血病药物再利用候选和组合疗法;在肝纤维化中提出表观遗传靶点,并有候选药物在肝类器官中显示抗纤维化活性;在抗菌耐药机制问题上,系统还复现了一个当时尚未公开的 cf-PICI 宿主范围扩展机制假设。
这三项研究的意义,不在于宣称 AI 已经替代科学家,而在于提出了一个更具体的问题:哪些科研环节可以被形式化为搜索、评分和反馈?
与传统方法不同,AI 系统可以同时探索大量候选代码、候选机制和候选药物组合;但这些结果仍需要专家审查、独立实验、疾病模型和临床研究验证。
这项研究并不是证明了 AI 已经能独立完成科学发现,而是说明当文献、代码、实验数据和评价指标被连接起来,AI 可以帮助科学家更快发现非显而易见的组合关系。
未来,这类系统可能用于单细胞组学分析、公共卫生建模、药物再利用、类器官筛选、材料发现和复杂疾病机制研究。真正的科学问题也因此变得更清晰:如何把 AI 的大规模搜索能力,与人类科学家的因果判断、实验设计和严谨验证结合起来。
Aygün, E., Belyaeva, A., Comanici, G. et al. An AI system to help scientists write expert-level empirical software. Nature (2026). https://doi.org/10.1038/s41586-026-10658-6
Ghareeb, A.E., Chang, B., Mitchener, L. et al. A multi-agent system for automating scientific discovery. Nature (2026). https://doi.org/10.1038/s41586-026-10652-y
Gottweis, J., Weng, WH., Daryin, A. et al. Accelerating scientific discovery with Co-Scientist. Nature (2026). https://doi.org/10.1038/s41586-026-10644-y