人工智能正被用于化学研究的许多方面。
2025年2月5日,来自美国杜兰大学化学系的Bruce Gibb在Nature Chemistry上发表文章Eric the AI research assistant for chemists,讨论了开发AI的自上而下和自下而上的方法,强调了文化鸿沟的问题和数据质量的挑战。他还介绍了Eric--未来化学家潜在的AI研究助手。

我是个偏爱衍生概念的人。加速度总比速度更吸引我,气象动力学比即时天气更有趣,元素周期表趋势比单个元素特性更引人入胜。因此,尽管人工智能本身非常酷,但真正让我着迷的是它的发展方式。这种发展最直观的理解方式有两种。第一种是遥遥领先(至少在主流媒体中)的自上而下方法,依赖于整个全球互联网的数据。其背后的哲学似乎是:“别管数据质量,看看数据量有多大!”另一种稍显落后的方法是自下而上,强调数据质量的重要性--正如谷歌的任何数据科学家都会告诉你的:更多的数据胜过聪明的算法,但优质数据永远胜过更多的数据。
化学家们对自下而上的AI方法如何改进科学已十分熟悉。但我还想指出,尽管自上而下的方法常被赋予华丽的面纱,这种策略也能通过改进科学家自身来推动科学进步。我们稍后会讨论这些观点,但在此之前,有必要先解释为何化学界尚未全面拥抱AI。
在化学领域,AI的采用呈现出明显的不对称性,原因很简单:某些领域的数据天然更适合AI。因此,分析化学家遥遥领先,而天然产物鉴定与合成等领域则进展缓慢。但除此之外,是什么阻碍了整个化学界全面拥抱AI?首先,AI/计算机科学与化学之间存在文化鸿沟:总体而言,AI专家不理解我们的数据管理难题,而我们则倾向于认为AI是能解决所有化学问题的“魔杖”。(值得注意的是,要开拓众多AI化学新领域,我们需要培养"双语"化学新生代,部分顶尖院校已启动AI化学学位项目)。其次是企业对数据生成的保守态度,网络数据虽是唾手可得的资源,但工业界兴趣缺缺使得化学数据管理工作完全落在学术机构、政府及非盈利组织的化学家肩上。

图1 数字技能培训与其他可转移技能一样,必须与化学培训中的传统概念正交,并在应用环境中定期重新审视,并确定就业技能示例
化学文摘社(CAS)的工作者会证实,化学数据质量管理尤为困难。核心问题之一在于化学结构表征:SMILES字符串(文本式化学结构表示法)虽极具实用价值,却无法精准描述结构。因此学界正着力开发能明确界定所有现存及潜在分子的完整结构指纹。此外,实验室产生的物化数据标准化、规范化及阴性结果收录等问题也亟待解决。若能突破这些瓶颈,化学数据完整性将释放无限可能--DeepMind的AlphaFold正是依托顶级科学数据库(蛋白质数据库)斩获首个化学AI诺贝尔奖。
但仅靠自下而上的优质数据方法可能不够。如果接受"重大创新在过去几十年有所放缓,社会趋于保守渐进"的观点,那么简单地在现有化学研究上叠加AI难以最大化引发化学革命的概率。换言之,AI能解决制药巨头所有难题吗?诚然它能帮助降低成本、加速候选药物发现,或许足以抵消药物研发成本攀升与进度放缓。但仅通过AI增强常规操作,未必能解决制药业未能充分服务社会的问题--比如专注攻克困扰人类的常见疾病。AI能否将成本降至药企认为开发抗疟药或新型抗生素可获得可观稳定回报的程度?答案尚不明朗。
假设可预测回报是驱动制药业的永恒动力,AI如何促成抗生素开发与稳定收益的融合?科学史表明我们已收获大量"低垂果实",现在需要AI帮助我们转向“果树”--通过改变思维方式来提升所有不完美的化学研究者。
为此,自上而下的AI方法可补充自下而上策略。或许我们都需要类似桌面Alexa的化学助手,姑且称其为Eric(Enhanced Research In Chemistry, 化学增强研究智能)。Eric需要具备哪些功能?首先,通过处理繁琐任务解放我们的时间(就像计算机本该做的那样!)。更重要的是,Eric需提供激发创造力的信息,即兼具"苦力"与"缪斯"双重角色。
作为"苦力",Eric需出色处理文书与沟通工作。例如撰写收件人定制化邮件:兼顾"超过20字别烦我"型同事与热衷长篇大论的学者,识别周一上午或周五下午的最佳沟通时段。数万封邮件存档可作为优质训练集。Eric还能自动跟进未回复的重要邮件,从而腾出时间进行科研导向的深度组内交流。
实验室文书工作如报告、财务、库存更新、安全管理和采购等也是Eric的职责。初期版本可能难以应对各机构的差异化报告要求,但若从Word/PDF解析入手,逐步整合主要资助申报系统,3.0版本或可实现"根据文件X/Y/Z为机构A/B/C生成报告初稿"。在库存管理方面,现有实验室安全与合规操作系统(如SciShieldSM)尚未与化学品供应商系统对接,Eric需预备此功能--除非亚马逊科学收购所有相关方。
Eric还需弥补多数人的短板:实验室推广。他应能推荐论文PDF的发送对象,制定谷歌搜索优化策略,将研究成果摘要(由他撰写)发送至机构公关部门、化学期刊/博客、社交媒体和全国性报纸。若实现这些,Eric甚至能将笔者这样的内向者变成全球最外向的广告策划师。
解放文书负担后,作为"缪斯"的Eric需从古今人类知识中筛选与当前研究相关且具启发性的内容。现有期刊邮件提醒、关键词订阅和文献检索都是"已知的未知"。成熟的Eric至少要能扫描所有化学期刊/接入CAS(难道只有我觉得在被谷歌/亚马逊收购前,CAS对化学界的影响力会持续增强?),并将论文分级归类。谷歌声称NotebookLM("您的个性化AI研究助手")已实现类似功能,但手动导入PDF等操作仍显繁琐。只要谷歌暂不收购CAS,Eric就有发展空间。理想状态下,Eric还应跨学科获取灵感,提供看似无关但可能改变研究范式的论文,帮助我们认知"未知的已知"和"未知的未知"。
确保Eric启发灵感的最佳方式是让其参与组内交流--无论是邮件/Slack对话还是办公室讨论。这涉及数据隐私问题(许多对话可能包含知识产权内容),但只要数据所有权法律向正确方向演进,机构层面即可妥善解决。
综上所述,这里存在真正的协同潜力。Eric的自上而下设计让我们更专注科研,进而促进设计提升化学知识的自下而上AI方法,增强对社会的积极影响。无需AI也能预见,这种反馈系统的动力学效应将令人震撼--无论我们最终面对的是亚马逊、谷歌、微软还是其他AI巨头。
参考资料:
Gibb, B.C. Eric the AI research assistant for chemists. Nat. Chem. 17, 157–158 (2025).
https://doi.org/10.1038/s41557-024-01725-4