材料合成路径预测是物质科学领域的重要课题。1990年诺贝尔化学奖授予了美国有机化学家Elias James Corey教授,表彰他开发了计算机辅助有机合成的理论和方法,将人类300多条经验写进计算机编码,成为制药领域的重要工具软件。无机材料受限于合成路径的复杂度和缺乏数据集等因素,尚未有清晰的化学合成路径预测机制。
人工智能(AI)大模型的崛起是近几年人工智能领域的一项重大突破。人工智能大模型是指具有大规模参数数量的人工智能模型。这些模型通常使用深度学习算法,并且由数百万到数千亿个参数组成。这些参数用于表示模型在学习任务中的知识和能力。人工智能大模型的目标是通过学习大规模数据集中的模式和规律来实现强大的图像识别、自然语言处理、语音识别等人工智能任务。大模型的参数数量可以帮助它们更好地捕捉输入数据的复杂特征,并进行更精确的推断和预测。一些著名的人工智能大模型包括BERT(Bidirectional Encoder Representations from Transformers)、GPT(Generative Pre-trained Transformer)和BERT (Bidirectional Encoder Representations from Transformers),这些模型在自然语言处理领域取得了显著的成果。
图1 MatChat人工智能模型基本框架及功能细节
近期,中国科学院物理研究所/北京凝聚态物理国家研究中心SF10组和中国科学院计算机网络信息中心共同合作,将AI大模型应用于材料科学领域,将数万个化学合成路径数据投喂给大语言模型LLAMA2-7b,从而获得了MatChat模型,可用来预测无机材料的合成路径。该模型可根据所询问的结构进行逻辑推理,并输出相应的制备工艺和配方。目前已部署上线(http://chat.aicnic.cn/onchat),并向所有材料科研人员开放使用,为材料研究和创新带来了新启发和新思路。
该工作为大语言模型在细分科学领域的应用,提出了一种有可能的解决思路,并初步展示出了方法的可行性。通过自然语言模型提取文献数据,进而将文献数据用于语言模型训练是发展细分科学领域的一条可行路径。这项工作展示了无机材料合成路径预测领域的“莱特兄弟一分钟飞翔“,受限于数据集的数量和质量,模型预测精度尚受到一定限制。未来合作团队计划将更多的文献数据、Atomly.net 数据库等诸多高质量数据集用于模型训练,让无机材料合成路径预测的大飞机飞的更高更远。
表1 Matchat表现与其他大语言模型比较实例
这一成果近期以“MatChat: A Large Language Model and Application Service Platform for Materials Science”为题,在Chinese Physics B 最新开辟的Computational Program for Physics 栏目发表。由物理所孟胜研究员、中国科学院计算机网络信息中心王彦棡研究员领衔。刘淼研究员、王宗国副研究员为本文的通讯作者,谢帆恺为本文的第一作者。该工作得到中国科学院网信专项(CAS-WX2023SF-0101)应用示范项目的支持。
领取专属 10元无门槛券
私享最新 技术干货