即使在缺少试验数据的情况下,设备学习系统也可以在材料“配方”中找到相应的模式。
上个月,麻省理工学院的三位材料科学家及其同事发表了一篇论文,讲述了一种新型人工智能系统,可以通过科学研究论文搜寻并提取用于生产特定类型材料的“配方”。
这项工作被设想成朝着人工智能系统迈出的第一步,这种系统可以为只在理论上存在的材料提供制作配方。目前,在《npjComputational Materials》杂志上的一篇论文中,麻省理工学院电气工程与计算机科学系(EECS)的三位材料科学家与他们的同事一起朝着这个研究方向迈出了重要一步,新型人工智能系统可以识别出各个配方中更高级别的相容模式。
例如,新型智能系统能够识别材料配方中使用的“先驱”化学品和晶体产物结构之间的相关性。研究结果证明,这种相关性在文献中也有记载。
该智能系统还依赖于一种自然机制提供生成原始材料配方的统计学方法。在论文中,研究人员使用这种自然机制来提供已广为人知的材料的替代配方,并且建议与真正的材料配方一致。
这篇新闻的主要作者是材料科学与工程专业的研究生爱德华·金(Edward Kim)。这位资深作者是他的顾问Elsa Olivetti,他是美国材料科学与工程学院(DMSE)的大西洋Richfield能源研究助理教授。他们由来自DMSE的博士后Kevin Huang和X-Window联盟的职业发展助理教授Stefanie Jegelka共同参与。
稀疏性和稀缺性
与过去10年的许多最佳的人工智能系统一样,麻省理工学院的研究人员的新型智能系统是一种所谓的神经网络,通过分析大量试验数据来学习并完成计算任务。传统上,使用神经网络系统来尝试生成材料遇到了两个问题,研究人员将其描述为稀疏性和稀缺性。
任何材料的配方都可以表示为一个向量,它本质上是一串长长的数字。每个数字表示配方的一个特征,例如特定化学品的浓度,被溶解的溶剂含量或发生反应的温度。
由于任何给定的配方将只使用文献中描述的许多化学物质和溶剂中的一些,所以这些数字中的大部分将是零。这就是研究人员所说的“稀疏性”。
同样,要了解如何修改反应参数(如化学浓度和温度)可能会影响最终产品,理想情况下智能系统将在大量实例中对这些参数进行整理。但是对于一些材料,特别是新材料,文献可能只包含少数几个配方。这就是所说到的稀缺性。
Kim说:“人们认为设备学习需要大量的数据,如果数据稀疏,就需要更多的数据。”“当你试图专注于一种非常特殊的系统时,你不得不使用高维数据,但却没有太多的数据,你还能使用这些神经设备学习技术吗?”
稀疏并且高维数据的问题在于,对于任何给定的构建示例,基底的大多数节点都不会接收数据。为了确保整个神经网络能够看到足够多的数据来进行可靠的归纳,需要大量的练习。
人为的瓶颈
麻省理工学院研究人员的神经网络系统目的是将输入的向量输入到更小的向量中,所有的数字对于每个输入都是有意义的。为此,这种网络有一个中间层,只有几个节点——在一些实验中只有两个节点。
构建的目的只是为了配置所谓的神经网络,使其输出尽可能接近输入。如果练习是成功的,那么中间层中的少数节点必须以某种方式表示输入向量中包含的大部分信息,但要以压缩更多的形式表示。这样的系统,在输出尝试匹配输入时,被称为“自动编码器”。
在试验过程中,这种神经网络给出的实例配方权重会根据它们的相似度得分而发生变化。
可行性
事实上,研究人员构建的神经网络系统不仅仅是一个自动编码器,还是所谓的变分自动编码器。这意味着,在试验过程中,神经网络不仅要评估其输出与输入的匹配程度,还要评估中间层与某些统计模型(比如熟悉的钟形曲线或正态分布)的值之间的关系。也就是说,在整个试验过程中,中间层所取的值应该围绕一个中心值,然后在所有方向上以固定的速度逐渐减少。
在试验过程中有一个两节点中间层的变分型自动编码器,在配方中加入二氧化锰和相关化合物后,研究人员构建了一个二维图,描绘了训练集中两个中间节点的值。
值得注意的是,使用相同前体化学物质的构建样本,在图中的相同区域之间有清晰的边界。同样的例子也证明了在二氧化锰的常见的“多形性”或晶体结构中,有四种是这样的。这两个映射结合了特定前体和特定晶体结构之间的相关性。
“我们认为这些区域是连续的,这需要慎重,”Olivetti说,“因为没有理由认为这一定就是真的。”
变分的自动编码也使得研究人员构造的神经系统能够产生新型配方。由于中间层的值遵循概率分布,因此随机选取一个值就可能产生一个合理的配方。
杰格尔卡说:“这实际上涉及到目前人们对设备学习非常感兴趣的各种话题。通过对结构化对象的学习,可以与专家进行协商,并生成结构化的复杂数据——我们将所有这些数据都集成在一起。”
Citrine Informatics公司创始人兼首席科学家Bryce Meredig说:“‘综合性能’是典型的概念,同时,它是材料科学的核心,但缺乏很好的物理定义。”他是一家提供大数据和人工智能技术的公司,并可以承担材料科学的研究工作。“因此,新型材料的电脑屏幕已经被无法进行预测材料的合成困扰了很多年。”Olivetti和他的同事们采用了一种依靠数据驱动的新型方法来映射材料的合成,并为我们不仅能够在计算机上识别具有令人兴奋的特性,而且可以对实验室中实际制造的材料做出重要的贡献。
这项科学研究得到了美国国家科学基金会、加拿大自然科学与工程研究委员会、美国海军研究办公室、麻省理工学院能源计划以及美国能源部的基础能源科学项目的支持。
原文来自news.mit,原文题目为Can computers help us synthesize new materials?由材料科技在线汇总整理。
领取专属 10元无门槛券
私享最新 技术干货