作者 | 于浩清 编辑 | 庞超
今天给大家介绍德国法兰克福材料科学研究所的Teng Long等人在npj computational materials上发表的文章“Constrained crystals deep convolutional generative adversarial network for the inverse design of crystal structures”。自主发现具有理想性能的材料是材料科学的最终目标之一,目前的研究主要集中在基于密度泛函理论(Density Functional Theory,DFT)计算的高通量筛选(high-throughput,HTP)和基于机器学习的物理属性模拟。本文建立了一个生成模型,通过优化潜在空间的形成能来预测不同的稳定晶体结构。

一、研究背景
目前,基于DFT的HTP工作流程能够对现有和假设的化合物进行大量计算,极大地加速了新材料的发现。然而,高昂的计算成本阻碍了这种方法在巨大的相空间上进行彻底的筛选,这也限制了这类方法的应用。进化算法在预测热力学稳定的晶体结构方面很有前景,新兴的机器学习技术也已成为材料科学的第四种范式。生成式的机器学习方法已被用于发现不同的材料。
结合物理特性的正向建模,对现有结构的生成式机器学习能够实现逆向设计,即预测具有所需特性的不同结构。在本文工作中,作者开发了一个基于生成对抗网络(Generative Adversarial Network,GAN)的晶体结构预测逆设计框架,并将其应用于二元Bi-Se系统。将形成能作为目标属性,有两种集成到深度卷积生成对抗网络(Deep Convolutional Generative Adversarial Network,DCGAN)中的优化方案:(1)DCGAN+约束,遵循传统的筛选方法来选择结构;(2)约束的晶体深度卷积生成对抗网络(Constrained Crystals Deep Convolutional Generative Adversarial Network,CCDCGAN)带有额外的反馈回路,用于自动优化。本文比较了两种方案的性能,结果表明CCDCGAN模型生成稳定结构的效率更高,而DCGAN+约束模型生成亚稳定结构的效率更高。
二、模型与方法
2.1 数据集
通常,DCGAN需要几千种已知的晶体结构作为训练过程中的正样本。然而,对于一个给定的二元体系,已知的晶相大多有几十种,这对于深度学习是不够的。为了获取足够的训练数据,对使用的原型二元结构进行了DFT计算,并基于两个标准进行选择:(1)单位晶胞中没有大于20个原子;(2)最大晶格常数小于10埃。对10981个原型结构进行处理,替换Bi和Se原子后,成功收敛了9810个结构,将其作为训练数据库。
2.2 晶体结构的连续表示
晶体学和化学信息存储在晶体学信息文件(CIF)中,在生成模型中,不连续和异构的格式不是一种合适的表示方法,因此需要同时包含化学和结构信息的连续、均匀表示。根据“Inverse design of solid-state materials via a continuous representation”,晶格常数和原子位置被转换成体素空间,接着通过自编码器编码成2D晶体图,如图1(a)。这样就形成了一个连续的潜在空间。自编码器应用于Bi-Se数据库,成功重建了9810个晶体结构中的9420个,图1(b,c)为自编码器的学习曲线,根据曲线所示,并不是由于过拟合引起的如此高的重建比率。训练集丢失和测试集丢失的差异都可以忽略不计,这表明潜在空间中的二维晶体图包含了足够的信息来重建晶体结构。潜空间中12个典型的2D晶体图的多样性证实了这一点(图1d)。

图1. 2D晶体图重构
2.3 DCGAN的构造和预测
GAN训练两个相互竞争的神经网络(生成器和判别器),生成与训练数据在统计上相同的数据,而无需假设分布函数。判别器试图将生成的数据与训练数据区分开来,而生成器试图通过生成类似于训练数据的数据来欺骗判别器。从数学上讲,GAN的目标由以下等式定义:

其中D是判别器,G是生成器,E是期望值,x是原始数据,D(x)是以x为输入的判别器的输出,px是原始数据的概率密度函数,pg是生成数据的概率密度函数。
DCGAN生成的结构覆盖了如图2(b)所示的较大的范围,其中红点表示Bi-Se数据库中的原始数据,灰色圆圈为通过DCGAN生成的结构。生成的结构大多具有负的形成能,平均低于原始数据库。在生成的2832个结构中,有1233个是亚稳态的,58个是稳定的。

图2. DCGAN+约束模型示意图
在这2832个结构中有476个被认为是不同的结构,即不同于Bi-Se数据库中的结构,且彼此不同。其中有73个亚稳态结构和15个稳定结构。此外,DCGAN在生成结构时探索了更大的相空间,如图2(c)所示,Bi-Se数据库中的结构集中在潜在空间中的较小区域中,而DCGAN覆盖了更大的相空间。因此,DCGAN可以在已知晶体结构的相空间之外产生不同的晶体结构。
2.4 训练约束模型
逆设计的目标是设计具有所需性质的化合物,包括热力学、力学和功能性质。在本文中,作者将形成能作为目标性质。为了优化潜空间中的形成能,作者以潜空间中的二维晶体图为描述符,形成能为输出的物理性质,训练了另一个卷积神经网络(Convolutional Neural Network,CNN)模型。使用Bi-Se数据库中90%/10%的训练/测试集比率进行训练,得到的平均绝对误差(Mean Absolute Error,MAE)小于现有模型。也就是说,潜空间中的二维晶体图可以被视为对物理性质进行正向预测的有效描述符。图2(d)为训练过程的学习曲线。
2.5 DCGAN+约束的构造和预测
如图2(a)所示,实现形成能优化的直接方法是使用DCGAN对生成的结构加以约束。这样做的好处是不用额外训练一个模型,可以节省训练时间。然而,这种方法本质上是对DNGAN产生的结构进行选择,因此它不能自动地在潜在空间中搜索特定区域以达到局部最优值。
DCGAN+约束模型显示了它在生成亚稳态结构方面的优势。对DCGAN产生的2832个晶体结构加以形成能的约束,通过进一步的DFT计算选择并优化了2148个晶体结构。在这种约束下,亚稳态结构的比例高于DCGAN,达到了56.7%,高于DCGAN模型的43.5%。然而,由于筛选,生成的稳定结构的数量减少到36个。应用约束会危及不同结构的生成。在进行DFT计算之后,只剩下247个不同的结构,与DCGAN之前获得的476个结构相比,这些结构显著减少。原因是双重的。一方面,DCGAN产生的晶体结构不能保证处于力学和动力学平衡,即在DFT弛豫过程中晶格常数和原子位置会发生变化。另一方面,CNN模型作为约束条件,对形成能的预测效果并不理想。
2.6 CCDCGAN的构造和预测
如图3(a)中的CCDCGAN所示,约束也可以作为反向传播器集成到DCGAN中,以在潜在空间中实现自动优化,从而可以实现逆设计。与DCGAN+约束模型不同的是,CCDCGAN可以自动搜索潜在空间中的局部极小值,从而提高发现不同稳定结构的效率。

图3. CCDCGAN模型示意图
CCDCGAN具有较高的晶体结构生成成功率,从13000个生成的二维晶体图中成功转换出3743个晶体结构。与其他两种模型相比,CCDCGAN具有更高的稳定结构产生效率(3743个中有307个),这表明反向传播确实引起了潜在空间的优化。CCDCGAN生成结构的平均形成能低于DCGAN和DCGAN+约束。不同结构的数目比DCGAN或DCGAN+约束的数目大,在3743个结构上进行DFT弛豫后,共识别出511个不同结构。
为了探索CCDCGAN模型的全部能力,作者生成了100000个晶体结构,并对生成的结构进行了DFT计算。CCDCGAN模型能够再生大多数(15个中的11个)实验上可实现的相,如图3(c)。其他4个相不能再现,作者怀疑这可能归因于约束问题。为了进一步测试CCDCGAN的预测能力,作者特意去除了4个特定的训练集中的晶体结构,观察到这4种结构可以在实验中再生(图3 d,g)。这证明CCDCGAN可以生成未知成分的晶体结构。
三、总结
本文开发了一个由发生器、判别器和约束组成的反向设计框架CCDCGAN,并成功地将其应用于二元Bi-Se系统低形成能的未报道晶体结构的设计。证明了二维晶体图可以用来构造一个具有已知晶体结构连续表示的潜在空间,物理性质可以作为模拟的有效描述子,并且可以被解码成真实的空间晶体结构,从而产生不同的晶体结构。作者阐明了物理性质(如形成能)的优化可以作为显式约束或反向传播子集成到生成性深度学习模型中。但目前还面临一些挑战,例如如何使生成的结构进入其力学和动力学平衡等。
参考文献
Long, T., Fortunato, N.M., Opahle, I. et al. Constrained crystals deep convolutional generative adversarial network for the inverse design of crystal structures. npj Comput Mater 7, 66 (2021). https://doi.org/10.1038/s41524-021-00526-4