Sci.Adv.:晶体图注意力网络用于预测稳定材料


一、导读

机器学习方法在材料科学和固态物理中发挥了越来越大的作用。与密度泛函理论(DFT)等传统方法相比,机器学习方法所需的计算时间要少几个数量级,预测材料性质的精确性可以以与从头计算法相媲美。在过去的几年里,人们开发了各种机器来预测带隙,硬度,磁转变温度等各种物理性质。其中一个性质是决定给定物质稳定性的能量。因此,预测能量值对于寻找新的稳定化合物这一任务至关重要。

寻找新材料的现代理论方法包括扫描晶体结构的整个组成空间,用DFT优化每个晶体,然后将DFT能量与所有可能的分解通道进行比较。二元组合空间很容易用DFT进行预测,且技术已经成熟。然而,有大约105种三元组合,需要大量的化学计算。四元甚至更高的组合用DFT难以解决,但是机器学习却有希望解决相关问题。高通量搜索的主要和最有效的方法是计算单个原型的所有热力学稳定性凸包的距离,这一步可以通过训练特定的机器学习模型大大加快,只需要为每个原型提供单独的训练数据。另一种选择是开发基于组合的模型,这种模型与原型无关,可以确定潜在的稳定成分。然而,它们无法提供任何关于材料晶体结构的信息。

此外,还有大量的信息传递网络(MPNs),它们基于原子位置和组成来预测结构组成和绝对能量。这些网络通常可以达到很高的精度,但不幸的是,它们需要先验的晶体结构知识(包括晶格向量和原子位置),而这些知识在搜索新材料时通常是不可用的。

二、成果掠影

德国耶拿弗里德里希-席勒大学和欧洲理论光谱研究所Silvana Botti教授团队开发了一个超越上述所有方法的用于预测稳定材料的模型,该模型基于组合物和通用结构原型来预测到凸包的距离,而不需要精确的晶体结构知识。

全文从开发的模型和积累的数据集开始描述,通过详细研究钙钛矿的第四系族来展示模型的强度,得到结果,并在材料和方法中讨论了工作的细节。

相关研究工作以“Crystal graph attention networks for the prediction of stable materials

”为题发表在国际顶级期刊Sci.Adv.上。

三、核心创新

用于研究晶体结构的图神经网络通常使用原子位置和原子种类作为输入。但由于在预测新材料时这些信息是不可用(因为精确的几何信息是未知的)。作者通过用图距离的嵌入代替精确的键距离来规避这个问题,使得文章中的网络可以直接应用于基于成分和晶体结构原型的高通量研究,而无需使用松弛结构作为输入。作者积累了一个超过200万密度泛函计算的晶体数据集,具有一致的计算参数,并且将得到的模型应用于1500万个成分为ABCD2的四方钙钛矿的高通量搜索。结果确定了数千种潜在的稳定化合物,并证明用迁移学习改进后可以将所需的训练数据减少50%。

四、数据概览

1 晶体结构转化为图形。© 2023 AAAS

晶体结构是混合钙钛矿,考虑五个最近的邻居。其中蓝色边代表第一邻居,黑色边代表第二邻居,绿色边代表第三邻居。在消息传递步骤中,每个单独的边和顶点嵌入都基于其邻域进行更新。

2 描述创建数据集的工作流和产生的能量分布的模式。© 2023 AAAS

AFLOW计算270万次,材料项目计算14万次,组內积累计算130万次,最终得到209万个数据点(其中AFLOW计算96万次,材料项目计算0.10万次,组内数据计算102万次)。右边显示了最终数据集的凸包的距离的直方图。

3 到凸包的距离分布。© 2023 AAAS

橙色表示大部分稳定或接近稳定的化合物,这些化合物是由化学性质相似的元素取代而成的稳定结构。具有所有成分的高通量研究显示为蓝色/红色。机器学习(ML)引导的高通量研究显示绿色。

4 正确预测多态性之间相对稳定性的百分比与比较多态性之间能量的最小差异。© 2023 AAAS

主图显示了正确预测的多态性之间的相对稳定性的百分比,作为比较多态性之间能量的最小差异的函数。插图:显示了具有一定数量的多晶型的化学成分的分布。该数据包括在测试集中至少出现两次的所有组合。

5 测试MAE与训练集中系统数量的关系。© 2023 AAAS

显示了混合钙钛矿测试集的MAE,依赖于晶体图注意网络和3D ElemNet模型的混合钙钛矿数量。

6 包含每个元素结构的MAE© 2023 AAAS

在包含每种化学元素的测试集中混合钙钛矿的MAE。

 

五、成果启示

作者开发了一个新的机器学习模型,以组成和结构原型为基础预测材料的能量。与以前的方法相比,该模型输入特征不需要精确的几何知识,因此可以用于基于DFT的高通量方法,加速新材料的发现。我们的机器依赖于晶体图注意力神经网络,在消息传递步骤中,每个独立的边和顶点嵌入都基于其邻域进行更新。为了训练这台机器,作者编译并管理了一个超过200万密度泛函计算的大型数据集。这些数据包括来自在线数据库的数据点和自己的计算。尽管这个数据集的规模很大,但由于许多计算都是针对相对较少的不同晶体原型,因此这个数据集略有偏向。

为了避免这个问题,作者还提出了一种迁移学习方法,通用目标模型被重新训练为特定的晶体结构。通过对第四系钙钛矿进行实验,表明迁移学习可以将模型的训练速度提高两倍。通过从训练中忽略含钒化合物,作者还表明该网络可以可靠地外推到周期表的未知区域。

最后,用该训练模型来预测稳定的第四系钙钛矿,然后用DFT验证了预测。事实证明,有超过2万种材料有很好的机会被实验合成。这些大多是倒置的钙钛矿,在八面体的中心有氢、碳或氮,在八面体的顶点有两种金属合金化。综上所述,这种模型结合迁移学习技术将使人们在寻找新的稳定晶体化合物方向探索更广阔的化学空间。

 

原文链接:https://www.science.org/doi/10.1126/sciadv.abi7948

本文由雾起供稿。

分享到