苏大尹万健Nature子刊:成本低3个数量级,图网络+优化算法实现晶体结构预测!

苏大尹万健Nature子刊:成本低3个数量级,图网络+优化算法实现晶体结构预测!

第一作者:程观剑(Guanjian Cheng)

通讯作者:尹万健教授

通讯单位:苏州大学,上海期智研究院

研究背景

在实验合成之前预测给定化学成分的晶体结构引起了凝聚态科学的极大兴趣,也是长期存在的挑战。由于DFT具有可靠的能量计算能力,目前最先进的晶体结构预测(CSP)方法主要是将DFT计算与结构搜索算法相结合。然而DFT计算涉及对众多候选结构的评估,因此非常耗时。基于机器学习(ML)模型代替DFT计算的方法准确性接近于量子力学计算,但计算成本要低几个数量级。

尽管有这种潜在优势,但基于ML的CSP方法仍然存在挑战:首先,ML模型应对晶体结构有敏感的响应,固定结构模型和对称不变模型在确定具有任意晶胞形状和原子坐标的基态结构(GSS)时可能不适用或受到限制。其次,ML模型的DFT级精度是从稳定晶体结构组成的训练数据中获得的,而搜索过程中的大多数结构都是亚稳态或不稳定的。最后,需要探索与ML模型兼容的优化算法。

成果简介

为此,苏州大学尹万健教授(通讯作者)等人报道了一种用于CSP的ML方法,使用图网络(GN)在给定数据库中建立晶体结构和形成焓(ΔH)之间的相关模型,并使用优化算法(OA)加速寻找具有最低ΔH的晶体结构。所用方法的框架(数据库+ GN模型+OA)非常灵活,可适应材料数据库、晶体图表示和OA的变化。最终,作者实现了2个基准数据库(开放量子材料数据库-OQMD和Matbench(MatB))及3种OA(随机搜索-RS、粒子群优化-PSO和贝叶斯优化-BO)对周期单元中给定原子数晶体结构的成功预测。
对比研究表明,在MatB结合BO上训练的GN模型,即GN(MatB)-BO,在预测29种化合物的晶体结构方面表现出最佳性能,计算成本比传统方法低三个数量级。因此,这种结合材料数据库、GN和OA的灵活框架可能为数据驱动的晶体结构预测开辟新途径。这项工作以“Crystal structure prediction by combining graph network and optimization algorithm”为题发表于著名国际期刊Nature CommunicationsIF=14.919)。

图文详情

要点1:GN-OA方法介绍

两个基准数据集,版本1.3的OQMD和MatB用于GN模型训练和评估。对于 OQMD,进行数据清理以排除具有不完整信息和限制的数据:(i)晶胞中的原子数(<50),(ii)PBE作为交换相关函数,(iii)动能截止(520 eV),确保数据尽可能可靠。因此,获得了超过320000个数据点,包括约40000个实验已知数据和280000个假设数据,涵盖85个元素、7个晶格系统和167个空间群。MatB包括约132000个数据点,涵盖84个元素、7个晶格系统和227个空间群。对于OQMD和MatB,采用相同的数据拆分比例,即训练集(50%)、验证集(12.5%)和测试集(37.5%)来构建CSP的GN模型。

苏大尹万健Nature子刊:成本低3个数量级,图网络+优化算法实现晶体结构预测!

图1. GN-OA方法的流程图

在最初的GN中,图由三个成分定义,即节点(vi)、连接节点的边(ek)和全局属性(u)。考虑到晶体中存在多个原子和对,晶体图在数值上表示为G({vi} i=1,nv, {ek} k =1:ne, u),其中viek是第i个原子和第k个对的属性,nv和nk分别是单元中原子和对的数量。在作为晶体图的MEGNet架构中,v和e是原子序数和空间距离,分别由从模型训练中学习到的Nv和Ne维向量(Nv和Ne是超参数)表示。因此,作者在原子属性{vi}之后添加了一个具有Nv×nv矩阵的嵌入层,在{ek}之后添加了一个nv×nv×Ne矩阵,其中nv×nv表示两个原子之间的对连通性。基于此,作者构建了GN模型以建立晶体与其ΔH之间的相关性:由矩阵{vi}和{ek}表示的晶体图作为输入,ΔH作为输出。

要点2:GN模型性能与优化

使用两个数据库中的数据各自训练GN模型,导致两种不同的GN模型,GN(OQMD)和 GN(MatB)。结果表明,GN(OQMD)的MAE (16.07 meV/atom)低于GN(MatB)(31.66 meV/atom),同一MatB数据集上1 meV的微小差异可能源于不同的数据拆分,插图显示MAE随着训练数据的数量而系统性下降。OQMD的更好性能可归因于其更大的数据库(约320000个数据),是MatB的两倍多。尽管GN(OQMD)的MAE较小,但其在CSP上的性能不如GN(MatB),表明GN(OQMD)可能过度拟合。

苏大尹万健Nature子刊:成本低3个数量级,图网络+优化算法实现晶体结构预测!

图2. GN模型的性能

丰富的实验数据表明,大多数低温晶体结构具有对称性并且添加对称约束将加速 CSP。作者通过添加2个额外的结构特征来处理CSP,即晶体对称性S和第i个原子的Wyckoff位置Wi,这是通过229个空间群和相关的1506个Wyckoff位置选择的。空间群S和相应的{Wi }是CSP期间优化后的变量,具有对称约束以生成Crys({vi}, S, {Wi}, {Ri}, L)。为了实际实施,作者还添加了一个额外的约束(4.0 Va > V > 1.0 Va,Va是组成原子的体积总和)以避免产生体积极小/极大的不合理结构。

理想情况下,如果可以列举所有可能的晶体结构并基于GN模型获得其ΔH,通过选择Δ H最低的晶体结构即可简单解决CSP问题。然而,枚举所有可能的结构是一个长期存在的挑战。为此,作者采用了三个OA:RAS、PSO 和BO进行优化。具体而言,作者通过基于Parzen估计树(TPE)的高斯混合模型应用BO 来探索结构空间。与在低维空间(特征数<20)中表现更好的基于高斯过程的普通BO算法相比,基于TPE的高斯混合模型在高维空间表现出更高的效率。

要点3:GN-OA方法的应用

作者以CaS为例,比较RAS、PSO和BO在CSP上的性能与在MatB上训练的 GN 模型的性能,迭代中ΔH的演变中可以清楚地看到三种OA的特征。对于RAS,ΔH在能量尺度中随机分布。同时,PSO可以快速找到低ΔH构型,但它可能会停留在局部最小值。相比之下,BO是一种在开发和探索之间取得平衡的算法,具有更高的跳出特定局部最小值的能力。在这种情况下,GN(MatB)-RAS和GN(MatB)-BO分别在第2503和第372步迭代时找到正确的GSS,而GN(MatB)-PSO在5000步内仍找不到正确的 GSS。对于GN(MatB)-BO,在第207步发现GSS,晶格常数为6.50 Å,然后其显示出将晶格常数优化为5.77 Å的能力,接近5.72 Å的DFT计算值。

苏大尹万健Nature子刊:成本低3个数量级,图网络+优化算法实现晶体结构预测!

图3. GN-OA的过程和性能

接下来,作者将GN-RAS、GN-PSO和GN-BO的方法应用于28种其他化合物的 CSP。结果显示:(i)与CaS所示的情况一样,无论GN是在OQMD还是MatB上训练,CSP的OA精度遵循BO > RAS > PSO;(ii)无论采用RAS、PSO还是 BO,在MatB上训练的GN模型对CSP的准确度比在OQMD上要好。最终,GN(MatB)-BO表现出最好的性能,它可以准确预测以下25种化合物的晶格常数和绝对能量差,平均误差分别为2.24% 和20.8 meV/atom。

苏大尹万健Nature子刊:成本低3个数量级,图网络+优化算法实现晶体结构预测!

图4. 由 GN-OA和DFT导出的GSS的比较

要点4:方法评估

准确性和效率是评估CSP方法的两个标准。准确性方面,由于GN模型是基于DFT计算的数据进行训练的,因此它无法超越DFT结果的准确性。在成本方面,GN(MatB)-BO比基于DFT的CSP更高的效率完成任务。计算时间考虑在 CPU 内核[Intel(R) Xeon(R) Silver 4210 CPU@2.20GHz]上运行,作者比较了DFT-PSO和GN(MatB)-BO预测25种化合物的计算成本,发现GN(MatB)-BO的计算成本比基于DFT的方法低三个数量级。

苏大尹万健Nature子刊:成本低3个数量级,图网络+优化算法实现晶体结构预测!

图5. 该方法与基于DFT方法计算成本的比较

结论展望

总之,作者构建了一个灵活的框架,该框架使用图网络在给定数据库中建立晶体结构及其形成焓之间的ML模型,再将该模型与CSP的OA相结合。然后,该框架应用于预测29种典型化合物的晶体结构。数据库、GN模型和OA的多种组合的对比研究表明,在MatB上训练的GN模型结合BO方法虽然精度低于基于DFT的方法,但计算成本要低三个数量级。同时,当前GN-OA方法的局限性也很明显。在方法论方面,有几个方向需要进一步发展,包括晶体结构表征、结构搜索和算法并行化,以更有效地预测更复杂和未知的结构。这项研究为数据驱动的晶体结构预测开辟了一条新途径,而无需使用昂贵的DFT计算。

文献信息

Cheng, G., Gong, XG. & Yin, WJ. Crystal structure prediction by combining graph network and optimization algorithm. Nat Commun 13, 1492 (2022). DOI: 10.1038/s41467-022-29241-4

https://www.nature.com/articles/s41467-022-29241-4

原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/10/49a0b1d500/

(0)

相关推荐

发表回复

登录后才能评论