麻省理工Nature子刊:提升22.8倍!机器学习加速聚合物电解质筛选!

麻省理工Nature子刊:提升22.8倍!机器学习加速聚合物电解质筛选!
第一作者:谢天
通讯作者:谢天、Jeffrey C. Grossman
通讯单位:美国麻省理工学院

研究背景

聚合物电解质因其低成本、安全性和制造兼容性而成为下一代锂离子电池技术的有希望候选者。当前聚合物电解质的主要挑战是低离子电导率,这限制了其实际应用,这一限制激发了大量的研究通过实验和原子尺度的模拟来探索新的聚合物类别。然而,聚合物电解质的大规模筛选受到无定形系统中分子动力学(MD)模拟的巨大成本的阻碍:聚合物的无定形结构需要多次重复采样以降低噪声,而缓慢弛豫需要较长的模拟时间才能收敛。

成果简介

在此,美国麻省理工学院Jeffrey C. Grossman教授、谢天博士(共同通讯)等人使用多任务图神经网络从大量嘈杂、未收敛的短MD数据和少量收敛的长MD数据中学习,从而加速聚合物电解质筛选。其中,作者采用多任务学习来实现从短模拟属性到长模拟属性的校正。结果显示,模型对真实属性的预测误差小于来自单个MD模拟的随机误差,并且它还比线性校正更好地校正了来自未收敛模拟的系统误差。结合随机和系统误差的减小,作者成功地筛选了6247种聚合物的空间并发现了最好的聚合物电解质,与直接模拟每种聚合物相比,这相当于22.8倍的加速度。
此外,作者还提取了聚合物电解质的几个设计原则,并为社区提供了一个开放的数据集。总之,该方法可适用于涉及模拟复杂、无定形材料的广泛类型的材料发现问题。这项研究以“Accelerating amorphous polymer electrolyte screening by learning to reduce errors in molecular dynamics simulated properties”为题发表于国际顶级期刊Nature Communications

图文详情

要点1:聚合物空间和学习框架
作者重点研究了一种成熟的缩聚路线,使用羰基二氯和含有两个伯羟基、氨基或硫醇基团的任何组合的共聚单体形成聚碳酸酯、脲、二硫代碳酸酯、聚氨酯、硫代聚氨酯和硫代碳酸酯。在获得聚合物的分子结构后,作者使用蒙特卡洛算法对其3D无定形结构进行采样,每千克聚合物插入1.5 mol LiTFSI盐并进行5 ns MD平衡,最后运行MD模拟以计算其传输特性,如电导率。
麻省理工Nature子刊:提升22.8倍!机器学习加速聚合物电解质筛选!
图1. 聚合物空间和学习框架的图示
上述工作流程中主要有两种类型的误差:随机误差和系统误差。随机误差的主要来源是聚合物初始无定形结构的取样,系统误差主要来自于获得收敛电导率所需的较长MD模拟时间。为此,作者尝试通过学习跨聚合物空间的共享模型来减小这些误差。为了实现这一目标,作者开发了一种多任务图神经网络架构来减小MD模拟中的随机和系统误差。
要点2:减小误差的性能
为证明上述模型可从噪声数据中恢复真实属性,作者首先研究了一个玩具数据集以从合成的噪声数据中预测LogP值。结果显示,当噪声标准偏差大于0.08时,真正的MAE小于高斯噪声的平均绝对偏差。这说明由于模拟中存在较大的随机误差,上述模型比噪声模拟更能准确预测LogP。此外,该模型对噪声电导率的预测也优于独立的MD模拟,因为它具有大的随机噪声,类似于LogP预测。
麻省理工Nature子刊:提升22.8倍!机器学习加速聚合物电解质筛选!
图2. 减小随机误差的性能
除了减小随机误差外,该模型还能够通过多任务方案学习5 ns和50 ns MD模拟属性之间的系统差异。很明显,通过学习对每种聚合物的定制校正来校正系统误差要优于整体线性校正。此外,通过使用低电导率聚合物进行训练,该模型低估了50 ns的电导率,这是由低电导率聚合物的缓慢弛豫及低电导率和高电导率聚合物可能存在的不同传输机制引起的。尽管如此,该学习模型仍比只能访问训练数据的线性校正性能更好。
麻省理工Nature子刊:提升22.8倍!机器学习加速聚合物电解质筛选!
图3. 纠正系统误差的性能
进一步,作者研究了该模型如何在少于50 ns的数据下发展。结果表明,尽管由于数据量小而存在较大的不确定性,但多任务模型的性能随着训练数据的减少而下降相对较慢。这一观察显示了协同训练更大的5 ns数据集和更小的50 ns数据集的优势,学习系统校正比从头开始学习属性要容易得多。相比之下,直接预测50 ns电导率的单任务模型的性能随着训练数据的减少而下降得更快。
要点3:加速聚合物筛选及验证
接下来,作者使用多任务模型对聚合物空间中的聚合物电解质进行了广泛的筛选。作者将搜索空间限制为仅包括单体分子量小于200的聚合物,从而产生6247个聚合物。首先使用5 ns MD模拟和单任务图卷积网络 (GCN)来探索搜索空间中的聚合物,随着使用迭代方法探索更多聚合物,前50种聚合物的电导率逐渐增加。但经过 900次模拟后,平均电导率仅略有增加,这表明在6247搜索空间中基于5 ns模拟获得了最佳聚合物。
麻省理工Nature子刊:提升22.8倍!机器学习加速聚合物电解质筛选!
图4. 聚合物电解质的筛选
然后,作者使用多任务模型来预测搜索空间中所有聚合物的50和5 ns电导率。对于5 ns预测的前50种聚合物,基于50 ns预测的前50种聚合物中仅剩37种。这种排序变化表明,系统误差的校正有助于识别一些聚合物,如果只进行5 ns的模拟,这些聚合物可能会被忽略。总的来说,作者使用大约394000 CPU小时进行MD模拟,其中33.2%用于采样和松弛非晶结构,28.6% 用于5 ns MD,38.2% 用于50 ns MD,而实际总成本仅占分别模拟来自6247个搜索空间和53362个候选对象的所有聚合物所需计算量的4.4% 和0.51% 左右。
麻省理工Nature子刊:提升22.8倍!机器学习加速聚合物电解质筛选!
图5. 预测聚合物的验证
作者基于多任务模型来筛选搜索空间中的6247种聚合物和候选空间中的53362种聚合物,同时通过收集文献中31种不同聚合物的实验电导率来进一步验证模型。其中,搜索空间中顶部聚合物的较大误差可通过50 ns MD模拟中的外推和随机误差的组合来解释。顶部聚合物大多数具有类PEO的子结构,这解释了其相对较高的电导率。此外,最大的误差来自实验电导率小于10-5 S/cm的聚合物。通常,由于收敛所需的长MD模拟时间,所以难以模拟低电导率的聚合物。
要点4:聚合物电解质设计见解
基于以上分析,作者对聚合物电解质设计的一些重要问题得出更具统计学意义的结论。首先,作者发现溶剂化位点的最佳比例约为0.4,近似于N、O、S原子与非氢重原子的原子百分比,可最大限度地提高锂离子电导率。此外,将侧链引入聚合物主链会降低锂离子电导率,这可能是由于与简单的线性链相比,侧链难以形成溶剂化位点。最后,作者进一步探索了限制聚合物电解质电导率的原子级机制,并通过计算预测的锂离子和聚合物扩散率之间的比率验证了锂离子在聚合物中的分段运动传输机制。
麻省理工Nature子刊:提升22.8倍!机器学习加速聚合物电解质筛选!
图6. 聚合物描述符与预测电导率之间的关系

总结展望

总之,作者在多任务学习框架下通过学习来减小MD模拟中的随机和系统误差,并对聚合物电解质进行了大规模的计算筛选。结果表明,类PEO结构是一类广泛的羰基聚合物的最佳结构。这项工作的独特贡献是展示了在材料筛选背景下短的、未收敛的MD模拟的价值,5到50 ns模拟传输特性之间的系统误差可通过少量50 ns模拟来纠正,这可推广到其他类型的材料、特性和模拟方法。在这项工作中观察到的随机和系统误差的减小突出了以前可能被忽视的不完美、更便宜的材料筛选模拟的价值。如果能识别出廉价、嘈杂和有偏见的模拟方法,则可使用类似的方法筛选更广泛类别的复杂材料。

文献信息

Accelerating amorphous polymer electrolyte screening by learning to reduce errors in molecular dynamics simulated properties, Nature Communications 2022. DOI: 10.1038/s41467-022-30994-1
https://www.nature.com/articles/s41467-022-30994-1

原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/10/7a071adcf5/

(0)

相关推荐

发表回复

登录后才能评论