这篇Angew超神！给出MOF结构就能预测合成条件！

共同一作：Yi Luo, Saientan Bag

通讯作者：Pascal Friederich, Manuel Tsotsalas

通讯单位：德国卡尔斯鲁厄理工学院

研究背景

金属-有机框架（MOF）化学通过创造一个巨大的化学空间而蓬勃发展，其中已发现了超过100000个MOF。随着结构类型、结构单元、接头和官能团种类的不断扩大，这一数字还在迅速增加。为了合成新的MOF结构，研究人员必须依靠知识经验和试错法，这是一个非常具有挑战性的过程，非常耗时、劳动密集且需要大量资源。因此，寻找一种找到最佳MOF合成条件的有效方法是当前加快MOF探索的瓶颈。

基于科学文献开发机器学习（ML）方法来预测所需MOF晶体结构的合成参数是一种具有挑战性但很有前途的方法，这将推进和加速化学合成。然而，MOF的逆合成设计，即针对目标MOF结构（如计算机设计）的合适合成条件的自动预测仍然是一个未解决的挑战。

成果简介

在此，德国卡尔斯鲁厄理工学院（KIT）Pascal Friederich, Manuel Tsotsalas（共同通讯）等人展示了如何通过基于其晶体结构直接预测MOF的合成条件，将机器学习（ML）用于合理化和加速MOF发现过程。该方法基于：i）通过从文献中自动提取合成参数来建立第一个MOF合成数据库，ii）使用MOF数据库训练和优化ML模型，以及 iii）预测新MOF结构的合成条件。ML模型即使在初始阶段也表现出良好的预测性能，优于通过综合调查获得的人类专家预测。自动预测工具地址见：https://mof-synthesis.aimat.science/，仅需提交MOF晶体结构的cif文件，该工具便会自动预测该结构的合成温度、时间、溶剂及添加剂（酸、碱或无添加剂）。该工作以“MOF Synthesis Prediction Enabled by Automatic Data Mining and Machine Learning”为题发表于国际顶刊Angewandte Chemie International Edition（IF=15.336）。

图文详情

要点1：数据库构建

作者开发了一个自动流程来提取有关CoRE MOF数据库中所有公开可用的 MOF结构的MOF合成信息，提取的六个相关参数是金属源、接头、溶剂、添加剂、合成时间和温度。除了从MOF文献中检索合成信息外，还使用MOF数据库中的晶体学信息文件（CIF）自动提取接头的结构信息和金属中心的氧化态。最终，作者将出版物中提取的合成细节（即金属来源、接头、温度、合成时间、溶剂和添加剂）、接头信息和CIF中的金属来源整合到SynMOF数据库中。

图1. MOF合成的试错法与数据驱动方法的流程示意图

除了MOF合成条件的详细信息外，SynMOF数据库目前由983个MOF结构组成，提供金属源和有机组分的统计数据。它包含46种不同金属，最常见的氧化态范围为+1~+3。大多数MOF结构由过渡金属组成，其中铜和锌占近50%。在多种有机分子中，最常用的MOF合成接头是多齿羧酸（即苯-1,3,5-三羧酸、苯-1,4-二羧酸和苯-1,2,4,5-四羧酸），然后是含氮碱（即吡啶、三唑和四唑）。

作者分析了MOF合成过程中最常用的溶剂在不同温度和添加剂方面的情况。在80~160 °C的温度范围内，N,N-二甲基甲酰胺（DMF）、水及二者与其他溶剂的混合物是最常用的溶剂。在高于160 °C的温度下，合成主要在水中进行。此外，大多数高温（120°C以上）MOF合成反应是在没有添加剂的情况下进行的，而在低于80°C的温度下，酸性添加剂占主导地位。

图2. SynMOF数据库的构建

要点2：机器学习模型的训练

基于SynMOF数据库中的数据，作者训练了多个ML模型来预测训练期间未见的各种MOF的合成条件。作者使用两种类型的表示作为ML模型训练的输入：一种基于接头的分子指纹，扩展了金属类型及其氧化态的编码；另一种是由由 Kulik等人开发的MOF表示。随着时间的推移，越来越多的新结构和相应的合成参数将可用于训练和改进ML模型。因此，图神经网络等表示学习方法可能会比依赖手工特征表示的模型更准确。

图3. 训练的机器学习模型及训练结果

训练结果表明，ML模型可识别目标MOF结构与所需合成条件（特别是温度和时间）之间的可预测关系。鉴于目前从文献中提取的数据量，随机森林模型在所有预测参数中具有最高性能。然而，神经网络将会随着数据集大小的增长做出更好的预测，甚至可利用不同合成参数（如溶剂和温度）之间的相关性。因此，将来更复杂的模型将优于随机森林。

基于ML的溶剂预测评估表明，ML模型优于随机选择，可达>90 %的准确度。在添加剂预测的情况下，ML模型的任务是将所需添加剂分类为酸性、碱性和无添加剂。虽然在训练集上表现良好，但对看不见的测试数据的泛化受到数据集不平衡的影响（大多数合成信息不使用添加剂）。使用训练数据点的平衡校正权重，导致预测可以很好地区分涉及碱性和酸性添加剂的合成过程。然而，酸性/碱性和无添加剂之间的区别不太明显。

要点3：ML模型性能评估

为了评估ML性能，作者对11位人类MOF专家展开了测试。基于从 SynMOF数据库中随机选择的50个MOF开发了一个在线测验，参与者获得了MOF的3D结构、接头的化学结构和金属离子的信息，并要求专家在没有任何文献或其他外部资源帮助的情况下估计合成条件。结果显示，专家的温度和时间预测与报道的合成条件之间的相关系数R²接近于零。这表明ML模型能够学习SynMOF 数据库中的广义方式和相关性，超出了专家的一般直觉，因此可用于识别新MOF的实验合成条件。

结论展望

总之，研究人员通过自然语言处理（NLP）方法基于自动数据提取建立了一个 SynMOF数据库，可为900多个MOF提供合成条件和结构信息，并根据这些数据训练ML模型以识别MOF合成方式。预计创建的SynMOF数据库将推动MOF社区内的NLP研究，而ML合成预测平台将成为数据驱动的MOF发现的新黄金标准。即使在初始阶段，ML模型也优于MOF专家的综合预测，这是综合过程背后的复杂性和开发数字预测工具迫切需求的基础。这种自动化按需合成预测将大大加速新MOF的发现，并作为MOF社区及其他领域的宝贵工具。

数据库、用于ML训练和预测的合成参数提取代码及专家调查可在以下网站获取：

https://github.com/Tsotsalas-Group/MOF_Literature_Extraction

https://github.com/aimat-lab/MOF_Synthesis_Prediction

文献信息

MOF Synthesis Prediction Enabled by Automatic Data Mining and Machine Learning, Angewandte Chemie International Edition 2022. DOI: 10.1002/anie.202200242

https://onlinelibrary.wiley.com/doi/10.1002/anie.202200242

原创文章，作者：v-suan，如若转载，请注明来源华算科技，注明出处：https://www.v-suan.com/index.php/2023/10/15/93fcb29523/

这篇Angew超神！给出MOF结构就能预测合成条件！

相关推荐

发表回复