机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等

1. Science子刊: 将非线性机器学习模型简单线性组合,可解释性大大增强!
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
机器学习模型可以快速准确地预测材料特性,但通常缺乏透明度。可解释性技术可与黑盒解决方案一起使用,或可以创建可直接解释的模型。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
图1. 变量与预测结果之间关系的可视化
在此,卢森堡大学Alexandre Tkatchenko, Alice E. A. Allen重新审视了几项工作中使用的材料数据集并证明可以创建非线性基函数的简单线性组合,其精度与最初使用的核回归和神经网络方法相当。其中,作者研究的第一个示例是NOMAD Kaggle竞赛的获胜模型和透明导电氧化物(TCO)的形成能预测,获胜组使用了核岭回归(KRR)模型。进而,作者证明具有成对相互作用项的线性模型可以预测TCO的形成能和带隙能,其精度与KRR方法相同。然后,作者展示了另外两个可构建简单线性模型的示例,包括预测钙钛矿晶体的形成能及过渡金属配合物中的自旋分裂。在生成的模型中,系数反映了数据集中的趋势和已知的物理原理。在此,作者将创建的线性解决方案称为可解释的,因为由于函数形式的简单性可实现对全局模型的整体理解,且可将单个预测分解为变量和交互的贡献。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
图2. 双线性模型和KRR模型的性能对比
由于可解释性是一个主观且依赖于场的概念,为此作者并非专注于不确定的概念,而是确定了一组特征和相关优势:1)通过分析线性模型的系数,可看出模型是否与已知的物理原理一致。例如,从创建的线性模型的系数中可看出元素周期表中钙钛矿形成能的预期趋势;2)有了清晰的函数形式,模型中存在的假设就很容易看出这能够将新解决方案与现有预测模型进行比较,并识别存在的物理假设。3)线性模型的系数可提供用来指导未来预测的信息这可以通过关注重要的变量和相互作用来更快地进行属性预测。总之,本文重新审视的示例是对该领域的创新贡献,有助于建立复杂非线性ML方法预测化学和材料性能的能力。这些专门的线性解决方案提供了预测模型如何工作的新见解,并证明改变所使用的回归模型类型可能是增强可解释性的可行途径。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
图3. 过渡金属配合物的模型系数和数据集分布
Machine learning of material properties: Predictive and interpretable multilinear models, Science Advances 2022. DOI: 10.1126/sciadv.abm7185
2. 北理工熊瑞EcoMat: 机器学习驱动基于单圈电池数据预测电压-容量曲线!
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
随着可充电电池的广泛部署,电池衰减预测已成为一个具有挑战性的问题。然而,由容量损失定义的电池寿命提供的电池衰减信息十分有限。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
为此,北京理工大学熊瑞教授等人探索了基于序列到序列(seq2seq)模型的电池寿命电压-容量曲线的预测,并使用一个循环作为seq2seq模型的输入预测了数百个循环的锂离子电池的恒流(CC)电压-容量曲线。其中,seq2seq模型是一种端到端的方法,无需特征提取即可将序列映射到序列。该模型结构可灵活地分别合并和输出多条电压-容量曲线,它由编码器和解码器组成且两者都包含长短期记忆(LSTM)单元。从s-a+1到s的共a个循环的电压-容量曲线叠加在一起形成编码器的输入序列,代表从电压上限到下限的容量。类似地,解码器也输出未来循环的堆叠电压-容量曲线作为预测结果。结果表明,基于包含45个电池的电池衰减数据集,所开发的模型能够准确预测当前周期前100、200、……和1000个循环的电压-容量曲线。甚至,单圈循环的数据足以做出准确的预测。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
图1. 用于预测电压-容量曲线的seq2seq模型示意图
基于此,作者总结了这篇文章的主要贡献如下:(1)该方法可使用当前循环数据同时预测数百个循环的电压-容量曲线。此外,该方法不易受到“拐点”的影响,这提供了更新电池管理策略或安排维护以响应预测后果的机会。(2)该方法避免了复杂的特征工程,并且可灵活地结合不同数量的输入和输出周期。因此,它可以适应不同寿命和历史数据量的电池,从而洞察锂离子电池的寿命预测。(3)该方法具有强大的衰减数据生成能力仅使用当前单圈循环的数据就可以密集预测接下来300个循环周期内的电压-容量曲线,因此有望显著减少电池衰减测试的数量,并有利于其他数据驱动的诊断和预后方法的开发。据作者所知,这也是第一项全面预测电池特性并突出深度学习方法在电池衰减预测方面的研究。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
图2. 基于电池的单圈循环生成电压-容量曲线
Data-driven battery degradation prediction: Forecasting voltage-capacity curves using one-cycle data, EcoMat 2022. DOI: 10.1002/eom2.12213
3. 清华大学Small Methods: 机器学习辅助可控合成不同尺寸的Eu-MOFs
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
具有聚集诱导发光(AIE)活性的金属有机框架(MOF)在能源和生物医学技术领域具有潜在应用。然而,不同粒径MOFs的可控合成不仅影响其AIE活性,也限制了其应用场景。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
为此,清华大学李双寿教授、季林红教授及Qi Zhang联合清华长庚医院蒋绚教授等人通过调整合成工艺参数(合成温度、Eu前体浓度和合成时间)合成了不同粒径的铕基金属有机骨架材料(Eu-MOFs),并结合单因素分析方法和机器学习技术研究了其变化规律。首先,作者利用单因素分析方法研究了合成温度、Eu前体浓度和合成时间对Eu-MOFs粒径的变化规律,可得出以下结论:Eu-MOFs的粒径明显受Eu前驱体浓度支配,其影响比合成温度和时间更为显著。其次,作者采用了各种机器学习模型(如线性回归、AdaBoost回归、梯度提升决策树(GBDT)回归和随机森林回归)来评估Eu-MOF的粒径变化规律。基于比较模型的R2大小,作者最终采用GBDT回归模型(0.9535)来计算不同合成工艺参数之间的权重和相关性。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
图1. 机器学习辅助Eu-MOFs合成条件的评估和预测
研究表明,所有合成工艺参数对Eu-MOFs的粒径都有协同作用,且Eu前驱体浓度在其合成过程中占主导地位。基于上述工作,可以根据Eu-MOFs 的不同粒径范围预测合成工艺参数范围。此外,作者制备了三种典型的小尺寸Eu-MOFs,并研究了Eu-MOFs的AIE活性机制。通过分析粒度、XPS光谱和光致发光(PL)发射强度得出的结合效应,作者发现Eu-MOFs 的大尺寸和不同元素之间的强结合效应和结构稳定性有助于Eu-MOFs的高AIE活性。最后,作者利用在“120-0.3-6”条件下合成Eu-MOFs制作的丝网印刷图案在紫外光下呈现出明亮的红色荧光。更重要的是,这些Eu-MOF可用于识别各种离子(Fe3+、F、I、SO42-、CO32-、PO43-)及小分子(柠檬酸),I和葡萄糖浓度与PL发射强度呈极好的线性关系。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
图2. Eu-MOFs的荧光性质、离子和小分子识别
Size-Controllable Eu-MOFs through Machine Learning Technology: Application for High Sensitive Ions and Small-Molecular Identification, Small Methods 2022. DOI: 10.1002/smtd.202200208
4. 韩国科技院npj Comput. Mater.: 基于图神经网络评估钙钛矿可合成性
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
钙钛矿是地球物理学中的一种重要材料类型,具有重要的技术应用价值。然而,可合成的钙钛矿数量仍然相对较少。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
图1. 模型开发概述
为了加速钙钛矿的高通量发现,韩国科学技术院(KAIST)Yousung Jung等人提出了一种图神经网络模型来评估其可合成性。具体而言,作者将正无标签(PU)学习、特定领域学习和迁移学习相结合,开发了具有较高实用准确度的钙钛矿可合成性预测模型。其中,晶体的图形结构是通过将边缘分配给每个原子7 Å半径内的Voronoi近邻来构建的。原子特征通过按元素分类的one-hot编码方法构建,而边缘特征由距离和Voronoi立体角的高斯展开构建。这些特征用线性乘法和softplus激活编码,图卷积层包含相邻边和原子池以生成新的隐藏特征。该模型首先使用Materials Project(MP)数据库进行训练,然后使用从MP、OQMD和AFLOW三个数据库中提取的943个先前合成的钙钛矿晶体和 11964个虚拟钙钛矿用于学习。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
图2. 模型精度和数据分布
研究表明,该预测模型显示了95.7%的样本外真阳性率,而非特定领域原始模型的准确率仅约为74.0%。此外,该模型预测11964种虚拟钙钛矿中的962种材料是可合成的,其中179种虚拟晶体确实已在文献中报道合成。作者对具有最低可合成性分数的1000个虚拟晶体进行相同的文献搜索,没有发现产生合成案例,这进一步验证了模型的有效性。与最适用于经典离子钙钛矿的基于离子半径的经验模型相比,该模型展示了评估钙钛矿所有原型(反钙钛矿、共价钙钛矿、卤化物和氢化物)可合成性的通用性。为此,作者还将该方法用于识别两种潜在应用的可合成钙钛矿候选材料,即富锂离子导体和可实验测试的金属卤化物光学材料。总之,这项工作提出的特定领域迁移PU学习将有助于探索其他晶体家族和应用领域的目标特定晶体空间。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
图3. 模型验证
Perovskite synthesizability using graph neural networks, npj Computational Materials 2022. DOI: 10.1038/s41524-022-00757-z
5. 卡内基梅隆大学npj Comput. Mater.: 基于机器学习寻找单线态裂变预测模型
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
单线态裂变(SF),即一个单线态激子转化为两个三线态激子,可以显著提高太阳能电池的效率。经历SF的分子晶体很少,计算探索可能会加速SF材料的发现。然而,用多体微扰理论(MBPT)计算分子晶体的激子特性对于大规模材料筛选是不切实际的。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
图1. 分层筛选工作流程
在此,美国卡内基梅隆大学Noa Marom等人使用确定独立筛选和稀疏算子 (SISSO)机器学习算法来生成计算效率高的模型,该模型可以预测101种多环芳烃(PAH101)数据集的SF的MBPT热力学驱动力。其中,SISSO机器学习算法通过结合物理动机的主要特征来生成具有不同复杂程度的模型。随后,通过交叉验证的线性回归选择最具预测价值的模型。结果显示,生成的最准确模型产生的训练集均方根误差(RMSE)低于0.2 eV,其准确性远远超过了人类生成的基于单分子和晶体SF驱动力的DFT估计基准模型。此外,性能最佳的模型具有近乎完美的分类精度,可用于确定给定材料是否是有前途的SF候选者。基于模型准确性与主要特征评估的计算成本考虑,作者最终提出了一种分层筛选方法来缩小候选池。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
图2. 模型选择和性能评估
此外,给定材料的不同模型预测之间的差异可以用作不确定性的度量。某种材料的SISSO模型预测的巨大差异可能表明,为了模型再训练和改进的目的,它应该被选择用于GW + BSE计算,即使它不是一个有前途的SF候选材料。最后,作者在PAH101数据集中发现了三种以前没有报道过的潜在有前途的SF材料:BCPP、TBPT 和 DPNP。研究表明,BCPP具有与并四苯相当的热力学驱动力,但电荷转移(CT)特性显著降低,表明它可能经历缓慢的单线态裂变。TBPT和DPNP具有介于并四苯和并五苯之间的热力学驱动力和高度的单线态激子CT特性,这表明它们可能比并四苯经历更快的SF,并且比并五苯具有更小的能量损失(更高的能量效率)。BCPP、TBPT和DPNP属于迄今为止尚未在SF背景下研究过的化学家族,这可能有助于将实验工作引导到新的方向。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
图3. 三种SF候选材料的晶体结构
Finding predictive models for singlet fission by machine learning, npj Computational Materials 2022. DOI: 10.1038/s41524-022-00758-y
6. 黄世萍/张胜利JMCA: 构建双原子催化剂基因组实现高效HER/OER/ORR
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
在酸性介质中寻找高效、稳定和低成本的水分解和氧还原反应(ORR)电催化剂对于开发可再生能源具有重要意义,但仍然是一个持续的挑战。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
在此,北京化工大学黄世萍教授联合北京计算科学研究中心郭翔宇(Xiangyu Guo)、南京理工大学张胜利教授等人通过采用大规模DFT计算,证明了原子分散的双原子催化剂(BACs)可以作为一个通用的设计平台来实现高效的HER/OER/ORR。通过调控g-CN底物上的双原子组合,作者构建了包含23个同核和253个异核BAC(M2/g-CN和 MIMII/g-CN)的材料基因组。其中,分别有8、1和3种BAC在HER、OER和ORR方面具有出色的性能,超越了 Pt(111) 和 IrO2(110)表面的活性基准。AuRh/g-CN具有0.35 V的低过电势,显示出优异的ORR催化活性。AgPd/g-CN可用作OER/ORR双功能催化剂,而AuCo/g-CN可被视为HER/OER/ORR的三功能催化剂。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
图1. 异核BAC上的 OER/ORR活性
通过分析O2还原为H2O与还原为H2O2的反应速率之间的关系,作者从动力学角度阐明了H2O生成的热力学ORR选择性。最后,作者采用机器学习(ML)模型挖掘出与催化活性相关的主要描述符。为了提高训练效率和减少预测偏差,作者最终确定了8个独立特征和4个组合特征。结果显示,采用的随机森林回归器(RFR)模型基于训练和测试样本的R2值均大于0.965,其RMSE均小于0.333,表现出良好的预测性能。特征重要性分析表明,两个金属原子的距离(L)、周围N原子与金属原子之间的平均键长(d)、共价半径(Rcov-ul)对催化活性有显著影响,具有较小的Ld的系统很有可能成为HER/OER/ORR催化剂的有希望候选者。总之,这项工作不仅确定了潜在的催化剂,而且还展示了结构-性能相关性以了解催化剂的活性来源,这为设计高效的HER、OER和ORR催化剂提供了有用的指导。
机器学习顶刊汇总:Science子刊、EcoMat、Small Methods、npj Comput. Mater.、JMCA等
图2. 机器学习识别BACs的活性来源
Building up the “Genome” of bi-atom catalysts toward efficient HER/OER/ORR, Journal of Materials Chemistry A 2022. DOI: 10.1039/D2TA02050E

原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/10/8c1f866075/

(0)

相关推荐

发表回复

登录后才能评论