Chem. Sci.: 通过无机材料的对比表示学习克服缺乏训练数据集的挑战!

Chem. Sci.: 通过无机材料的对比表示学习克服缺乏训练数据集的挑战!
数据表示形成了一个特征空间,其中形成了数据分布,这是决定机器学习(ML) 预测准确性的关键因素之一。特别是,数据表示对于处理小型和有偏差的训练数据集至关重要,这是ML在化学应用中的主要挑战。
Chem. Sci.: 通过无机材料的对比表示学习克服缺乏训练数据集的挑战!
在此,韩国化学技术研究院Gyoung S. Na、光州科技学院Hyun Woo Kim提出了一种与数据无关的表示方法即显式材料表示学习(EMRL),可自动且普遍地生成目标材料特性的晶体结构的最佳数据表示。作者展示了EMRL嵌入网络的嵌入空间(潜在材料空间)的概念,即通过嵌入网络将非向量空间(原始材料空间)中的材料投影到向量空间(嵌入空间)中,从而更容易处理数据。在生成的嵌入空间中,材料根据其目标属性的值进行粗略排列,这使得回归问题更容易。
作者评估了基于EMRL的ML算法的预测性能,以验证EMRL的有效性。具体而言,作者生成了一个梯度提升树模型EMRL-GB并以EMRL生成的材料表示作为预测材料属性的输入,共进行了4次实验来预测小型训练数据集、有偏差的训练数据集和迁移学习环境的材料属性。
Chem. Sci.: 通过无机材料的对比表示学习克服缺乏训练数据集的挑战!
图1. 不同模型基于两种数据集上不同比例训练数据的预测误差
结果显示,EMRL-GB仅使用HOIP数据集上20%的训练数据,便实现了与晶体图卷积神经网络(CGCNN)在80%数据上的可比预测误差。对于MPS-BG数据集,基于30%训练数据的EMRL-GB也表现出与CGCNN在80%数据上训练误差相当的预测性能。
此外,在预测未知材料组中材料物理性质的外推问题中,基于EMRL的ML算法预测精度提高了28.89~30.87%,EMRL的源代码可在 https://github.com/ngs00/emrl/tree/master/EMRL公开获得。作者将EMRL在材料科学的ML应用中的优势总结如下:1)针对给定材料目标特性自动且普遍地生成晶体结构的最佳表示;2)可提高ML算法在外推和知识转移的回归问题中的预测能力;3)对于发现新材料很有用,因为它提供了通用且稳健的材料表示,这对于探索未知材料空间至关重要。
Chem. Sci.: 通过无机材料的对比表示学习克服缺乏训练数据集的挑战!
图2. 基于EMRL的ML算法在有偏差数据集上的预测结果
Contrastive representation learning of inorganic materials to overcome lack of training datasets, Chemical Communications 2022. DOI: 10.1039/D2CC01764D

原创文章,作者:v-suan,如若转载,请注明来源华算科技,注明出处:https://www.v-suan.com/index.php/2023/10/10/99a54465f5/

(0)

相关推荐

发表回复

登录后才能评论