机器学习顶刊汇总：Nature、AM、JACS、Angew、Small Methods等成果

1. DeepMind/威尼斯大学Nature: 填补空白，使用深度神经网络破译古代文字！

古代史研究依赖于诸如金石学之类的学科，即研究铭文并将其作为古代文明思想、语言、社会和历史的证据。然而，几个世纪以来，许多铭文已经被损坏到难以辨认的程度，或是被运到远离其原始位置的地方，而且其书写日期也充满了不确定性。然而，用于修复和归因铭文的传统金石学方法涉及高度复杂、耗时且专业的工作流程。

在此，英国DeepMind公司Yannis Assael、意大利威尼斯大学Thea Sommerschield等人通过使用最先进的机器学习方法克服了当前金石学研究的限制，受生物神经网络的启发，深度神经网络可以在大量数据中发现和利用复杂的统计模式。作者展示了一种经过训练的名为Ithaca（伊萨卡，古希腊神话英雄奥德修斯的故乡）的深度神经网络架构，可以同时执行文本恢复、地理/时间归因的任务。该架构以公元前7世纪到公元5世纪期间的古希腊语言和整个古代地中海世界的铭文进行训练，数据集来源于帕卡德人文学院（PHI），由178551 个铭文的转录文本组成。这种选择主要有两个原因：首先，希腊铭文记录的内容和上下文的可变性，这使其成为语言处理的绝佳挑战；其次，古希腊语的数字化语料库是训练机器学习模型的重要资源。

图1. Ithaca架构处理流程示例

为了应对部分文字丢失的挑战，作者将字符和单词的共同表示作为Ithaca的输入，用特殊符号“[unk]”表示损坏、丢失或未知的单词。研究表明，该架构侧重于协作、决策支持和可解释性。虽然历史学家、Ithaca在单独修复受损文本时仅分别达到25%、62% 的准确率，但二者结合修复的准确率可提高至72%，证实了该研究工具的协同效应。此外，Ithaca实现了以71%的精确度将铭文定位到其原始地理位置，且将其年代追溯到距其真实年代范围不到30年的时间，从而重新编辑了古典雅典的关键文本并为古代史上的专题辩论做出了贡献。这项研究展示了Ithaca模型如何促进AI和历史学家之间的合作，从而彻底影响人类历史上最重要时期之一的研究和撰写。

图2. Ithaca架构的输出结果示例

Restoring and attributing ancient texts using deep neural networks, Nature 2022. DOI: 10.1038/s41586-022-04448-z

2. 橡树岭国家实验室AM: 假设学习用于探索自动化实验中的物理发现

目前，机器学习正迅速成为通过自动化、高通量合成及散射和电子/探针显微镜的主动实验进行物理发现的一个组成部分。反之，这迫切需要开发能够以最少的步骤探索相关参数空间的主动学习方法。

在此，美国橡树岭国家实验室Maxim Ziatdinov, Sergei V. Kalinin等人通过将结构化高斯过程（sGP）与强化学习（RL）策略相结合，引入了一种基于假设和实验空间共同引导的主动学习方法并将其命名为假设学习。在主动学习期间，系统行为的正确模型会降低所研究系统的整体贝叶斯不确定性。该方法由短的预热阶段和探索阶段组成，并假设在参数空间的随机/统一初始化坐标处存在多个测量值（“种子”测量值）。预热阶段的作用是为探索阶段产生“动力”，因为主动学习设置的目标是用最少的步骤来发现整体数据分布。此外，还必须向算法提供一个概率模型列表。这些模型可以作为独立的参数模型，也可以将其包装到sGP中。在经典实验设置下，一旦薄膜生长/材料被合成，该方法就会自动探索其特性并根据结果选择新的探索点（不同的成分或生长条件）。

图1. 该方法用于Sm掺杂BiFeO₃样品的PFM结果

这种方法非常类似于经典的人类驱动的物理发现，通过可调节参数的模型来实现几个替代假设并在实验中进行测试。接下来，作者通过使用压电响应力显微镜（PFM）测量探索Sm掺杂BiFeO₃中浓度引起的相变展示了这种方法。总之，该研究所提出的方法为扫描探针或其他成像方法与材料科学之间的协同研究提供了强有力的证明。虽然传统的组合研究受限于对库中材料结构和功能进行量化的需要，但这项聚焦X射线方法和扫描探针显微镜的最新进展提供了一种解决方案。同时，本文提出的假设驱动的高斯过程框架进一步允许物理模型之间的合并和选择。虽然该方法在此研究中仅针对1D情况的应用，但可直接将其扩展到更高维的参数空间和更复杂的物理问题。

图2. “自动化科学家”的概念

Hypothesis learning in automated experiment: application to combinatorial materials libraries, Advanced Materials 2022. DOI: 10.1002/adma.202201345

3. JACS: 人间清醒！基于文献数据的机器学习模型真的靠谱吗？

机器学习（ML）正在对许多研究领域产生影响，在学习基于明确定义的规则或大型高质量数据集的领域中取得了显著的成功。相比之下，当数据集质量较低且包含模型未正确捕获的特征时，预测效果可能会比较一般。一些报道尝试使用ML来预测特定反应的反应条件，似乎只要提供足够数量的文献来构建模型就可以获得准确预测。然而，事实真是如此吗？

在此，美国伊利诺伊大学厄巴纳-香槟分校Martin D. Burke及韩国基础科学研究所（IBS）Bartosz A. Grzybowski教授等人通过案例研究证明，这可能是一种过于乐观的解释，即使有大量精心整理的文献数据，ML方法可能也不会比文献中报道的普遍反应条件的估计效果好很多。换句话说，这些ML模型并没有提供更多的见解，只是提出了最普遍的反应条件。而这些反应条件本可以通过对文献案例的简单统计获得，这意味着ML没有实现“机器智能”。具体而言，作者基于精心挑选的>10000篇文献数据库并以杂环Suzuki偶联反应作为案例研究，考虑预测最适合于杂芳基-杂芳基或芳香基-杂芳基Suzuki偶联反应给定底物的反应条件。

图1. 预测问题的公式化和基于文献的反应条件统计

对于具有完整条件信息的>10000个反应示例，该反应似乎提供了足以成功实现 ML预测的反应统计数据。在对钯的溶剂、碱、温度和来源进行分类后，作者应用各种神经网络方法（前馈和图卷积）、词嵌入和正样本-无标签（PU）学习方法来开发预测模型。结果表明，即使搜索空间仅限于溶剂和碱，ML模型也不能提供对最佳反应条件的任何有意义的预测。在所有情况下，ML的表现并不比文献提出的普遍性反应条件好多少。这些结果表明，合成化学中的数据受到了非科学因素的严重影响，例如某些化学家对某些协议的主观偏好，甚至是实验室中当前化学品的可用性。因此，作者认为，化学中应用ML研究的前进道路是使用自动化协议生成标准化的数据集，特别是在不同条件下进行的多次重复反应，从而客观比较和学习好与坏的条件。

图2. 回归模型的学习结果

Machine Learning May Sometimes Simply Capture Literature Popularity Trends: A Case Study of Heterocyclic Suzuki–Miyaura Coupling, Journal of the American Chemical Society 2022. DOI: 10.1021/jacs.1c12005

4. 巩金龙/赵志坚Angew: 机器学习+DFT探究铜锌催化剂的CO₂ER活性位点

在铜基催化剂上将CO₂电化学还原（CO₂ER）为多碳化学原料具有相当大的吸引力，但目前仍存在活性位点不明确的问题，这阻碍了催化剂的合理设计和大规模工业化。

在此，天津大学巩金龙教授、赵志坚教授等人基于神经网络的全局优化、DFT计算相结合的方法进行了一种大规模模拟以获得真实的铜锌纳米粒子（NPs）模型，并研究了CO₂ER中CuZn催化剂上C₂₊产物活性位点的原子级结构。为了深入了解CuZn NPs的真实表面结构，寻找热力学最稳定的结构至关重要。作者基于具有神经网络势随机表面行走算法（NNSSW）的全局优化来搜索CuZn NPs的全局最小值（GM），研究了具有309个金属原子的较大NPs。通过基于神经网络势能的高通量测试，作者分析了2000多个表面位点并最终确定了两种活性位点，即平衡的Cu-Zn位点和 Zn原子主导的Cu-Zn位点，二者均有助于C-C耦合从而提高CO₂ER的选择性。

图1. CuZn NPs合成的理论模拟

通过Bader电荷和ICOHP分析表明，CuZn协同效应位点对中间体*CO的吸附有很大影响，并且在CO₂ER生成C₂₊产物的过程中起着至关重要的作用。CuZn原子排列会影响关键中间体*CO与CuZn表面的相互作用，从而影响*CO与活性位点之间的电子转移。实验结果也再次证明，由适度的Zn掺杂驱动的具有最佳*CO吸附的 NP 可以促进CO₂ER生成C₂₊产物。因此，这项工作为结合机器学习方法合理设计高效铜基催化剂提供了指导，为构建更现实的大尺度粒子模型和建立更准确的多相催化原子级结构-性能关系提供了通用的研究框架。

图2. 活性位点的实验验证

Nature of the Active Sites of Copper Zinc Catalysts for Carbon Dioxide Electroreduction, Angewandte Chemie International Edition 2022. DOI: 10.1002/anie.202201913

5. 圣光机大学Small Methods: 迁移学习+轮廓检测进行手绘图的逆向材料搜索

各种形态和成分的纳/微米材料在许多不同领域都有广泛的用途。然而，寻找具有所需结构、形状和尺寸的定制纳米材料仍然是一个挑战，并且通常通过在文献中进行人工筛选来实现。

在此，俄罗斯圣光机大学Vladimir Vinogradov等人首次开发了扫描/透射电子显微镜逆向图像搜索和基于手绘图的迁移学习搜索，即通过将在超过1400万张图像上预训练的VGG16卷积神经网络（CNN）重新用于图像特征提取（FE）和图像相似性（IS）确定。其中，VGG16 CNN由卷积层、池化层和全连接密集层组成，所有这些层都代表了输入图像像素强度的数学变换。卷积层表示将滤波器应用于像素组，从而考虑相邻像素之间的相互关系。池化层用于压缩图像，从而产生更紧凑的图像表示。密集层通常用于进一步的分类任务，以向量的形式产生一个或多个单独的输出，其分类精度与从图像中提取高级特征的有效性高度相关。结果表明，这种方法允许搜索具有最接近的形状丰度、尺寸分布及材料表面形态的材料，其中所有搜索结果在所有这些参数之间的折衷下进行排序。

图1. VGG16 CNN的逐层架构及逆向SEM图像搜索

此外，该方法在超过200种通过随机高通量筛选手动合成的>20种不同形状、尺寸和表面形态的CaCO₃基纳米材料及从研究文章中提取的超过6种形状的Au纳米粒子的案例使用中得到证明，从而验证了该方法的多功能性。更重要的是，Canny轮廓检测能够实现基于手绘图的查询，该查询引入了具有所需形状、尺寸和表面形态的定制逆向材料搜索。这些发现表明，从显微镜图像中提取的特征可作为纳米材料的形状、大小和形态的通用描述符。这项研究所开发的方法不仅可用于高级纳米材料搜索、合成过程验证和描述符生成，还可以进一步配备机器学习解决方案，从而在考虑形态特性的同时提供数据驱动的新型纳米材料发现。

图2. 基于手绘的逆向图像搜索展示

Inverse Material Search and Synthesis Verification by Hand Drawings via Transfer Learning and Contour Detection, Small Methods 2022. DOI: 10.1002/smtd.202101619

6. Batteries & Supercaps: 贝叶斯优化筛选锂离子电池的电解液添加剂最佳用量

液体电解质的成分是影响锂离子电池（LIBs）循环寿命的关键因素，电解液添加剂成分的选择和量化是一个活跃的研究领域。考虑到添加剂组分及用量的庞大组合空间，贝叶斯优化可用于引导搜索最佳解决方案，同时可大大减少实验工作量。

在此，德国亚琛工业大学Dirk Uwe Sauer教授、Felix Hildenbrand等人通过使用贝叶斯优化算法来指导搜索，研究了用于提高NMC622-石墨电池循环寿命的氟代碳酸亚乙酯（FEC）和碳酸亚乙烯酯（VC）最佳添加剂组合。其中，作者将不同的测量值用作目标变量，如开路电压梯度和库仑效率。研究表明，使用高斯过程（GP）算法指导搜索有助于加快搜索速度且具有最佳性能，共计进行了四次迭代。其中，在三次迭代中可以确定2个最佳组合，并在第四次迭代中确认其性能。最终，1.85 wt% FEC+1.1 wt% VC 和1.0 wt% FEC+1.0 wt% VC被确定为性能最佳的添加剂组合，可实现1000次以上的循环并分别保持了992 mAh和1004 mAh的中值容量。

图1. 按迭代排序的每种电解液的研究参数

此外，研究表明，VC有助于减少初始容量损失和过电位增加，而FEC则提高了长期稳定性。因此，VC的浓度应该受到限制，因为它对长期稳定性和放气行为有负面影响。同时，增加FEC浓度一方面没有缺点，但另一方面并没有进一步提高性能，减少其使用量有助于降低成本。未来的工作可以使测试条件多样化并执行特定于应用程序的测试，其结果可以在多目标优化中进行处理。总之，通过这种方式，可以实现添加剂的选择及量化设计。另外，该研究所提出的方法还可以应用于优化其他影响电池循环寿命的设计参数。最后，将贝叶斯优化的参数选择应用于工业电池生产线将具有重要意义。

图2. 所有研究的LIB的循环放电容量

Selection of Electrolyte Additive Quantities for Lithium-Ion Batteries Using Bayesian Optimization, Batteries & Supercaps 2022. DOI: 10.1002/batt.202200038

原创文章，作者：v-suan，如若转载，请注明来源华算科技，注明出处：https://www.v-suan.com/index.php/2023/10/14/5a138e7e9a/

机器学习顶刊汇总：Nature、AM、JACS、Angew、Small Methods等成果

相关推荐

发表回复