机器学习顶刊汇总：Nature、Nat. Sustain.、EES、CEJ、ES&T等成果

1. 加州大学伯克利分校Nature: 机器学习基于移动手机数据实现精准扶贫

新冠大流行摧毁了许多低/中等收入国家，导致了广泛的粮食短缺和生活水平急剧下降。为应对这场危机，世界各国政府和人道主义组织已向超过15亿人分发了社会援助。其中，精准确定援助目标是一个主要挑战：在现有数据的情况下，迅速确定哪些人有最大的需求仍然是一项艰巨的任务。

为此，加州大学伯克利分校Joshua E. Blumenstock等人开发、实施和评估了一种基于机器学习算法和来自卫星/移动电话网络的非传统“大数据”的针对性社会援助的方法。这种方法使用传统的调查数据来训练机器学习模型，然后经过训练的模型可以优先向最贫困的手机用户提供援助。

首先，作者从移动网络运营商处获得特定时间段的手机元数据（呼叫详细记录CDR），包括通话信息、短信、移动数据流量使用及移动货币交易等。然后，使用微软开发的LightGBM为匹配的CDR数据集训练梯度增强回归器。通过五重交叉验证对模型进行训练和评估，在每个折叠上独立调整超参数以获得数据集中每个观察结果的样本外准确性估计和贫困预测。作者在所有调查数据上重新训练模型并记录特征重要性，最后使用最终模型为相关时间段内电话网络上的每个用户生成财富预测。

图1. 不同救援目标确定机制的福利分析

作者通过研究多哥（西非国家）的一个紧急社会援助计划Novissi（在埃维语中意为团结）来评估这种方法，并使用这些算法支付了价值数百万美元的COVID-19救济援助。通过分析比较了不同目标确定制度下的结果，包括排除误差（即真正的穷人被错误地认为没有资格）、总社会福利和公平性衡量。结果表明，相对于多哥政府考虑的地理定位方法，机器学习方法将排除误差减少了4~21%；相对于需要全面社会登记的方法（假设练习，多哥不存在这样的登记），机器学习方法将排除误差增加了9~35%。这些结果突出了新数据源补充传统人道主义援助目标方法的潜力，特别是在传统数据缺失或过时的危机环境中。

图2. 针对不同人口群体救援目标确定的公平性

Machine learning and phone data can improve targeting of humanitarian aid, Nature 2022. DOI: 10.1038/s41586-022-04484-9

2. 弗里堡大学/哥德堡大学Nat. Sustain.: 强化学习改善生物多样性保护

当前，超过100万种物种面临灭绝，这突出表明了迫切需要制定保护政策从而最大限度地保护生物多样性，以维持其对人类生活的多方面贡献。

为此，瑞士弗里堡大学Daniele Silvestro、瑞典哥德堡大学Alexandre Antonelli等人提出了一个基于强化学习（RL）的空间保护优先级新框架（CAPTAIN），且该框架始终优于使用模拟和经验数据的最先进软件。作者通过CAPTAIN对保护区进行优先排序，量化了区域和生物多样性保护的成本和收益之间的权衡，允许探索多个生物多样性指标。

其中，RL算法旨在找到“数据生成”（从系统当前状态中学习，也被称为“探索”）和“行动”（其效果由结果量化，也被称为“开发”、“奖励”）之间的最佳平衡。CAPTAIN可以优化静态政策，即一次性花费所有预算/随时间推移制定的保护政策，因此特别适合设计政策和测试其短/长期效果。“行动”是通过神经网络根据系统的状态来决定的，神经网络的参数在RL框架中得到优化以使“奖励”最大化。通过RL对模型进行训练后，可以利用模拟或经验数据来确定在空间/时间上的保护优先级。

图1. CAPTAIN框架和Marxan软件的表现比较

为了评估该框架的有效性，作者将该其与当前最先进的保护优先级规划工具Marxan软件进行了比较。第一次比较表明，CAPTAIN在64%的案例中优于Marxan，在防止物种损失方面平均提高了9.2%。第二次比较中CAPTAIN在77.2% 的模拟中优于Marxan，平均减少了18.5%的物种损失。为了证明该框架的适用性及可扩展性，作者分析了一个包括22394个保护单元（5×5 km）和1517个特有树种数据的马达加斯加生物多样性数据集并应用CAPTAIN框架。结果显示，CAPTAIN在受保护单位内发现物种范围的中位数为22%，远高于设定的10% 目标和使用Marxan实现的14% 中位数保护范围。因此，在瞬息万变且资源有限的世界中，AI为改善生物/生态系统的保护和可持续利用提供了巨大的希望。

图2. CAPTAIN的实证验证

Improving biodiversity protection through artificial intelligence, Nature Sustainability 2022. DOI: 10.1038/s41893-022-00851-6

3. 普渡大学/阿贡实验室EES: DFT+机器学习驱动设计新型卤化物钙钛矿合金

卤化物钙钛矿性质的高度可调性为光电应用提供了新的机会，也为探索组合化学空间带来了重大挑战。

在此，美国普渡大学/阿贡国家实验室Arun Mannodi-Kanakkithodi等人开发了一个用于预测具有B位混合的卤化物钙钛矿合金选定化学空间的结构、电子、光学和缺陷特性的框架，由使用PBE和HSE06泛函进行的高通量DFT计算和使用各种组成原子或分子的平均元素属性作为输入描述符对结果数据集进行训练的神经网络（NN）回归模型组成。

其中，在具有 A、B 和X原子的一组选定选项的ABX₃钙钛矿的化学空间中，作者利用DFT模拟了具有B位混合化合物的伪立方结构，并利用半局域泛函和杂化泛函计算了几种性质，包括稳定性、晶格常数、带隙、空位形成能、折射率和基于光学吸收光谱的光伏品质因数。

图1. PBE和HSE计算的229种化合物的晶格常数

此外，NN模型通过对超参数、训练-测试拆分和交叉验证的严格调整对DFT数据进行训练，然后对17955种化合物的数据集进行预测从而筛选出具有适当带隙、光吸收和缺陷容限的稳定材料。最终，获得了574种有前途的化合物，根据其光伏品质因数被列为潜在吸收剂。

作者揭示了筛选的一组有吸引力的混合阳离子卤化物钙钛矿的组成趋势，其中甲基铵（MA）和甲脒（FA）基碘化物占优势，B位混合包含较大比例的Pb和Sn及较小比例的Ge、Ba、Sr和Ca。这里开发的数据驱动设计框架有望用于设计新颖的钙钛矿混合组成且可以扩展到更广泛的化学空间，将有助于下一代光电子、功率器件和相关应用的新型结构、成分和合成途径的加速设计。

图2. 筛选过程中钙钛矿组成空间的可视化

Data-Driven Design of Novel Halide Perovskite Alloys, Energy & Environmental Science 2022. DOI: 10.1039/D1EE02971A

4. 师庆东/许紫峻CEJ: 机器学习辅助多发射传感器高精度检测重金属离子

荧光传感器阵列检测具有多样性、简单性、高精度、高选择性及更省时等优点，在检测多种重金属离子方面受到广泛应用。由于阵列传感检测的各种差异分析方法，迫切需要开发基于多种方法的最优模型。此外，这些模型缺乏通用性，难以应用于更广泛的研究。

在此，新疆大学师庆东教授、许紫峻等人构建了一种基于碳点（QR-CDs）和新型镧系配合物（EDTA-Tb³⁺）的简易多发射荧光传感器阵列，能够同时获取多维数据从而提高了对多种重金属离子的检测效率和准确性。由于金属离子和多发射传感器之间的良好响应，荧光强度（FI）随着金属离子添加到系统中而变化。

为了应对建立通用模型的挑战，作者通过“逐步预测”策略结合机器学习方法构建了一个创新的统一模型（SX-model）以获得最优的筛选方法。该模型在基于树的管道优化技术（TPOT）框架下集成了分类和集中模型，建立了每种金属离子浓度与测量的FI数据之间的逻辑关系。然后，通过TPOT选择了极端随机森林（ERF）作为各种方法中准确率最高的分类模型方法。

图1. SX-模型构建流程图

研究表明，基于ERF辅助的传感器阵列展示了对0.05~50 μM范围内的七种单一重金属离子（Cr⁶⁺、Fe²⁺、Cu²⁺、Fe³⁺、Mn²⁺、Co²⁺和Ni²⁺）的灵敏检测，准确度为95.6%且R²为0.73，这表明该模型可以成功地用于去离子水中单个金属离子的定量。同时，该模型可有效地识别二元混合样本，所有60个不同比例的混合样本都可以完全相互分离，从而达到100% 的检测精度。

此外，作者还对288个真实样品（取自湖水和土壤样品）中的金属离子进行了有效鉴定，准确率分别为93.3%和100%。因此，这项研究证明了多发射荧光传感器阵列在复杂环境中快速、高效和以低检测限检测多种重金属含量的巨大潜力。此外，独创的具有普适性的SX-模型有助于阵列检测，满足了建立阵列检测通用模型的挑战。

图2. SX模型区分真实样品中的金属离子

Multi-emission fluorescent sensor array based on carbon dots and lanthanide for detection of heavy metal ions under stepwise prediction strategy, Chemical Engineering Journal 2022. DOI: 10.1016/j.cej.2022.135690

5. 清华大学王笑楠ES&T: 机器学习预测生物炭对土壤重金属的固定效率

生物炭的应用是修复受污染土壤的一种有前途的策略，同时确保可持续的废物管理。重金属（HM）污染土壤的生物炭修复主要取决于土壤、生物炭和HM的性质，在生物炭改良土壤中固定HM的最佳条件因地点/研究而异。因此，需要一种通用的方法来预测生物炭改良土壤中HM的固定效率。

为此，清华大学王笑楠副教授、高丽大学Yong Sik Ok等人开发了机器学习（ML）模型来预测HM在生物炭改良土壤中的固定效率。一般统计方法只能实现单个因素与目标之间的样本线性或二次相关，而ML方法可以同时考虑最大可能的相关因素并识别与目标的复杂相关性。

作者收集了162个数据点并用于ML 探索，考虑了20个输入变量来评估其对生物炭处理土壤中HM固定化的作用和影响，包括热解温度、生物炭性质（pH和表面积）、生物炭组成（C、H、N、O和灰分含量）、原子比（H/C、O/C 和[O + N]/C）、实施条件（生物炭添加率、实施持续时间和有效HM浓度）和土壤特性（pH和电导率）。此外，HM固定被定义为输出变量。归一化后的数据集被随机分为两部分：85% 用于ML模型训练，其余15%用于最终模型评估。

图1. ML框架策略的流程图

为确保整个数据集的一致性并获得缺失的数据点，作者开发了3种ML算法（随机森林-RF、支持向量回归-SVR、神经网络-NN）以使用热解温度、pH、成分和原子比推导出缺失的表面积（SA）数据作为输入。作者发现H/C原子比是SA预测的最重要特征，这是一个未报道过的新发现。第二个最重要的特征是pH，其次是生物炭热解温度。此外，具有最佳调整超参数的RF模型是预测HM固定效率的最佳算法，其测试R²和RMSE分别为0.91、10.54%。因果分析表明，影响HM固定效率特征重要性排序为生物炭性质>实施条件>土壤性质>HM性质。因此，本研究针对生物炭/土壤性质对HM固定化的影响提出了新的见解，可帮助确定生物炭改良土壤中增强HM固定的最佳条件。

图2. 三种ML模型的预测性能

Prediction of Soil Heavy Metal Immobilization by Biochar Using Machine Learning, Environmental Science & Technology 2022. DOI: 10.1021/acs.est.1c08302

6. 南信大杨洋教授ES&T: 机器学习预测排放/气候变化驱动的气溶胶变化

未来气溶胶的预测和了解气溶胶变化的驱动因素对于改善大气环境和减缓气候变化具有重要意义。第六次国际耦合模式比较计划（CMIP6）提供了各种气候预测，但气溶胶输出有限。

为此，南京信息工程大学杨洋教授等人基于机器学习方法预测了2015年至2100 年的未来近地表气溶胶浓度，分析了未来排放和气候变化对气溶胶变化的影响。具体而言，作者使用随机森林（RF）模型来预测全球气溶胶浓度，以全球大气化学传输模型（GEOS-Chem）中的结果进行训练。通过检查特征重要性分数，作者发现排放是RF模型最重要的特征，土地覆盖对模型的贡献为10%且与气溶胶浓度呈负相关，其他因素的贡献小于10%。

此外，RF模型在全球大部分地区表现良好，在大约80%的陆地区域中R²大于0.85，尤其是在东亚、南亚、欧洲和北美等关键区域。然而模型在估算北美和亚洲高纬度地区的气溶胶时存在较大偏差，主要与中纬度地区的污染物迁移或当地燃烧排放有关。

图1. RF模型估计的历史PM 2.5浓度性能统计的空间分布

接下来，作者使用RF模型基于CMIP6多模型模拟数据在考虑所有重要因素的条件下创造性地预测未来的气溶胶浓度。结果表明，在低排放情景（SSP1-2.6和SSP2-4.5）下，与2020年（2015~2024年的平均值）相比，预计2095年（2091~2100年平均值）东亚PM2.5浓度将下降40%，南亚下降20~35%，欧洲和北美下降15~25%，这主要是由于预期的减排措施造成的。若仅受气候变化驱动，在高强制情景下（SSP5-8.5），中国北部和美国西部的PM2.5浓度将增加10~25%，中国南部、南亚和欧洲将减少0~25%，这说明全球气候变暖对气溶胶的调节作用更强，凸显了气候变化在调节未来空气质量方面的重要性。在未来的研究中，为了更好地预测特定区域的未来空气质量，更需要局部排放数据集。

图2. 不同情景下2020~2095年区域气溶胶浓度的百分比和绝对变化

Projected Aerosol Changes Driven by Emissions and Climate Change Using a Machine Learning Method, Environmental Science & Technology 2022. DOI: 10.1021/acs.est.1c04380

原创文章，作者：v-suan，如若转载，请注明来源华算科技，注明出处：https://www.v-suan.com/index.php/2023/10/14/a4c592bb52/

机器学习顶刊汇总：Nature、Nat. Sustain.、EES、CEJ、ES&T等成果

相关推荐

发表回复