9个共同一作，深度强化学习登上Nature，用于控制核聚变！

托卡马克是利用磁约束进行受控核聚变研究的环形装置，是产生可持续电力的主要候选者。其核心挑战是在托卡马克容器内形成和维持高温等离子体，这需要使用磁致动器线圈进行高维、高频、闭环控制，且由于各种等离子体配置的不同要求进一步复杂化。

在此，英国DeepMind公司Brendan Tracey, Jonas Buchli联合瑞士洛桑联邦理工学院Federico Felici等人展示了一种基于深度强化学习（RL）设计的磁控制器，并通过实验验证了其在托卡马克上的性能。

该架构可以自主学习控制全套控制线圈，具体通过与托卡马克模拟器的交互来学习，主要分为三个主要阶段：首先，设计者为实验指定目标，控制目标可能随时间变化。其次，深度RL算法与托卡马克模拟器交互，以找到接近最优的控制策略来满足指定目标。第三，以神经网络表示的控制策略直接在托卡马克硬件上实时运行。

该策略被证明能够直接在硬件上进行托卡马克磁控制，成功地弥合了“模拟到真实”的差距，这实现了从对预先设计状态的工程驱动控制到由操作员指定目标的AI驱动优化的根本转变。与传统设计相比，该架构设计的控制器在结构上大大简化。RL驱动设计不是一系列控制器，而是创建单个网络控制器。

图1. 该架构的基础能力展示

作者在可变配置托卡马克（TCV）上进行的实验中证明了本研究提出的控制器的有效性，并展示了对各种等离子体形状的控制，包括简单拉长的形状及高级等离子体如负三角形和“雪花”状等，实现了对这些等离子体的位置、电流和形状的准确跟踪。此外，作者还在TCV展示了持续的“液滴”，其中两个独立的等离子体同时保持在容器内，这代表了托卡马克反馈控制的显著进步。

最重要的是，托卡马克磁控制是已应用RL的最复杂的现实世界系统之一。这是等离子体控制器设计的一个有前途的新方向，更广泛地说，该方法可以通过联合优化等离子体形状、传感、驱动、壁设计、热负荷和磁控制器来发现新的反应堆设计，以最大限度地提高整体性能。

图2. 该架构的控制演示

Magnetic control of tokamak plasmas through deep reinforcement learning, Nature 2022. DOI: 10.1038/s41586-021-04301-9

原创文章，作者：v-suan，如若转载，请注明来源华算科技，注明出处：https://www.v-suan.com/index.php/2023/10/15/b99cfd4c49/

9个共同一作，深度强化学习登上Nature，用于控制核聚变！

相关推荐