登上Nature封面的自动驾驶，这次有“人工智能”保驾护航！

自动驾驶汽车的发展和部署面临一个严重的瓶颈，即在自然驾驶环境下验证其安全性所需的经济和时间成本非常高，这是因为安全关键事件的发生非常罕见。换句话说，为了保证自动驾驶汽车的安全性能，需要大量的时间和经济资源，但却很难在实际驾驶中遇到安全关键事件。

在此，来自美国密歇根大学的Henry X. Liu等研究者报告了一种智能测试环境的开发，其中基于人工智能的背景代理被训练用于加速模式验证自动驾驶汽车的安全性能，同时不失公正性。相关论文以题为“Dense reinforcement learning for safety validation of autonomous vehicles”于2023年03月23日发表在Nature上。

与此同时，该篇文章登上了同期《Nature》的封面。

由于自动驾驶汽车（AV）技术的迅速发展，人们正处于一个规模之前自汽车问世以来未曾见过的交通革命的前夜。AV技术有潜力大幅提高交通安全性、流动性和可持续性，因此吸引了来自工业、政府机构、专业组织和学术机构的全球关注。

过去20年来，AV的发展取得了实质性进展，特别是随着深度学习技术的出现。到2015年，几家公司宣布将在2020年之前开始大规模生产AV。然而，到目前为止，现实并没有达到这些期望，没有4级AV是商业可用的。这其中的原因有很多，但最主要的是AV的安全性能仍然远远低于人类驾驶员。在自然驾驶环境下，美国平均司机发生车祸的概率约为每英里1.9×10^-6。

相比之下，目前最先进的AV的故障率约为每英里2.0×10^-5。尽管故障率因其潜在的偏见性而受到批评，但它已经被广泛用于跟踪AV安全性能的趋势，因为这可能是公众可用于比较不同AV的唯一统计数据。

提高AV安全性能的一个关键瓶颈是安全验证的严重低效。目前的方法通常通过软件模拟、封闭测试轨道和公路测试的组合来在自然驾驶环境下测试AV。然而，为了验证AV的安全性能能够达到人类驾驶员的水平，需要在自然驾驶环境中测试数亿甚至数千亿英里。

由于这种严重低效性，AV开发人员必须支付大量的经济和时间成本来评估每一项开发，这阻碍了AV部署的进展。为了提高测试效率，许多方法会在有意生成的更加安全关键的场景中测试AV。然而，现有的基于场景的方法主要适用于具有有限背景道路用户的短场景片段。

在自然驾驶环境下验证AV的安全性能本质上是一个高维稀有事件估计问题。主要挑战来自于‘稀有性’和‘维度诅咒’的复合效应（如图1a所示）。通过‘维度诅咒’，研究者指的是驾驶环境可以是时空复杂的，而定义这些环境所需的变量是高维的。

随着变量空间的体积随着维度的增加呈指数级增长，计算复杂度也呈指数级增长。通过‘稀有性’，研究者指的是安全关键事件的发生概率很低，也就是说，变量空间的大多数点都不是安全关键的，这些点对训练没有或者提供嘈杂的信息。在这种情况下，即使有大量的数据，深度学习模型也很难学习，因为安全关键事件的有价值信息（例如策略梯度）可能被大量的非安全关键数据掩盖。

近几十年来，人工智能系统在解决‘维度诅咒’问题方面取得了快速进展，例如围棋的状态空间有10³⁶⁰种情况，半导体芯片设计的状态空间可能达到10^2,500级别。然而，在本项工作之前，同时解决‘维度诅咒’和‘稀有性诅咒’的问题一直是一个悬而未决的问题，这妨碍了将人工智能技术应用于安全关键系统（如AV、医疗机器人和航空航天系统）。

图1 用密集学习方法验证安全关键人工智能

在此，研究者通过开发一种密集深度强化学习（D2RL）方法来解决这一挑战。基本思想是识别并删除非安全关键数据，利用安全关键数据训练神经网络。由于只有很小一部分数据是安全关键的，其余数据的信息将被大幅密集化。

本质上，D2RL方法通过删除非关键状态并重新连接关键状态来编辑马尔可夫决策过程，然后仅为编辑后的马尔可夫过程训练神经网络（如图1b所示）。因此，对于任何训练episode，终点状态的奖励将沿着仅包含关键状态的编辑过的马尔可夫链进行反向传播（如图1c所示）。

与DRL方法相比，D2RL方法可以在不失偏差的情况下，将策略梯度估计的方差显著降低多个数量级，根据方法中的定理1证明，这种方差降低可以使神经网络学习并完成DRL方法无法完成的任务。

对于AV测试，研究者利用D2RL方法，通过神经网络训练背景车辆（BVs）学习何时执行哪些对抗性机动，以提高测试效率并确保评估无偏。这导致了一个基于人工智能的对抗性测试环境，可以将AV所需的测试英里数减少多个数量级，同时确保测试无偏。

研究者的方法可以应用于复杂的驾驶环境，包括多个高速公路、十字路口和环形交叉口，这是以前的基于场景方法无法实现的。所提出的方法赋予环境中的测试代理智能，创造了一个智能测试环境，即使用人工智能验证人工智能。这是一个范式转换，并为与其他安全关键系统的加速测试和培训打开了大门。

为了证明研究者基于人工智能的测试方法的有效性，研究者使用大规模自然驾驶数据集训练了BV，并在物理测试轨道上进行了模拟实验和现场实验。

具体来说，研究者使用开源自动驾驶系统Autoware，在美国移动性中心（ACM）的4公里长的物理高速公路测试轨道和Mcity的城市测试轨道上测试了一个4级AV。为了安全而准确地使用D2RL训练的测试环境测试AV，研究者开发了一个增强现实测试平台，它结合了物理测试轨道和微观交通模拟器SUMO（城市移动仿真）。

如图1d所示，通过同步实际AV和虚拟BV的运动，物理测试轨道上的实际AV可以与虚拟BV互动，就像在一个真实的交通环境中一样，BV被指示与实际AV互动。对于模拟和现场实验，研究者评估了撞车率、撞车类型和撞车严重程度。

研究者的模拟和现场测试结果表明，D2RL方法可以有效地学习智能测试环境，相对于直接在自然驾驶环境下测试AV的结果，可以显著地加速多个数量级的AV评估过程（速度提高了10³到10⁵倍），而且没有偏差。

图2 D2RL 与 DRL 的角格生成实例比较

图3 基于 D2RL 的智能测试环境性能评估

图4 在物理测试轨道上进行的实际 AV 测试实验

综上所述，研究结果证明了使用D2RL技术验证AV的行为能力的安全性能。D2RL可以加速测试过程，并可用于模拟测试和测试轨道方法。它可以显著增强现有的测试方法（如证伪方法、基于场景的方法和NDE方法），以克服它们在实际应用中的局限性。D2RL还为利用人工智能技术验证其他安全关键自主系统（如医疗机器人和航空航天系统）的机器智能打开了大门。

理想情况下，测试环境应考虑AV的所有操作条件及其相关的罕见事件。例如，一个六层模型已被开发来结构化场景的参数，包括道路几何形状、道路家具和规则、时间修改和事件、移动物体、环境条件和数字信息。

在本研究中，研究者主要关注两个层面：移动物体和道路几何形状，即多个周围车辆在不同几何形状的道路上进行机动，这对于测试环境至关重要。研究者的方法可以扩展到包括来自其他层面的参数，例如天气条件，通过收集大规模的自然驾驶数据并利用这些领域的专业知识。

文献信息

Feng, S., Sun, H., Yan, X. et al. Dense reinforcement learning for safety validation of autonomous vehicles. Nature 615, 620–627 (2023). https://doi.org/10.1038/s41586-023-05732-2

原文链接：

https://www.nature.com/articles/s41586-023-05732-2‍

原创文章，作者：菜菜欧尼酱，如若转载，请注明来源华算科技，注明出处：https://www.v-suan.com/index.php/2024/01/23/07295e369f/

登上Nature封面的自动驾驶，这次有“人工智能”保驾护航！

相关推荐

发表回复