封硕与密西根大学学者实现基于密集强化学习的自动驾驶汽车安全性测试

2023-03-24
清华新闻网3月24日电 随着自动驾驶技术的快速发展，交通系统正面临着前所未有的革命。过去20年里，自动驾驶技术取得了巨大进步，然而截至目前，L4级别自动驾驶汽车尚未实现商业化落地。造成这种情况的原因有很多，最重要的是自动驾驶汽车的安全性能仍未能达到大规模落地应用的要求，而自动驾驶汽车安全性测试的低效率难题成为了阻碍安全性提升的关键障碍。据测算，要可靠地测试评估高水平自动驾驶汽车的安全性能，需要完成数百亿公里的测试里程，这严重滞缓了自动驾驶汽车测试研发的迭代过程。

为解决这一问题，清华大学自动化系智能交通研究团队封硕助理教授与美国密西根大学Mcity主任刘向宏（Henry Liu）教授等科研人员合作提出了基于密集强化学习的自动驾驶汽车加速测试方法，通过密集学习生成了专注安全关键场景的智能测试环境，解决了自动驾驶所面临的“稀疏度灾难”全新挑战，实现了只需智能测试环境中的少量测试里程即可等效于自然测试环境中的海量测试里程，加速了自动驾驶汽车安全性测试评估过程103~105倍。

具体而言，自动驾驶汽车安全性测试问题的本质是超高维空间小概率事件期望估计问题，其核心挑战来自“维度灾难”和“稀疏度灾难”的复合效应。“维度灾难”是指驾驶环境的时空复杂性导致环境变量超高维，使得算法计算复杂度指数增加；而“稀疏度灾难”是指安全关键事件的稀疏性使得变量空间中的多数样本无法为学习提供有效信息，导致了传统学习方法的失效。面对上述挑战，研究提出了密集强化学习方法（Dense Deep Reinforcement Learning，D2RL），通过识别和删除非安全关键状态、连接安全关键状态，并在编辑后的马尔科夫过程中训练神经网络，解决了上述“稀疏度灾难”（图1）。利用密集强化学习方法训练交通环境中背景车辆使其学习何时执行何种对抗性策略，可以构建一个智能测试环境，减少所需测试里程多个数量级，同时确保测试结果等效性。基于增强现实测试平台，研究团队在美国密西根大学Mcity和美国交通中心的测试场中使用上述方法对L4级自动驾驶汽车进行了安全性测试（图2）。结果表明上述方法可以有效学习生成智能测试环境，与直接在自然驾驶环境中测试自动驾驶汽车相比，智能测试环境可以加快评估过程多个数量级（约103~105）。


图1.密集学习方法通过删除非关键状态、连接关键状态来编辑马尔可夫过程，然后通过编辑后的马尔可夫过程训练神经网络


图2.增强现实测试平台可以通过虚拟背景车辆增强现实世界，为自动驾驶汽车提供更安全、更可控、更高效的测试环境

近日，相关研究成果以“基于密集强化学习的自动驾驶汽车安全性测试”（Dense Reinforcement Learning for Safety Validation of Autonomous Vehicles）为题发表在《自然》（Nature）正刊上，被选为该期封面论文，并获得《自然·新闻与观点》（Nature News and Views）、《自然·播客》（Nature Podcast）、《自然·视频》（Nature Videos）等的同步报道。


图3.《自然》（Nature）封面

该论文第一作者为清华大学自动化系封硕助理教授，通讯作者为美国密西根大学Mcity主任刘向宏（Henry Liu）教授。其他主要合作者包括美国密西根大学孙昊葳（Haowei Sun）、严鑫涛（Xintao Yan）、朱昊杰（Haojie Zhu）、邹征夏（Zhengxia Zou）和沈晟印（Shengyin Shen）。

论文链接：https://www.nature.com/articles/s41586-023-05732-2
关闭窗口