深度强化学习的智能决策控制为自动驾驶领域的发展提供了新的研究手段,深度确定性策略梯度算法主要用于解决在连续动作空间上的智能体控制,实现了“端到端”的学习策略。目前以视觉信息为基础的深度强化学习研究正处于高速发展阶段,将视觉分析和深度强化学习的决策算法结合起来,在无人驾驶技术上具有重大的研究意义。深度强化学习中的代表算法深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)在算法训练中往往表现得比较好,但仍然存在着训练过程波动较大、收敛速度较慢,而模仿学习大多数算法在训练波动方面表现得比较好,但是这类学习算法往往较大程度上依赖人为经验,在数据采样上存在很大的局限性。
本文详细分析了深度强化学习和模仿学习在自动驾驶领域里的应用以及各自的特点,以深度确定性策略梯度算法为研究对象,重点研究融合模仿经验数据和双经验池的相关算法,确定融合算法的策略参数更新规则,并对Unity仿真平台进行详细的介绍,分析其作为训练场景的可行性和实用性。本文主要研究工作如下:
(1)基于深度确定性策略梯度(DDPG)算法的基础上,对经验回放进行了改进,提出了一种双经验池的经验回放结构。该结构特点主要表现在智能体(本文指无人驾驶船舶)与环境进行状态行为互动后,对每次互动后的数据经验进行分析判断,本文将每一次的状态行为互动获得的数据经验分为优先价值经验和补充价值经验,结合两种经验的数据特点,分别将两种经验存储到优先价值经验池和补充价值经验池,两个经验池组成双经验池的经验回放结构,该结构主要作用是较大程度选取优先价值经验来进行回合训练,相对于原始DDPG的单经验池结构,从数据采样方面直接降低了原始DDPG算法的训练波动。
(2)结合模仿学习的训练特点,分析模仿学习算法中的数据聚集算法流程(Dataset Aggregation,Dagger),对模仿经验数据分析处理并加入到原始DDPG 算法中得到新的DDPG算法模型。将双经验池的经验回放结构加入到该模型中去,提出了一种融合了双经验池和模仿经验数据的深度确定性策略梯度算法(Deep Deterministic Policy Gradient with Imitation and Double Experience Pool,DDPG-IDEP)。设计DDPG-IDEP算法的基本网络结构,更新原始Critic网络的损失函数,分析网络的监督框架,并进行监督误差设计与参数更新,设计DDPG-IDEP的具体算法流程和算法平台搭建。
(3)Unity引擎提供了的高自由度的仿真场景,可进行虚拟船舶仿真平台的搭建。在基于Unity提供的高度自由化虚拟船舶航行环境下,利用Airsim on Unity提供的API,结合DDPG-IDEP控制策略算法进行船舶航行控制,分别从视觉信息和船舶状态信息分析船舶行为特征和获取回报奖励值的大小。通过训练不断优化策略参数,分别从累计回报奖励值、训练时间以及奖励值波动情况验证DDPG-IDEP控制策略算法的有效性。