- 无标题文档
查看论文信息

中文题名:

 

基于深度强化学习的船舶航行控制策略设计与实现

    

姓名:

 柳浪    

学号:

 1049731803906    

保密级别:

 公开    

论文语种:

 chi    

学科代码:

 085208    

学科名称:

 电子与通信工程    

学生类型:

 硕士    

学位:

 工程硕士    

学校:

 武汉理工大学    

院系:

 信息工程学院    

专业:

 电子与通信工程    

研究方向:

 图像处理与模式识别    

第一导师姓名:

 杨杰    

第一导师院系:

 武汉理工大学    

完成日期:

 2020-05-01    

答辩日期:

 2020-05-16    

中文关键词:

 

深度强化学习 ; 深度确定性策略梯度 ; 双经验池 ; 模仿学习 ; 控制策略

    

中文摘要:

深度强化学习的智能决策控制为自动驾驶领域的发展提供了新的研究手段,深度确定性策略梯度算法主要用于解决在连续动作空间上的智能体控制,实现了“端到端”的学习策略。目前以视觉信息为基础的深度强化学习研究正处于高速发展阶段,将视觉分析和深度强化学习的决策算法结合起来,在无人驾驶技术上具有重大的研究意义。深度强化学习中的代表算法深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)在算法训练中往往表现得比较好,但仍然存在着训练过程波动较大、收敛速度较慢,而模仿学习大多数算法在训练波动方面表现得比较好,但是这类学习算法往往较大程度上依赖人为经验,在数据采样上存在很大的局限性。

本文详细分析了深度强化学习和模仿学习在自动驾驶领域里的应用以及各自的特点,以深度确定性策略梯度算法为研究对象,重点研究融合模仿经验数据和双经验池的相关算法,确定融合算法的策略参数更新规则,并对Unity仿真平台进行详细的介绍,分析其作为训练场景的可行性和实用性。本文主要研究工作如下:

(1)基于深度确定性策略梯度(DDPG)算法的基础上,对经验回放进行了改进,提出了一种双经验池的经验回放结构。该结构特点主要表现在智能体(本文指无人驾驶船舶)与环境进行状态行为互动后,对每次互动后的数据经验进行分析判断,本文将每一次的状态行为互动获得的数据经验分为优先价值经验和补充价值经验,结合两种经验的数据特点,分别将两种经验存储到优先价值经验池和补充价值经验池,两个经验池组成双经验池的经验回放结构,该结构主要作用是较大程度选取优先价值经验来进行回合训练,相对于原始DDPG的单经验池结构,从数据采样方面直接降低了原始DDPG算法的训练波动。

(2)结合模仿学习的训练特点,分析模仿学习算法中的数据聚集算法流程(Dataset Aggregation,Dagger),对模仿经验数据分析处理并加入到原始DDPG 算法中得到新的DDPG算法模型。将双经验池的经验回放结构加入到该模型中去,提出了一种融合了双经验池和模仿经验数据的深度确定性策略梯度算法(Deep Deterministic Policy Gradient with Imitation and Double Experience Pool,DDPG-IDEP)。设计DDPG-IDEP算法的基本网络结构,更新原始Critic网络的损失函数,分析网络的监督框架,并进行监督误差设计与参数更新,设计DDPG-IDEP的具体算法流程和算法平台搭建。

(3)Unity引擎提供了的高自由度的仿真场景,可进行虚拟船舶仿真平台的搭建。在基于Unity提供的高度自由化虚拟船舶航行环境下,利用Airsim on Unity提供的API,结合DDPG-IDEP控制策略算法进行船舶航行控制,分别从视觉信息和船舶状态信息分析船舶行为特征和获取回报奖励值的大小。通过训练不断优化策略参数,分别从累计回报奖励值、训练时间以及奖励值波动情况验证DDPG-IDEP控制策略算法的有效性。

参考文献:

[1] 白辰甲. 基于计算机视觉和深度学习的自动驾驶方法研究[D]. 哈尔滨工业大学, 2017.

[2] Paden B, Cap M, Yong S Z, et al. A Survey of Motion Planning and Control TechniQues for Self-driving Urban Vehicles[J]. IEEE Transactions on Intelligent Vehicles, 2016, 1(1): 33-55.

[3] Wang C, Zhang X, Cong L, et al. Research on intelligent collision avoidance decision-making of unmanned ship in unknown environments[J]. Evolving Systems, 2019, 10(4): 649-658.

[4] 左思翔. 基于深度强化学习的无人驾驶智能决策控制研究[D]. 哈尔滨工业大学, 2018.

[5] 邓悟. 基于深度强化学习的智能体避障与路径规划研究与应用[D]. 电子科技大学, 2019.

[6] 刘全, 翟建伟, 章宗长, 等. 深度强化学习综述[J]. 计算机学报, v.41; No.421(1): 3-29.

[7] 夏伟, 李慧云. 基于深度强化学习的自动驾驶策略学习方法[J]. 集成技术, 2017(3): 29-40.

[8] Lecun Y, Bengio Y, Hinton G. Deep Learning [J]. Nature, 2015, 521(7553): 436.

[9] Graves A, Mohamed A, Hinton G E, et al. Speech recognition with deep recurrent neural networks[C]. international conference on acoustics, speech, and signal processing, 2013: 6645-6649.

[10] 陈建平, 何超, 刘全, 等. 增强型深度确定策略梯度算法[J]. 通信学报, 2018, 39(11): 106-115.

[11] 王鹏程. 基于深度强化学习的非完备信息机器博弈研究[D]. 哈尔滨工业大学, 2017.

[12] Wang B, Gao Y, Chen Z, et al. A two-layered multi-agent reinforcement learning model and algorithm[J]. Journal of Network and Computer Applications, 2007, 30(4): 1366-1376.

[13] Parisotto E, Ba J, Salakhutdinov R, et al. Actor-Mimic: Deep Multitask and Transfer Reinforcement Learning[J]. arXiv: Learning, 2016: 156-171

[14] 梁星星, 冯旸赫, 马扬, 等. 多Agent深度强化学习综述[J]. 自动化学报, 2020(6): 1-21.

[15] Wender S, Watson I. Combining Case-Based Reasoning and Reinforcement Learning for Tactical Unit Selection in Real-Time Strategy Game AI[C]. international conference on case-based reasoning, 2016: 413-429.

[16] Pei K, Cao Y, Yang J, et al. DeepXplore: Automated Whitebox Testing of Deep Learning Systems[C]. symposium on operating systems principles, 2017: 1-18.

[17] 王科俊, 赵彦东, 邢向磊. 深度学习在无人驾驶汽车领域应用的研究进展[J]. 智能系统学报, 2018, 13(01): 55-69.

[18] 杨瑞嘉. 基于演化算法的神经网络黑箱攻击方法[J]. 电子世界, 2019(06): 42-43.

[19] Ishii S, Yoshida W. Part 4: Reinforcement Learning: Machine Learning and Natural Learning[J]. New Generation Computing, 2006, 24(3): p.325-350.

[20] Sutton R S, Barto A G. Reinforcement Learning: An Introduction[C]. neural information processing systems, 1999.

[21] Watkins CJ C H, Dayan P. Q-learning[C]. Machine Learning. 1992: 279--292.

[22] Sutton R S, Mcallester D, Singh S, et al. Policy Gradient Methods for Reinforcement Learning with Function Approximation[J]. Advances in Neural Information Processing Systems, 2000, 12: 1057-1063.

[23] Lim S H, Xu H, Mannor S, et al.

Reinforcement Learning in Robust Markov Decision Processes[J]. Mathematics of Operations Research, 2016, 41(4): 1325-1353.

[24] Prashant Mehta, Sean Meyn. Q-learning and Pontryagin's Minimum Principle[C]. Proceedings of Joint 48th IEEE Conference on Decision and Control and 28th Chinese Control Conference. IEEE Control Systems Society(CSS), 2009: 865-872.

[25] Cho W S, Wang M. Deep Primal-Dual Reinforcement Learning: Accelerating Actor-Critic using Bellman Duality[J]. 2017.

[26] Bouzy B, Chaslot G. Monte-Carlo Go Reinforcement Learning Experiments[C]. computational intelligence and games, 2006: 187-194.

[27] 陈俊杰, 张必勇, 宋瀚涛, 等. 强化学习中的时间差分法在用户学习方面的应用[J]. 计算机工程, 2004(4): 40-41,124.

[28] Chen S, Wei Y. Least-SQuares SARSA(Lambda) Algorithms for Reinforcement Learning[C]. international conference on natural computation, 2008: 632-636.

[29] 陈桂兴. 强化学习中值函数逼近方法的研究[D]. 苏州大学, 2014.

[30] Abtahi F, Fasel I. Deep belief nets as function approximators for reinforcement learning[J]. national conference on artificial intelligence, 2011: 2-7.

[31] 刘志荣, 姜树海, 袁雯雯, 等. 基于深度Q学习的移动机器人路径规划[J]. 测控技术, 2019,38(07): 24-28.

[32] 袁雯, 刘惠义. 基于深度Q网络的仿人机器人步态优化[J]. 计算机与现代化, 2019(04): 47-51+58.

[33] Van Hasselt H, Guez A, Silver D, et al. Deep reinforcement learning with double Q-Learning[C]. national conference on artificial intelligence, 2016: 2094-2100.

[34] 夏宗涛, 秦进. 基于优势学习的深度Q网络[J]. 计算机工程与应用, 2019, 55(20): 101-106.

[35] Zhai J, Liu Q, Zhang Z, et al. Deep Q-Learning with Prioritized Sampling[C]. international conference on neural information processing, 2016: 13-22.

[36] Lillicrap T P, Hunt J, Pritzel A, et al. Continuous Control with Deep Reinforcement Learning[J]. Computer Science, 2015, 8(6): A187.

[37] Mnih V, Badia A P, Mirza M, et al. Asynchronous methods for deep reinforcement learning[C]. international conference on machine learning, 2016: 1928-1937.

[38] Schulman J, Levine S, Abbeel P, et al. Trust Region Policy Optimization[C]. international conference on machine learning, 2015: 1889-1897.

[39] 李帅龙, 张会文, 周维佳. 模仿学习方法综述及其在机器人领域的应用[J]. 计算机工程与应用, 2019, 55(04): 17-30.

[40] Lopes M, Melo F, Montesano L, et al. Abstraction Levels for Robotic Imitation: Overview and Computational Approaches[M]. From Motor Learning to Interaction Learning in Robots. 2009.

[41] Hussein A, Gaber M, Elyan E, et al. Imitation Learning: A Survey of Learning Methods[J]. ACM Computing Surveys, 2017, 50(2).

[42] Ross S, Bagnell D. Efficient Reductions for Imitation Learning[C]. international conference on artificial intelligence and statistics, 2010: 661-668.

[43] Silver D, Lever G, Heess N, et al. Deterministic policy gradient Algorithms[C]. International Conference on International Conference on Machine Learning. JMLR.org, 2014: 387-395.

[44] 陈红名, 刘全, 闫岩, 等. 基于经验指导的深度确定性多行动者-评论家算法[J]. 计算机研究与发展, 2019, 56(08): 1708-1720.

[45] 刘建伟, 高峰, 罗雄麟. 基于值函数和策略梯度的深度强化学习综述[J]. 计算机学报, 2019, 42(06): 1406-1438.

[46] Hester T, Vecerik M, PietQuin O, et al. Learning from Demonstrations for Real World Reinforcement Learning[J]. arXiv: 1704.03732[cs.AI]. 2017

[47] 唐振韬, 邵坤, 赵冬斌, 等. 深度强化学习进展:从AlphaGo到AlphaGo Zero[J]. 控制理论与应用, 2017, 34(12): 1529-1546.

[48] 蒋元, 蔡胜军, 何绍勇, 等. 基于Unity3D的虚拟地理环境构建[J]. 现代计算机(专业版), 2014(33): 52-55.

[49] 郭宗沂. 基于强化学习的多无人车智能决策方法研究[D]. 大连理工大学, 2019.

[50] 吴俊塔. 基于集成的多深度确定性策略梯度的无人驾驶策略研究[D]. 中国科学院大学(中国科学院深圳先进技术研究院), 2019.

中图分类号:

 U664.82    

馆藏号:

 U664.82/3906/2020    

备注:

 403-西院分馆博硕论文库;203-余家头分馆博硕论文库    

无标题文档

   建议浏览器: 谷歌 火狐 360请用极速模式,双核浏览器请用极速模式