[發明專利]一種水下自主航行器在大尺度連續性障礙物環境中路徑規劃避障控制方法有效
| 申請號: | 202011109095.2 | 申請日: | 2020-10-16 |
| 公開(公告)號: | CN112241176B | 公開(公告)日: | 2022-10-28 |
| 發明(設計)人: | 孫玉山;羅孝坤;張國成;冉祥瑞;柴璞鑫;薛源;于鑫;張紅星 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G05D1/06 | 分類號: | G05D1/06 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 張宏威 |
| 地址: | 150001 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 水下 自主 航行 尺度 連續性 障礙物 環境 路徑 規劃 控制 方法 | ||
1.一種水下自主航行器在大尺度連續性障礙物環境中路徑規劃避障控制方法,其特征是:包括以下步驟:
步驟1:建立水下自主航行器模型與運動學模型,獲取水下自助航行器周圍障礙物的信息;
步驟2:根據水下自助航行器周圍障礙物的信息,在笛卡爾坐標系下建立水下峽谷模擬訓練環境,生成避障策略;
步驟3:將生成的避障策略轉化為MDP過程,并進行訓練得到水下自主航行器連續性障礙物避障MDP模型的狀態集;
步驟4:根據狀態集進行深度強化學習訓練,直至無碰撞到達目標區域,并保存避障策略;
步驟5:將深度強化學習后保存的避障策略,通過數據傳輸給下位機模塊,指導控制模塊融合傳感器數據信息,實時計算出水下自主航行器偏航角及速度,此時的水下自主航行器偏航角及速度,引導水下自主航行器避開水下峽谷巖壁,并到達目標區域,完成航行任務;
所述步驟4具體為:
步驟4.1:在仿真系統模塊中,基于水下自主航行器大尺度連續性障礙物避障MDP模型的狀態集,建立仿真試驗平臺,搭建python編譯環境,編寫分層強化學習訓練模塊,利用pyglet庫建立水下峽谷海洋環境,建立水下自主航行器運動學模型和障礙物運動學模型,導入利用Python語言編寫實現基于SumTree-DDPG的連續性障礙物環境避障控制器,設置水下自主航行器的初始參數及神經網絡訓練超參數,進行訓練;
步驟4.2:進行訓練:水下自主航行器在水下峽谷環境中根據初始速度和初始偏航角運動,并且水下自主航行器的7個聲吶探測的環境數據作為深度強化學習的狀態,當7個聲吶探測的范圍中沒有障礙物,水下自主航行器允許繼續學習探索,直到到達目標區域,結束該回合學習;
步驟4.3:當7個聲吶探測的范圍存在障礙物且探測線的最小距離小于安全距離,表明水下自主航行器與障礙物相撞,該回合結束,回到起點重新開始學習;
不斷的循環學習,直到每個回合都是無碰撞到達目標區域而觸發的回合結束,此時表明訓練收斂,保存學習到的策略;
所述SumTree-DDPG避障控制器具體實現過程為:
步驟4.1.1:隨機初始化評論家網絡Q(s,a|θQ)和演員網絡μ(s|θu)的權重參數θQ和θμ;初始化目標網絡Q'和μ',網絡權重參數為θQ'←θQ,θμ'←θμ;初始化SumTree并定義容量為H=φ,記憶庫數據存儲到達最大容量為lenMax(Data)=M;設置初始位置為當前狀態,到達目標區域為目標狀態;
狀態空間為水下自主航行器7個避障聲吶的實時探測到與障礙物或目標的距離,確定在時刻t的狀態,通過下式表示在時刻t的狀態:
步驟4.1.2:初始化動作空間,在時刻t定義動作空間為偏航角速度ω(t)和水平速度V(t),確定at,通過下式表示動作集at:
訓練回合數Ep最大回合數10000初始化為Ep=1;
步驟4.1.3:Ep回合中時間步t最大時間步2000為初始化t=1;
步驟4.1.4:在線Actor策略網絡根據當前狀態st策略選擇出包含水下自主航行器的偏航角速度及水平速度的動作集,通過下式表示當前狀態下動作集:
at=μ(st|θμ)+Nt;
根據輸出的動作結合水下自主航行器的水平面3自由度的運動學模型,得到微分式,通過下式表示微分式:
其中,為水下自主航行器大地坐標系下的水平面位置矢量包含水平面位置坐標和偏航角;υ(t)為水下自主航行器在載體下的水平面速度矢量包含水平速度和偏航角速度;R(ψ(t))為轉換矩陣;ψ(t)為時間步t時水下自主航行器的偏航角,并且為ψ(t)對時間步t的微分;u(t),v(t),r(t)分別時間步t時水下自主航行器在隨體坐標系下的水平速度矢量的X軸向分量、Y軸向分量和偏航角速度;
根據四階龍格-庫塔法求解微分式,得到執行動作后的新位置向量η(t+1),通過下式表示所述向量:
η(t+1)=[x(t+1),y(t+1),ψ(t+1)]T∈R3
由執行動作后的新位置向量轉到下一個狀態st+1,獲得即時獎勵值rt;
將四元組(st,at,rt,st+1)存入SumTree結構H=φ,當數據存儲到達最大容量時,len(Data)>M,從SumTree容量中H=φ中依據采樣概率權重ωk=(P(k)/minjP(j))-β采樣小批量的N個經驗樣本其中,表示時間步t時的第k條經驗樣本,并且k=1,2,…,N,N為小批量樣本總數;
從SumTree容量中采樣小批量的N個經驗樣本構成數據集,發送給在線策略網絡、目標策略網絡、在線評價網絡和目標評價網絡;
根據采樣的數據集,目標策略網絡根據狀態st+1輸出動作a′t+1,計算目標Q值,記為yi,通過下式表示yi:
yi=ri+γQ'(si+1,μ'(si+1|θμ')|θQ');
目標評價網絡根據狀態st+1、目標策略網絡輸出的動作a′t+1和目標Q值的yi,更新損失函數更新評論家在線評價網絡參數θ,通過下式進行在線評價:
其中,L為損失函數;
將小批量的N個經驗樣本結合隨機梯度下降法,更新演員網絡的策略和在線策略網絡參數δ,通過下式進行更新:
其中,為抽樣策略梯度;
根據在線網絡參數θ和δ以軟更新的形式更新θ'和δ':
其中τ在線網絡參數的權重;
步驟4.1.5:更新SumTree結構中每個節點的優先值,pk←|δj|;
步驟4.1.6:回合數用Ep表示,Ep=1回合中時間步t=t+1,重復運行步驟4.1.4到步驟4.1.5;
當在t≤2000時水下自主航行器進行探索過程碰撞障礙物或者到達目標區域轉,回合數Ep=Ep+1,重復運行步驟4.1.3到步驟4.1.6;
當Ep=10000,水下自主航行器在大尺度連續性障礙物環境訓練完成,保存學習后的避障策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202011109095.2/1.html,轉載請聲明來源鉆瓜專利網。





