[發(fā)明專利]一種水下自主航行器在大尺度連續(xù)性障礙物環(huán)境中路徑規(guī)劃避障控制方法有效
| 申請?zhí)枺?/td> | 202011109095.2 | 申請日: | 2020-10-16 |
| 公開(公告)號: | CN112241176B | 公開(公告)日: | 2022-10-28 |
| 發(fā)明(設(shè)計)人: | 孫玉山;羅孝坤;張國成;冉祥瑞;柴璞鑫;薛源;于鑫;張紅星 | 申請(專利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類號: | G05D1/06 | 分類號: | G05D1/06 |
| 代理公司: | 哈爾濱市陽光惠遠知識產(chǎn)權(quán)代理有限公司 23211 | 代理人: | 張宏威 |
| 地址: | 150001 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 水下 自主 航行 尺度 連續(xù)性 障礙物 環(huán)境 路徑 規(guī)劃 控制 方法 | ||
1.一種水下自主航行器在大尺度連續(xù)性障礙物環(huán)境中路徑規(guī)劃避障控制方法,其特征是:包括以下步驟:
步驟1:建立水下自主航行器模型與運動學(xué)模型,獲取水下自助航行器周圍障礙物的信息;
步驟2:根據(jù)水下自助航行器周圍障礙物的信息,在笛卡爾坐標系下建立水下峽谷模擬訓(xùn)練環(huán)境,生成避障策略;
步驟3:將生成的避障策略轉(zhuǎn)化為MDP過程,并進行訓(xùn)練得到水下自主航行器連續(xù)性障礙物避障MDP模型的狀態(tài)集;
步驟4:根據(jù)狀態(tài)集進行深度強化學(xué)習(xí)訓(xùn)練,直至無碰撞到達目標區(qū)域,并保存避障策略;
步驟5:將深度強化學(xué)習(xí)后保存的避障策略,通過數(shù)據(jù)傳輸給下位機模塊,指導(dǎo)控制模塊融合傳感器數(shù)據(jù)信息,實時計算出水下自主航行器偏航角及速度,此時的水下自主航行器偏航角及速度,引導(dǎo)水下自主航行器避開水下峽谷巖壁,并到達目標區(qū)域,完成航行任務(wù);
所述步驟4具體為:
步驟4.1:在仿真系統(tǒng)模塊中,基于水下自主航行器大尺度連續(xù)性障礙物避障MDP模型的狀態(tài)集,建立仿真試驗平臺,搭建python編譯環(huán)境,編寫分層強化學(xué)習(xí)訓(xùn)練模塊,利用pyglet庫建立水下峽谷海洋環(huán)境,建立水下自主航行器運動學(xué)模型和障礙物運動學(xué)模型,導(dǎo)入利用Python語言編寫實現(xiàn)基于SumTree-DDPG的連續(xù)性障礙物環(huán)境避障控制器,設(shè)置水下自主航行器的初始參數(shù)及神經(jīng)網(wǎng)絡(luò)訓(xùn)練超參數(shù),進行訓(xùn)練;
步驟4.2:進行訓(xùn)練:水下自主航行器在水下峽谷環(huán)境中根據(jù)初始速度和初始偏航角運動,并且水下自主航行器的7個聲吶探測的環(huán)境數(shù)據(jù)作為深度強化學(xué)習(xí)的狀態(tài),當7個聲吶探測的范圍中沒有障礙物,水下自主航行器允許繼續(xù)學(xué)習(xí)探索,直到到達目標區(qū)域,結(jié)束該回合學(xué)習(xí);
步驟4.3:當7個聲吶探測的范圍存在障礙物且探測線的最小距離小于安全距離,表明水下自主航行器與障礙物相撞,該回合結(jié)束,回到起點重新開始學(xué)習(xí);
不斷的循環(huán)學(xué)習(xí),直到每個回合都是無碰撞到達目標區(qū)域而觸發(fā)的回合結(jié)束,此時表明訓(xùn)練收斂,保存學(xué)習(xí)到的策略;
所述SumTree-DDPG避障控制器具體實現(xiàn)過程為:
步驟4.1.1:隨機初始化評論家網(wǎng)絡(luò)Q(s,a|θQ)和演員網(wǎng)絡(luò)μ(s|θu)的權(quán)重參數(shù)θQ和θμ;初始化目標網(wǎng)絡(luò)Q'和μ',網(wǎng)絡(luò)權(quán)重參數(shù)為θQ'←θQ,θμ'←θμ;初始化SumTree并定義容量為H=φ,記憶庫數(shù)據(jù)存儲到達最大容量為lenMax(Data)=M;設(shè)置初始位置為當前狀態(tài),到達目標區(qū)域為目標狀態(tài);
狀態(tài)空間為水下自主航行器7個避障聲吶的實時探測到與障礙物或目標的距離,確定在時刻t的狀態(tài),通過下式表示在時刻t的狀態(tài):
步驟4.1.2:初始化動作空間,在時刻t定義動作空間為偏航角速度ω(t)和水平速度V(t),確定at,通過下式表示動作集at:
訓(xùn)練回合數(shù)Ep最大回合數(shù)10000初始化為Ep=1;
步驟4.1.3:Ep回合中時間步t最大時間步2000為初始化t=1;
步驟4.1.4:在線Actor策略網(wǎng)絡(luò)根據(jù)當前狀態(tài)st策略選擇出包含水下自主航行器的偏航角速度及水平速度的動作集,通過下式表示當前狀態(tài)下動作集:
at=μ(st|θμ)+Nt;
根據(jù)輸出的動作結(jié)合水下自主航行器的水平面3自由度的運動學(xué)模型,得到微分式,通過下式表示微分式:
其中,為水下自主航行器大地坐標系下的水平面位置矢量包含水平面位置坐標和偏航角;υ(t)為水下自主航行器在載體下的水平面速度矢量包含水平速度和偏航角速度;R(ψ(t))為轉(zhuǎn)換矩陣;ψ(t)為時間步t時水下自主航行器的偏航角,并且為ψ(t)對時間步t的微分;u(t),v(t),r(t)分別時間步t時水下自主航行器在隨體坐標系下的水平速度矢量的X軸向分量、Y軸向分量和偏航角速度;
根據(jù)四階龍格-庫塔法求解微分式,得到執(zhí)行動作后的新位置向量η(t+1),通過下式表示所述向量:
η(t+1)=[x(t+1),y(t+1),ψ(t+1)]T∈R3
由執(zhí)行動作后的新位置向量轉(zhuǎn)到下一個狀態(tài)st+1,獲得即時獎勵值rt;
將四元組(st,at,rt,st+1)存入SumTree結(jié)構(gòu)H=φ,當數(shù)據(jù)存儲到達最大容量時,len(Data)>M,從SumTree容量中H=φ中依據(jù)采樣概率權(quán)重ωk=(P(k)/minjP(j))-β采樣小批量的N個經(jīng)驗樣本其中,表示時間步t時的第k條經(jīng)驗樣本,并且k=1,2,…,N,N為小批量樣本總數(shù);
從SumTree容量中采樣小批量的N個經(jīng)驗樣本構(gòu)成數(shù)據(jù)集,發(fā)送給在線策略網(wǎng)絡(luò)、目標策略網(wǎng)絡(luò)、在線評價網(wǎng)絡(luò)和目標評價網(wǎng)絡(luò);
根據(jù)采樣的數(shù)據(jù)集,目標策略網(wǎng)絡(luò)根據(jù)狀態(tài)st+1輸出動作a′t+1,計算目標Q值,記為yi,通過下式表示yi:
yi=ri+γQ'(si+1,μ'(si+1|θμ')|θQ');
目標評價網(wǎng)絡(luò)根據(jù)狀態(tài)st+1、目標策略網(wǎng)絡(luò)輸出的動作a′t+1和目標Q值的yi,更新?lián)p失函數(shù)更新評論家在線評價網(wǎng)絡(luò)參數(shù)θ,通過下式進行在線評價:
其中,L為損失函數(shù);
將小批量的N個經(jīng)驗樣本結(jié)合隨機梯度下降法,更新演員網(wǎng)絡(luò)的策略和在線策略網(wǎng)絡(luò)參數(shù)δ,通過下式進行更新:
其中,為抽樣策略梯度;
根據(jù)在線網(wǎng)絡(luò)參數(shù)θ和δ以軟更新的形式更新θ'和δ':
其中τ在線網(wǎng)絡(luò)參數(shù)的權(quán)重;
步驟4.1.5:更新SumTree結(jié)構(gòu)中每個節(jié)點的優(yōu)先值,pk←|δj|;
步驟4.1.6:回合數(shù)用Ep表示,Ep=1回合中時間步t=t+1,重復(fù)運行步驟4.1.4到步驟4.1.5;
當在t≤2000時水下自主航行器進行探索過程碰撞障礙物或者到達目標區(qū)域轉(zhuǎn),回合數(shù)Ep=Ep+1,重復(fù)運行步驟4.1.3到步驟4.1.6;
當Ep=10000,水下自主航行器在大尺度連續(xù)性障礙物環(huán)境訓(xùn)練完成,保存學(xué)習(xí)后的避障策略。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202011109095.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





