[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)的無(wú)人機(jī)自主飛行訓(xùn)練方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110441572.3 | 申請(qǐng)日: | 2021-04-23 |
| 公開(公告)號(hào): | CN113281999A | 公開(公告)日: | 2021-08-20 |
| 發(fā)明(設(shè)計(jì))人: | 俞揚(yáng);詹德川;周志華;黃軍富;龐竟成;張?jiān)铺?/a>;管聰;陳雄輝 | 申請(qǐng)(專利權(quán))人: | 南京大學(xué) |
| 主分類號(hào): | G05B13/04 | 分類號(hào): | G05B13/04;G06N3/04;G06N20/20 |
| 代理公司: | 南京樂(lè)羽知行專利代理事務(wù)所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210023 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 遷移 無(wú)人機(jī) 自主 飛行 訓(xùn)練 方法 | ||
1.一種基于強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)的無(wú)人機(jī)自主飛行訓(xùn)練方法,其特征在于,包括如下步驟:
(1)創(chuàng)建無(wú)人機(jī)仿真模擬器環(huán)境;
(2)構(gòu)建基于深度學(xué)習(xí)的環(huán)境轉(zhuǎn)移模型fα,即“當(dāng)前狀態(tài)-當(dāng)前動(dòng)作”對(duì)到下一狀態(tài)的映射,并隨機(jī)初始化該映射;
(3)構(gòu)建強(qiáng)化學(xué)習(xí)的A3C算法,并隨機(jī)初始化其飛行策略πθ;
(4)構(gòu)建基于深度學(xué)習(xí)的環(huán)境逆轉(zhuǎn)移模型f'β,即“當(dāng)前狀態(tài)-下一狀態(tài)”對(duì)到當(dāng)前動(dòng)作的映射,并隨機(jī)初始化該映射;
(5)收集無(wú)人機(jī)操作員和飛行策略πθ在現(xiàn)實(shí)環(huán)境下操作無(wú)人機(jī)進(jìn)行飛行得到的飛行數(shù)據(jù),即連續(xù)的“狀態(tài)-動(dòng)作”對(duì)組成的軌跡數(shù)據(jù);
(6)基于現(xiàn)實(shí)飛行數(shù)據(jù),更新環(huán)境轉(zhuǎn)移模型fα;(7)使用fα和f'β進(jìn)行基于動(dòng)作校正的遷移學(xué)習(xí),校正飛行策略πθ,得到飛行策略π',并在模擬器執(zhí)行π'得到模擬飛行數(shù)據(jù);
(8)基于模擬飛行數(shù)據(jù),使用A3C算法更新飛行策略πθ,同時(shí)更新環(huán)境逆轉(zhuǎn)移模型f'β;
重復(fù)(5)-(8),直至策略πθ收斂;最終得到策略πθ作為的現(xiàn)實(shí)無(wú)人機(jī)的初始飛行策略。
2.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)的無(wú)人機(jī)自主飛行訓(xùn)練方法,其特征在于,基于空氣動(dòng)力學(xué)模型、無(wú)人機(jī)模型和無(wú)人可能機(jī)遇到飛行場(chǎng)景和飛行任務(wù)構(gòu)建仿真模擬器,并使用Unreal4游戲引擎進(jìn)行可視化;仿真模擬器中包括無(wú)人機(jī)、飛行場(chǎng)景和飛行任務(wù),在仿真模擬器中,無(wú)人機(jī)在飛行過(guò)程中隨著時(shí)間推移,自身的飛行狀態(tài)會(huì)發(fā)生變化,模擬環(huán)境也會(huì)不斷的產(chǎn)生各種障礙物;其過(guò)程用馬爾可夫決策過(guò)程表示,用五元組<S,A,P,R,γ>表示,其中S為狀態(tài)空間,A為動(dòng)作空間,P為狀態(tài)轉(zhuǎn)移概率,R為從環(huán)境得到的單步獎(jiǎng)賞,γ為累計(jì)獎(jiǎng)賞的折扣因子。
3.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)的無(wú)人機(jī)自主飛行訓(xùn)練方法,其特征在于,使用無(wú)人機(jī)操作員和模擬器飛行策略πθ對(duì)無(wú)人機(jī)進(jìn)行操控,收集現(xiàn)實(shí)環(huán)境中無(wú)人機(jī)的飛行數(shù)據(jù),提取所有的三元組(s,a,s'),其中s為當(dāng)前狀態(tài),a為當(dāng)前動(dòng)作,s'為下一狀態(tài),得到用于訓(xùn)練現(xiàn)實(shí)的環(huán)境的狀態(tài)轉(zhuǎn)移模型的數(shù)據(jù)集Dreal={(s1,a1,s2),(s2,a2,s3),...,(sn-1,an-1,sn)}。
4.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)的無(wú)人機(jī)自主飛行訓(xùn)練方法,其特征在于,以“當(dāng)前狀態(tài)-當(dāng)前動(dòng)作”對(duì)作為特征,下一狀態(tài)作為標(biāo)簽,進(jìn)行回歸學(xué)習(xí),訓(xùn)練現(xiàn)實(shí)環(huán)境的狀態(tài)轉(zhuǎn)移模型fα,通過(guò)最小化轉(zhuǎn)移損失函數(shù):更新轉(zhuǎn)移模型的神經(jīng)網(wǎng)絡(luò)參數(shù)α。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學(xué),未經(jīng)南京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202110441572.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 遷移方法和裝置
- 移動(dòng)邊緣系統(tǒng)中遷移應(yīng)用方法、相關(guān)設(shè)備及系統(tǒng)
- 虛擬機(jī)的遷移方法及裝置
- 數(shù)據(jù)遷移方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 計(jì)算任務(wù)遷移方法及計(jì)算任務(wù)遷移器
- 文件遷移方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于遷移工具的國(guó)產(chǎn)化應(yīng)用系統(tǒng)遷移方法
- 數(shù)據(jù)遷移方法及裝置
- 文件遷移方法及裝置
- 一種數(shù)據(jù)遷移方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)





