[發明專利]一種基于深度強化學習的固定翼無人機群集控制方法有效
| 申請號: | 201910832120.0 | 申請日: | 2019-09-04 |
| 公開(公告)號: | CN110502034B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 閆超;相曉嘉;王菖;牛軼峰;尹棟;吳立珍;陳紫葉 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10 |
| 代理公司: | 湖南兆弘專利事務所(普通合伙) 43008 | 代理人: | 周長清 |
| 地址: | 410073 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 固定 無人機 群集 控制 方法 | ||
本發明公開了一種基于深度強化學習的固定翼無人機群集控制方法,其步驟包括:步驟S1、離線訓練階段:建立隨機無人機動力學模型,基于競爭雙重Q網絡的Q函數評估之后,進行動作選擇;所述競爭雙重Q網絡為D3QN網絡;步驟S2、在線執行階段:構建競爭雙重Q網絡,并載入訓練好的網絡模型,所述網絡模型和動作選擇策略運行在僚機的機載電腦上,長機滾轉動作由操控員給出,長機和僚機的自駕儀分別根據各自的滾轉動作,直至完成飛行任務。本發明具有較強的實時性和適應性,能夠將仿真中訓練得到的策略遷移到真實環境等優點。
技術領域
本發明主要涉及到無人機技術領域,特指一種基于深度強化學習的固定翼無人機群集控制方法。
背景技術
近年來,隨著傳感器技術、通信技術以及智能控制技術的不斷發展,無人機技術取得了長足的進步。固定翼無人機具有飛行速度快、續航能力強和有效載荷大等特點,在災難搜救、邊境巡邏、反恐等領域得到了廣泛的應用。由于單架無人機性能的不足,上述任務通常需要多架無人機協同配合方能高效完成。然而,操控多架固定翼無人機需要大量的人力來監控每架飛機的狀態,協調多架無人機遂行任務仍面臨一定的挑戰。
“一致性理論”被廣泛用于解決無人機的群集控制問題。但該類方法依賴于平臺和擾動的精確模型。這一模型通常具有復雜、時變、非線性的特點,加之傳感器誤差、環境擾動等隨機因素的影響,往往難以精確建模,這嚴重限制了該類方法在真實世界的適用性。作為代替,應用強化學習方法解決上述矛盾得到了越來越多的關注。
目前,現有基于強化學習的群集控制解決方案主要針對旋翼無人機。與旋翼機相比,由于固定翼無人機的飛行動力學的非完整約束,固定翼無人機群集控制更加復雜,將強化學習算法應用于固定翼無人機協群集控制中的研究成果仍然較少。
發明內容
本發明要解決的技術問題就在于:針對現有技術存在的技術問題,本發明提供一種具有較強的實時性和適應性,能夠將仿真中訓練得到的策略遷移到真實環境中的基于深度強化學習的固定翼無人機群集控制方法。
為解決上述技術問題,本發明采用以下技術方案:
一種基于深度強化學習的固定翼無人機群集控制方法,其步驟包括:
步驟S1、離線訓練階段:建立隨機無人機動力學模型,基于競爭雙重Q網絡的Q函數評估之后,進行動作選擇;所述競爭雙重Q網絡為D3QN網絡;
步驟S2、在線執行階段:構建競爭雙重Q網絡,并載入訓練好的網絡模型,所述網絡模型和動作選擇策略運行在僚機的機載電腦上,長機滾轉動作由操控員給出,長機和僚機的自駕儀分別根據各自的滾轉動作,直至完成飛行任務。
作為本發明的進一步改進:所述離線訓練階段包括如下步驟:
步驟S11、建立隨機無人機動力學模型;考慮無人機在恒定高度飛行,動力學模型用簡化的四自由度模型描述;在滾轉、空速等各個子狀態引入隨機性,建立隨機無人機動力學模型;
步驟S12、基于競爭雙重Q網絡的Q函數評估;
步驟S13、動作選擇;在離線訓練階段,所述動作選擇策略使用結合示范教學的ε-greedy策略;即僚機以ε的概率選擇最小Q值對應的動作,以1-ε的概率模仿長機動作;所述動作集合為無人機滾轉角的變化量,即{+15°,0,-15°}。
作為本發明的進一步改進:所述步驟S12包括:
步驟S121、構建D3QN的主網絡和目標網絡,并隨機初始化網絡參數;
步驟S122、在與環境的不斷交互中更新網絡參數。
作為本發明的進一步改進:所述步驟S122包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201910832120.0/2.html,轉載請聲明來源鉆瓜專利網。





