[發明專利]結構化知識蒸餾方法、裝置、設備及計算機可讀存儲介質在審
| 申請號: | 202011282080.6 | 申請日: | 2020-11-16 |
| 公開(公告)號: | CN113298249A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 戴濤;汪云霄;夏樹濤;陳斌;汪漪 | 申請(專利權)人: | 鵬城實驗室;清華大學深圳國際研究生院 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04;G06N5/02 |
| 代理公司: | 深圳市君勝知識產權代理事務所(普通合伙) 44268 | 代理人: | 朱陽波 |
| 地址: | 518000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結構 知識 蒸餾 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
本發明公開一種結構化知識蒸餾方法、裝置、設備及計算機可讀存儲介質,其中,所述結構化知識蒸餾方法包括步驟:輸入樣本訓練集至教師網絡和學生網絡,得到教師區域表征圖譜和教師輸出分數,以及學生區域表征圖譜和學生輸出分數;基于教師區域表征圖譜和學生區域表征圖譜,輸出區域相關性蒸餾損失函數;基于教師輸出分數和學生輸出分數,輸出類別相關性蒸餾損失函數;將區域相關性蒸餾損失函數、相關性蒸餾損失函數和交叉熵損失函數加權相加得到總損失函數;利用總損失函數指導學生網絡的參數更新,讓學生網絡的性能逼近、甚至高于教師網絡,克服了現有的學生網絡的網絡結構復雜、參數量大、運算量大和速度慢等的缺點。
技術領域
本發明涉及視頻數據領域,尤其涉及一種結構化知識蒸餾方法、裝置、設備及計算機可讀存儲介質。
背景技術
近年來,隨著人工智能和大數據的快速發展,以深度學習為代表的技術在不同領域取得了廣泛應用。但是深度神經網絡存在網絡結構復雜、參數量大、運算量大和速度慢等的缺點,使得現有的深度學習模型難以在移動端和嵌入式設備等進行部署。
因此,現有技術還有待改善。
發明內容
本發明的主要目的在于提出一種結構化知識蒸餾方法、裝置、設備及計算機可讀存儲介質,旨在解決學生網絡的網絡結構復雜、參數量大、運算量大和速度慢的問題,所述結構化知識蒸餾方法包括以下步驟:
輸入樣本訓練集至教師網絡和學生網絡,得到教師區域表征圖譜和教師輸出分數,以及學生區域表征圖譜和學生輸出分數;
基于所述教師區域表征圖譜和所述學生區域表征圖譜,輸出區域相關性蒸餾損失函數;
基于所述教師輸出分數和所述學生輸出分數,輸出類別相關性蒸餾損失函數;
將所述區域相關性蒸餾損失函數、所述相關性蒸餾損失函數和交叉熵損失函數加權相加得到總損失函數;
利用所述總損失函數指導所述學生網絡的參數更新。
此外,為實現上述目的,本發明還提供一種結構化知識蒸餾裝置,所述結構化知識蒸餾裝置包括:
輸入模塊,用于輸入樣本訓練集至教師網絡和學生網絡,得到教師區域表征圖譜和教師輸出分數,以及學生區域表征圖譜和學生輸出分數;
第一輸出模塊,用于基于所述教師區域表征圖譜和所述學生區域表征圖譜,輸出區域相關性蒸餾損失函數;
第二輸出模塊,用于基于所述教師輸出分數和所述學生輸出分數,輸出類別相關性蒸餾損失函數;
加權相加模塊,用于將所述區域相關性蒸餾損失函數、所述相關性蒸餾損失函數和交叉熵損失函數加權相加得到總損失函數;
指導模塊,用于利用所述總損失函數指導所述學生網絡的參數更新。
此外,為實現上述目的,本發明還提供一種結構化知識蒸餾設備,所述結構化知識蒸餾設備包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的結構化知識蒸餾程序,所述結構化知識蒸餾程序被所述處理器執行時實現如上所述的結構化知識蒸餾方法的步驟。
此外,為實現上述目的,本發明還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有所述結構化知識蒸餾程序,所述結構化知識蒸餾程序被處理器執行時實現如上所述的結構化知識蒸餾方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鵬城實驗室;清華大學深圳國際研究生院,未經鵬城實驗室;清華大學深圳國際研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202011282080.6/2.html,轉載請聲明來源鉆瓜專利網。





