[發明專利]分布式訓練方法、梯度通信方法、裝置及電子設備有效
| 申請號: | 202211426391.4 | 申請日: | 2022-11-15 |
| 公開(公告)號: | CN115906982B | 公開(公告)日: | 2023-10-24 |
| 發明(設計)人: | 沈亮;于佃海 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06F18/214;G06N3/063;H04L12/18 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張潤 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 訓練 方法 梯度 通信 裝置 電子設備 | ||
本公開公開了一種分布式訓練方法、梯度通信方法、裝置及電子設備,涉及人工智能領域,尤其涉及深度學習領域。具體實現方案為:利用第一通信方式,與其他計算節點交換各自的有效參數,其中,有效參數為計算節點對應稀疏梯度中有效梯度的行數,有效梯度為計算節點對應稀疏梯度中有效部分的梯度數據;基于所有計算節點的有效參數,確定與其他計算節點交換各自的有效行參數和有效梯度的第二通信方式,其中,有效行參數是表示稀疏梯度與有效梯度映射關系的數組;利用第二通信方式,與其他計算節點交換各自的有效行參數和有效梯度。本公開實施例節約了通信資源,提升了深度神經網絡分布式訓練的通信性能。
技術領域
本公開涉及人工智能領域,尤其涉及深度學習技術領域。
背景技術
隨著深度神經網絡(deep?neural?networks,DNNs)的規模及訓練數據集的日趨變大,在DNNs中引入了分布式訓練框架,利用多個計算節點進行分布式訓練,以減少深度神經網絡的訓練時間。
在分布式訓練框架中,每個計算節點具有相同的模型副本,然后每次迭代讀取數據集中不同批次的數據來訓練本地的模型參數,并在每次更新模型參數之前,所有計算節點都需要進行通信,以實現不同計算節點之間的梯度同步。但是,當計算節點的梯度為稀疏梯度時,稀疏梯度中只有部分梯度數據為有效值,其余數據均為無效值,此時若依然按照稠密梯度的通信方式傳輸稀疏梯度,則會傳輸稀疏梯度中包括無效值的所有數據,從而會產生大量的無用通信,消耗了大量的通信資源,進而影響深度神經網絡分布式訓練的通信性能。
發明內容
本公開提供了一種用于深度神經網絡的分布式訓練方法、梯度通信方法、裝置、設備以及存儲介質。
根據本公開的一方面,提供了一種梯度通信方法,應用于深度神經網絡的分布式訓練框架中,所述分布式訓練框架包括多個計算節點,所述方法由每個計算節點執行,所述方法包括:利用第一通信方式,與其他計算節點交換各自的有效參數,其中,所述有效參數為所述計算節點對應稀疏梯度中有效梯度的行數,所述有效梯度為所述計算節點對應稀疏梯度中有效部分的梯度數據;基于所有計算節點的有效參數,確定與其他計算節點交換各自的有效行參數和有效梯度的第二通信方式,其中,所述有效行參數是表示所述稀疏梯度與所述有效梯度映射關系的數組;利用所述第二通信方式,與其他計算節點交換各自的有效行參數和有效梯度。
根據本公開的另一方面,提供了一種分布式訓練方法,應用于深度神經網絡的分布式訓練框架中,所述分布式訓練框架包括多個計算節點,所述方法由每個計算節點執行,所述方法包括:利用第一通信方式,與其他計算節點交換各自的有效參數,其中,所述有效參數為所述計算節點對應稀疏梯度中有效梯度的行數,所述有效梯度為所述計算節點對應稀疏梯度中有效部分的梯度數據;基于所有計算節點的有效參數,確定與其他計算節點交換各自的有效行參數和有效梯度的第二通信方式,其中,所述有效行參數是表示所述稀疏梯度與所述有效梯度映射關系的數組;利用所述第二通信方式,與其他計算節點交換各自的有效行參數和有效梯度,得到所有計算節點的有效行參數和匯聚后的有效梯度;基于所有計算節點的有效行參數和所述匯聚后的有效梯度,確定目標稀疏梯度;基于所述目標稀疏梯度對所述深度神經網絡的網絡參數進行更新。
根據本公開的另一方面,提供了一種分布式訓練裝置,包括:第一通信模塊,用于利用第一通信方式,與其他計算節點交換各自的有效參數,其中,所述有效參數為所述計算節點對應稀疏梯度中有效梯度的行數,所述有效梯度為所述計算節點對應稀疏梯度中有效部分的梯度數據;第一確定模塊,用于基于所有計算節點的有效參數,確定與其他計算節點交換各自的有效行參數和有效梯度的第二通信方式,其中,所述有效行參數是表示所述稀疏梯度與所述有效梯度映射關系的數組;第二通信模塊,用于利用所述第二通信方式,與其他計算節點交換各自的有效行參數和有效梯度,得到所有計算節點的有效行參數和匯聚后的有效梯度;第二確定模塊,用于基于所有計算節點的有效行參數和所述匯聚后的有效梯度,確定目標稀疏梯度;參數更新模塊,用于基于所述目標稀疏梯度對所述深度神經網絡的網絡參數進行更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202211426391.4/2.html,轉載請聲明來源鉆瓜專利網。





