[發明專利]一種分布式訓練中梯度同步方法及裝置在審
| 申請號: | 201910760056.X | 申請日: | 2019-08-16 |
| 公開(公告)號: | CN110472731A | 公開(公告)日: | 2019-11-19 |
| 發明(設計)人: | 李小龍;王洪偉;李鑫;李長亮 | 申請(專利權)人: | 北京金山數字娛樂科技有限公司;成都金山數字娛樂科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 11637 北京智信禾專利代理有限公司 | 代理人: | 王治東<國際申請>=<國際公布>=<進入 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練數據 訓練集 累加 環形連接 模型訓練 通訊頻率 分組 申請 | ||
本申請提供一種分布式訓練中梯度同步方法及裝置,其中所述分布式訓練中梯度同步方法包括:對分布式訓練集群中每個訓練節點上的訓練數據進行分組,獲得每個訓練節點上的多個子訓練數據,其中,分布式訓練集群中的訓練節點成環形連接;計算所述分布式訓練集群的訓練節點中每個子訓練數據的子訓練累積梯度;根據所述子訓練累積梯度獲得與所述子訓練累積梯度對應的子訓練累加梯度;將所述子訓練累加梯度同步至所述分布式訓練集群的每個訓練節點。通過累積所述子訓練數據的梯度,減少累積梯度的同步次數,減少通訊頻率,加快模型訓練的速度。
技術領域
本申請涉及計算機技術領域,特別涉及一種分布式訓練中梯度同步方法及裝置、計算設備、計算機可讀存儲介質和芯片。
背景技術
目前,隨著計算機技術的迅猛發展,深度學習技術也得到了快速進步,隨著深度學習技術的深入,研發出越來越復雜的算法,這些算法需要大量的數據并耗費大量的時間才能有效的完成訓練,因此研發出了分布式訓練。
在深度學習的模型優化中,需要使用梯度下降的方法計算梯度找到最小的損失函數,以此來訓練模型,加快模型的收斂。在目前的分布式訓練中,需要每完成一次訓練都要進行梯度信息的傳遞和梯度信息的同步,以便于將分布式訓練節點上的梯度共享,找到最小損失函數,因此在模型訓練時會因為高頻率的梯度信息傳遞和傳遞信息量大的問題導致模型訓練時間長、跨度大,嚴重延緩了模型訓練的速度。
因此,如何改善上述問題,就成為目前亟待解決的問題。
發明內容
有鑒于此,本申請實施例提供了一種分布式訓練中梯度同步方法及裝置、計算設備、計算機可讀存儲介質和芯片,以解決現有技術中存在的技術缺陷。
根據本申請實施例的第一方面,提供了一種分布式訓練中梯度同步方法,包括:
對分布式訓練集群中每個訓練節點上的訓練數據進行分組,獲得每個訓練節點上的多個子訓練數據,其中,分布式訓練集群中的訓練節點成環形連接;
計算所述分布式訓練集群的訓練節點中每個子訓練數據的子訓練累積梯度;
根據所述子訓練累積梯度獲得與所述子訓練累積梯度對應的子訓練累加梯度;
將所述子訓練累加梯度同步至所述分布式訓練集群的每個訓練節點。
根據本申請實施例的第二方面,提供了一種分布式訓練中梯度同步裝置,包括:
分組模塊,被配置為對分布式訓練集群中每個訓練節點上的訓練數據進行分組,獲得每個訓練節點上的多個子訓練數據,其中,分布式訓練集群中的訓練節點成環形連接;
計算模塊,被配置為計算所述分布式訓練集群的訓練節點中每個子訓練數據的子訓練累積梯度;
累加模塊,被配置為根據所述子訓練累積梯度獲得與所述子訓練累積梯度對應的子訓練累加梯度;
同步模塊,被配置為將所述子訓練累加梯度同步至所述分布式訓練集群的每個訓練節點。
根據本申請實施例的第三方面,提供了一種計算設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機指令,所述處理器執行所述指令時實現所述分布式訓練中梯度同步方法的步驟。
根據本申請實施例的第四方面,提供了一種計算機可讀存儲介質,其存儲有計算機指令,該指令被處理器執行時實現所述分布式訓練中梯度同步方法的步驟。
根據本申請實施例的第五方面,提供了一種芯片,其存儲有計算機指令,該指令被芯片執行時實現所述分布式訓練中梯度同步方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山數字娛樂科技有限公司;成都金山數字娛樂科技有限公司,未經北京金山數字娛樂科技有限公司;成都金山數字娛樂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201910760056.X/2.html,轉載請聲明來源鉆瓜專利網。





