[發(fā)明專利]一種類Alexnet網(wǎng)絡(luò)的模型訓(xùn)練方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201610201731.1 | 申請(qǐng)日: | 2016-03-31 |
| 公開(公告)號(hào): | CN107292385A | 公開(公告)日: | 2017-10-24 |
| 發(fā)明(設(shè)計(jì))人: | 王思宇 | 申請(qǐng)(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號(hào): | G06N3/08 | 分類號(hào): | G06N3/08 |
| 代理公司: | 北京潤(rùn)澤恒知識(shí)產(chǎn)權(quán)代理有限公司11319 | 代理人: | 趙娟 |
| 地址: | 英屬開曼群島大開*** | 國(guó)省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 種類 alexnet 網(wǎng)絡(luò) 模型 訓(xùn)練 方法 裝置 | ||
技術(shù)領(lǐng)域
本申請(qǐng)涉及信息技術(shù)領(lǐng)域,特別是涉及一種類Alexnet網(wǎng)絡(luò)的模型訓(xùn)練方法和一種類Alexnet網(wǎng)絡(luò)的模型訓(xùn)練裝置。
背景技術(shù)
人工智能(Artificial Intelligence)是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué),它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專家系統(tǒng)等。人工智能從誕生以來,理論和技術(shù)日益成熟,應(yīng)用領(lǐng)域也不斷擴(kuò)大。近年來,深度學(xué)習(xí)(Deep Learning)直接嘗試解決抽象認(rèn)知的難題,并取得了突破性的進(jìn)展。深度學(xué)習(xí)引爆的這場(chǎng)革命,將人工智能帶上了一個(gè)新的臺(tái)階,不僅學(xué)術(shù)意義巨大,而且實(shí)用性很強(qiáng)。
深度學(xué)習(xí)的動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像,聲音和文本。通常,深度學(xué)習(xí)是通過建立相應(yīng)的網(wǎng)絡(luò)模型,采用模型訓(xùn)練的方式來進(jìn)行的。根據(jù)不同的學(xué)習(xí)框架建立的學(xué)習(xí)模型很是不同,例如,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,簡(jiǎn)稱CNNs)就是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,其中,Alexnet網(wǎng)絡(luò)又是開發(fā)者經(jīng)常使用的一種經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)。
如圖1所示,是一種Alexnet網(wǎng)絡(luò)的結(jié)構(gòu)示例圖。在Alexnet網(wǎng)絡(luò)中,比較重要的兩種層類型為卷積層Convolution(即圖1中Convolution1至pool5部分)和全連接層Inner Product(即圖1中Inner Product6至loss層部分)。在Alexnet網(wǎng)絡(luò)中進(jìn)行一次模型訓(xùn)練的過程可以描述如下:
(1)先將數(shù)據(jù)從Data層正向傳播到Top層,此過程途中先經(jīng)過卷積層部分,再經(jīng)過全連接層部分;
(2)在傳播到Top層后計(jì)算損失;
(3)將損失從Top層依次反向傳播到Data層,并在傳播過程中計(jì)算梯 度值,最后完成連接權(quán)重的更新,這一過程途中先經(jīng)過全連接層部分,再經(jīng)過卷積層部分。
在Alexnet網(wǎng)絡(luò)中,無論是正向傳播過程還是反向傳播過程,卷積層部分都會(huì)擁有非常大的計(jì)算量,幾乎占了整個(gè)網(wǎng)絡(luò)的計(jì)算時(shí)間80%以上,但卷積層需要更新的參數(shù)量卻非常小,只占整個(gè)網(wǎng)絡(luò)參數(shù)的10%;而全連接層部分的情況則與卷積層完全相反,全連接層部分擁有整個(gè)網(wǎng)絡(luò)90%的待更新參數(shù),但計(jì)算時(shí)間卻只占了整個(gè)網(wǎng)絡(luò)的20%。
在單機(jī)多卡(即一臺(tái)裝有多個(gè)圖形處理單元GPU的計(jì)算機(jī))環(huán)境下,在進(jìn)行模型訓(xùn)練時(shí),為了能夠得到無損的訓(xùn)練結(jié)果,必須在每個(gè)GPU上都保持一份全量的模型,并在兩個(gè)模型上同時(shí)進(jìn)行訓(xùn)練。以兩卡(兩個(gè)圖形處理單元GPU)為例,可以將兩張卡分為主卡和從卡,如圖2所示,是已有技術(shù)中主卡與從卡的工作原理圖。在每一輪訓(xùn)練結(jié)束后,需要將從卡上的模型計(jì)算出來的梯度值發(fā)送到主卡模型上,并由主卡在計(jì)算梯度值的平均值后更新參數(shù),最后將主卡上最新的模型廣播發(fā)送到從卡上,才能繼續(xù)進(jìn)行下一次的訓(xùn)練。已有技術(shù)中一般是先對(duì)所有層計(jì)算出全部的梯度值之后,將得到的所有層的梯度值發(fā)送到主卡上求和平均并更新模型,即必須先進(jìn)行全部的計(jì)算之后才能進(jìn)行通信,在時(shí)間上,計(jì)算和通信具有嚴(yán)格的先后順序。
因此,按照已有技術(shù)首先計(jì)算出全連接層的梯度值,并在將全連接層的梯度值匯總到主卡上之后,再計(jì)算卷積層的梯度值,則整個(gè)過程所耗費(fèi)的時(shí)間將會(huì)非常多,嚴(yán)重影響模型訓(xùn)練的運(yùn)行效率。
發(fā)明內(nèi)容
鑒于上述問題,提出了本申請(qǐng)實(shí)施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種類Alexnet網(wǎng)絡(luò)的模型訓(xùn)練方法和相應(yīng)的一種類Alexnet網(wǎng)絡(luò)的模型訓(xùn)練裝置。
為了解決上述問題,本申請(qǐng)公開了一種類Alexnet網(wǎng)絡(luò)的模型訓(xùn)練方法,包括:
采用第一圖形處理單元GPU計(jì)算在類Alexnet網(wǎng)絡(luò)下的第一梯度值和第 二梯度值;
接收第二圖形處理單元GPU發(fā)送的在所述類Alexnet網(wǎng)絡(luò)下的第三梯度值;
依據(jù)所述第一梯度值和第三梯度值計(jì)算所述類Alexnet網(wǎng)絡(luò)的第一模型參數(shù);
接收所述第二圖形處理單元GPU發(fā)送的在所述類Alexnet網(wǎng)絡(luò)下的第四梯度值;
依據(jù)所述第二梯度值和第四梯度值計(jì)算所述類Alexnet網(wǎng)絡(luò)的第二模型參數(shù);
采用所述第一模型參數(shù)和第二模型參數(shù)訓(xùn)練所述類Alexnet網(wǎng)絡(luò)的模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201610201731.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種類Alexnet網(wǎng)絡(luò)的模型訓(xùn)練方法和裝置
- 一種基于改進(jìn)AlexNet的燃弧識(shí)別方法
- 一種電能質(zhì)量擾動(dòng)分類方法
- 一種甲狀腺锝掃圖像的識(shí)別模型構(gòu)建方法及裝置
- 一種基于改進(jìn)Alexnet模型的尿液有形成分識(shí)別方法
- 一種基于特征融合Alexnet壁畫圖像分類方法
- 基于無線微波衰減特征遷移學(xué)習(xí)的濃霧監(jiān)測(cè)方法
- 基于AlexNet和遷移學(xué)習(xí)相結(jié)合的心電圖異常識(shí)別方法及系統(tǒng)
- 基于AlexNet網(wǎng)絡(luò)的長(zhǎng)輸油氣管線沿線施工擾動(dòng)及泄漏識(shí)別方法
- 復(fù)數(shù)域結(jié)構(gòu)化SAR艦船目標(biāo)動(dòng)態(tài)仿真與速度估計(jì)方法
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





