[發(fā)明專利]一種基于深度學習的語音識別方法有效
| 申請?zhí)枺?/td> | 202310914137.7 | 申請日: | 2023-07-25 |
| 公開(公告)號: | CN116631410B | 公開(公告)日: | 2023-10-24 |
| 發(fā)明(設計)人: | 陳志豐;張靈芝 | 申請(專利權(quán))人: | 陳志豐 |
| 主分類號: | G10L17/18 | 分類號: | G10L17/18;G10L15/16;G10L21/0216 |
| 代理公司: | 北京博識智信專利代理事務所(普通合伙) 16067 | 代理人: | 徐佳慧 |
| 地址: | 100015 北京市朝陽區(qū)酒仙橋*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 語音 識別 方法 | ||
1.一種基于深度學習的語音識別方法,其特征在于:該方法包括以下步驟:
步驟S1:音源采集;
步驟S2:音源預處理;
步驟S3:抗噪增強;
步驟S4:口語理解;
步驟S5:說話人識別;
步驟S6:語音識別;
在步驟S2中,所述音源預處理包括采樣率調(diào)整、音量歸一化和聲道歸一化,得到單聲道音源數(shù)據(jù)SMA;
在步驟S3中,所述抗噪增強,包括以下步驟:
步驟S31:采用時頻去噪網(wǎng)絡對所述單聲道音源數(shù)據(jù)SMA進行抗噪處理;
步驟S32:使用語音解碼數(shù)據(jù)和噪聲解碼數(shù)據(jù),通過多種訓練損失函數(shù),進行預測模型訓練,計算得到多種訓練損失,并得到抗噪增強預測模型;
步驟S33:通過抗噪增強預測模型,對單聲道音源數(shù)據(jù)SMA進行語抗噪增強,得到抗噪增強語音數(shù)據(jù)SAN。
2.根據(jù)權(quán)利要求1所述的一種基于深度學習的語音識別方法,其特征在于:在步驟S31中,所述采用時頻去噪網(wǎng)絡對所述單聲道音源數(shù)據(jù)SMA進行抗噪處理,包括以下步驟:
步驟S311:通過編碼器encoder,計算得到單聲道音源編碼數(shù)據(jù)ESMA,計算公式為:
;
其中,是編碼器函數(shù),所述編碼器函數(shù)具體由短時傅里葉變換函數(shù)和ReLu激活函數(shù)構(gòu)成的可學習一維卷積組成,SMA是單聲道音源數(shù)據(jù);
步驟S312:通過掩碼估計網(wǎng)絡MaskEstNet,計算去噪掩碼,計算公式為:
;
其中,是去噪掩碼,MaskV是語音數(shù)據(jù)掩碼,MaskN是噪聲數(shù)據(jù)掩碼,是掩碼估計網(wǎng)絡;
步驟S313:通過解碼器decoder,計算得到語音解碼數(shù)據(jù),計算公式為:
;
其中,是語音解碼數(shù)據(jù),是解碼器函數(shù),所述解碼器函數(shù)是逐元素點乘運算,具體由逆短時傅里葉變換函數(shù)和可學習的一維反卷積層組成,MaskV是語音數(shù)據(jù)掩碼,是點積運算,ESMA是單聲道音源編碼數(shù)據(jù);
步驟S314:通過解碼器decoder,計算得到噪聲解碼數(shù)據(jù),計算公式為:
;
其中,是噪聲解碼數(shù)據(jù),是解碼器函數(shù),所述解碼器函數(shù)是逐元素點積運算,具體由逆短時傅里葉變換函數(shù)和可學習的一維反卷積層組成,MaskV是語音數(shù)據(jù)掩碼,是點積運算,ESMA是單聲道音源編碼數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的一種基于深度學習的語音識別方法,其特征在于:在步驟S32中,所述使用語音解碼數(shù)據(jù)和噪聲解碼數(shù)據(jù),通過多種訓練損失函數(shù),進行預測模型訓練,包括以下步驟:
步驟S321:通過信噪比損失函數(shù)LSNR,在保留單聲道音源數(shù)據(jù)SMA的原始規(guī)模的基礎上進行音源增強,所述信噪比損失函數(shù)LSNR的計算公式為:
;
其中,是信噪比損失函數(shù),θ是預測模型參數(shù),是信噪比函數(shù),是純凈語音數(shù)據(jù)和語音增強得到的語音解碼數(shù)據(jù)之間的信噪比;
步驟S322:通過對數(shù)均方誤差損失函數(shù)Llog-MSE,降低預測語音和真實語音之間的差異,所述對數(shù)均方誤差損失函數(shù)Llog-MSE的計算公式為:
;
其中,是對數(shù)均方誤差損失函數(shù),θ是預測模型參數(shù),是純凈語音數(shù)據(jù)的振幅譜,MaskV是語音數(shù)據(jù)掩碼,是點積運算,ESMA是單聲道音源編碼數(shù)據(jù),||·||2是歐幾里得范數(shù);
步驟S323:通過噪聲重建損失函數(shù)LNR,提高模型的魯棒性,所述噪聲重建損失函數(shù)LNR的計算公式為:
;
其中,是噪聲重建損失函數(shù),θ是預測模型參數(shù),是信噪比函數(shù),是純凈語音數(shù)據(jù)和語音增強得到的語音解碼數(shù)據(jù)之間的信噪比,是純凈噪聲數(shù)據(jù)和語音增強得到的噪聲解碼數(shù)據(jù)之間的信噪比。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于陳志豐,未經(jīng)陳志豐許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202310914137.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





