[發(fā)明專利]語音增加方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)有效
| 申請?zhí)枺?/td> | 202010424011.8 | 申請日: | 2020-05-19 |
| 公開(公告)號(hào): | CN111599371B | 公開(公告)日: | 2023-10-20 |
| 發(fā)明(設(shè)計(jì))人: | 鄢戈;王飛;唐浩元;王佳珺;王歡良 | 申請(專利權(quán))人: | 蘇州奇夢者網(wǎng)絡(luò)科技有限公司 |
| 主分類號(hào): | G10L21/02 | 分類號(hào): | G10L21/02;G10L25/30;G10L25/51;G10L17/24 |
| 代理公司: | 蘇州國誠專利代理有限公司 32293 | 代理人: | 陳松 |
| 地址: | 215024 江蘇省蘇州*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 增加 方法 系統(tǒng) 裝置 存儲(chǔ) 介質(zhì) | ||
1.語音增強(qiáng)方法,其特征在于,包括以下步驟:
S10、音頻采集,通過音頻采集設(shè)備不斷的采集多通道音頻信號(hào);
S20、篩選有效語音信號(hào),用語音活動(dòng)檢測對接收到的音頻信號(hào)進(jìn)行不間斷的檢測篩選,篩選出有效語音信號(hào);
S30、初步增強(qiáng)語音,對篩選出的有效語音信號(hào)進(jìn)行初步增強(qiáng),所述初步增強(qiáng)包括采用固定波束語音增強(qiáng)算法同時(shí)對多個(gè)方向進(jìn)行語音增強(qiáng);
S40、篩選目標(biāo)語音,將初步增強(qiáng)的語音送入評分模型中進(jìn)行評分,選擇評分最高且大于指定閾值的語音信號(hào),得到該信號(hào)的方向;
S50、再次增強(qiáng)語音信號(hào),對篩選的目標(biāo)語音進(jìn)行再次增強(qiáng),所述再次增強(qiáng)包括采用高性能的語音增強(qiáng)算法;
S60、喚醒詞檢測,將再次增強(qiáng)的語音送入高精度的喚醒詞檢測模型中進(jìn)行喚醒詞檢測,當(dāng)檢測到喚醒詞時(shí)進(jìn)入S70,否則返回S20;
S70、持續(xù)增強(qiáng)語音,對通過喚醒詞檢測的語音進(jìn)行持續(xù)增強(qiáng),然后將增強(qiáng)后的語音送入識(shí)別端進(jìn)行識(shí)別。
2.根據(jù)權(quán)利要求1所述的語音增強(qiáng)方法,其特征在于,所述固定波束語音增強(qiáng)算法包括廣義旁瓣相消算法或權(quán)重延遲相加算法。
3.根據(jù)權(quán)利要求1所述的語音增強(qiáng)方法,其特征在于,所述評分模型包括深度神經(jīng)網(wǎng)絡(luò)喚醒模型,所述深度神經(jīng)網(wǎng)絡(luò)喚醒模型包括
評分特征提取模塊,所述評分特征提取模塊用于對送入的初步增強(qiáng)的語音提取與模型匹配的特征;
評分深度神經(jīng)網(wǎng)絡(luò)模塊,所述評分深度神經(jīng)網(wǎng)絡(luò)模塊用于將每一幀的語音特征轉(zhuǎn)化為指定關(guān)鍵字與其它無關(guān)字的后驗(yàn)概率;
評分喚醒決策模塊,所述評分喚醒決策模塊用于通過一段語音信號(hào)的后驗(yàn)概率來判斷該段語音是否可以被喚醒。
4.根據(jù)權(quán)利要求3所述的語音增強(qiáng)方法,其特征在于,所述深度神經(jīng)網(wǎng)絡(luò)喚醒模型的層數(shù)為3-5層,節(jié)點(diǎn)數(shù)在30-40。
5.根據(jù)權(quán)利要求3所述的語音增強(qiáng)方法,其特征在于,所述喚醒決策模塊的喚醒詞包括兩個(gè)字。
6.根據(jù)權(quán)利要求1所述的語音增強(qiáng)方法,其特征在于,所述高性能語音增強(qiáng)算法包括最小方差無失真響應(yīng)算法或基于混合高斯模型的最小方差無失真響應(yīng)算法。
7.根據(jù)權(quán)利要求1所述的語音增強(qiáng)方法,其特征在于,所述喚醒詞檢測模型包括時(shí)間延遲網(wǎng)絡(luò)或者卷積神經(jīng)網(wǎng)絡(luò)。
8.根據(jù)權(quán)利要求1所述的語音增強(qiáng)方法,其特征在于,所述喚醒詞檢測模型包括
喚醒詞特征提取模塊,所述喚醒詞特征提取模塊用于對送入的再次增強(qiáng)的語音提取與模型匹配的特征;
喚醒詞深度神經(jīng)網(wǎng)絡(luò)模塊,所述喚醒詞深度神經(jīng)網(wǎng)絡(luò)模塊用于將每一幀的語音特征轉(zhuǎn)化為指定關(guān)鍵字與其它無關(guān)字的后驗(yàn)概率;
喚醒詞喚醒決策模塊,所述喚醒詞喚醒決策模塊用于通過一段語音信號(hào)的后驗(yàn)概率來判斷該段語音是否可以被喚醒。
9.語音增強(qiáng)系統(tǒng),其特征在于,包括
音頻采集系統(tǒng),用于不斷的采集多通道音頻信號(hào);
有效語音信號(hào)篩選系統(tǒng),用于對接收到的音頻信號(hào)進(jìn)行不間斷的檢測篩選;
初步增強(qiáng)語音系統(tǒng),用于對篩選出的有效語音信號(hào)進(jìn)行初步增強(qiáng);
篩選目標(biāo)語音系統(tǒng),用于對初步增強(qiáng)的語音進(jìn)行篩選;
再次增強(qiáng)語音信號(hào)系統(tǒng),用于對篩選的目標(biāo)語音進(jìn)行再次增強(qiáng);
喚醒詞檢測系統(tǒng),用于對再次增強(qiáng)的語音進(jìn)行喚醒詞檢測和判斷;
持續(xù)增強(qiáng)語音系統(tǒng),用于對通過喚醒詞檢測的語音進(jìn)行持續(xù)增強(qiáng)并送入識(shí)別端識(shí)別。
10.一種語音裝置,其特征在于,所述裝置包括
處理器、存儲(chǔ)器以及程序;
所述程序存儲(chǔ)在所述存儲(chǔ)器中,所述處理器調(diào)用存儲(chǔ)器存儲(chǔ)的程序,以執(zhí)行權(quán)利要求1所述的語音增強(qiáng)方法的步驟。
11.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)被配置成存儲(chǔ)程序,所述程序被配置成執(zhí)行權(quán)利要求1所述的語音增加方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州奇夢者網(wǎng)絡(luò)科技有限公司,未經(jīng)蘇州奇夢者網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202010424011.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





