[發(fā)明專利]語音增加方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)有效
| 申請?zhí)枺?/td> | 202010424011.8 | 申請日: | 2020-05-19 |
| 公開(公告)號(hào): | CN111599371B | 公開(公告)日: | 2023-10-20 |
| 發(fā)明(設(shè)計(jì))人: | 鄢戈;王飛;唐浩元;王佳珺;王歡良 | 申請(專利權(quán))人: | 蘇州奇夢者網(wǎng)絡(luò)科技有限公司 |
| 主分類號(hào): | G10L21/02 | 分類號(hào): | G10L21/02;G10L25/30;G10L25/51;G10L17/24 |
| 代理公司: | 蘇州國誠專利代理有限公司 32293 | 代理人: | 陳松 |
| 地址: | 215024 江蘇省蘇州*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 增加 方法 系統(tǒng) 裝置 存儲(chǔ) 介質(zhì) | ||
本發(fā)明涉及一種語音信號(hào)的處理方法,尤其是語音增強(qiáng)方法,包括以下步驟:S10、音頻采集;S20、篩選有效語音信號(hào);S30、初步增強(qiáng)語音;S40、篩選目標(biāo)語音;S50、再次增強(qiáng)語音信號(hào);S60、喚醒詞檢測,將再次增強(qiáng)的語音送入高精度的喚醒詞檢測模型中進(jìn)行喚醒詞檢測,當(dāng)檢測到喚醒詞時(shí)進(jìn)入S70,否則返回S20;S70、持續(xù)增強(qiáng)語音,對通過喚醒詞檢測的語音進(jìn)行持續(xù)增強(qiáng),然后將增強(qiáng)后的語音送入識(shí)別端進(jìn)行識(shí)別。本發(fā)明提供的語音增強(qiáng)方法可以有效的降低計(jì)算開銷,即使在有強(qiáng)噪聲場景下也能較準(zhǔn)確的進(jìn)行識(shí)別任務(wù)。適合應(yīng)用在環(huán)境較復(fù)雜且計(jì)算資源有限的本地端。
技術(shù)領(lǐng)域
本發(fā)明涉及一種語音信號(hào)的處理方法,尤其是語音增強(qiáng)方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)。
背景技術(shù)
語音增強(qiáng)是指從接收到的復(fù)雜的語音信號(hào)中提取有效的目標(biāo)語音信號(hào),降低或者抑制來自非目標(biāo)語音信號(hào)的干擾的技術(shù)手段。目前語音增強(qiáng)算法通常需要預(yù)先知道目標(biāo)聲源的方位或者噪聲的先驗(yàn)分布后通過一定的算法來進(jìn)行語音增強(qiáng)。
然而在實(shí)際較強(qiáng)噪聲的應(yīng)用場景中,由于無法事先確定哪一個(gè)是目標(biāo)聲源,可能會(huì)導(dǎo)致聲源定位不準(zhǔn)確,影響后續(xù)的語音信號(hào)處理;而且相對復(fù)雜和較為精準(zhǔn)的聲源定位算法以及語音增強(qiáng)算法往往都意味著計(jì)算復(fù)雜度較高,需要提供較大的計(jì)算資源。所以,傳統(tǒng)的語音增強(qiáng)算法和系統(tǒng)對某些應(yīng)用場景存在一定的局限性。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明提供一種在只有低計(jì)算資源設(shè)備的條件下,針對強(qiáng)噪聲場景下的語音信號(hào),依然可以做到有效的語音喚醒和語音識(shí)別的語音增加方法,具體技術(shù)方案為:
語音增強(qiáng)方法,包括以下步驟:
S10、音頻采集,通過音頻采集設(shè)備不斷的采集多通道音頻信號(hào);
S20、篩選有效語音信號(hào),用語音活動(dòng)檢測對接收到的音頻信號(hào)進(jìn)行不間斷的檢測篩選,篩選出有效語音信號(hào);
S30、初步增強(qiáng)語音,對篩選出的有效語音信號(hào)進(jìn)行初步增強(qiáng),所述初步增強(qiáng)包括采用固定波束語音增強(qiáng)算法同時(shí)對多個(gè)方向進(jìn)行語音增強(qiáng);
S40、篩選目標(biāo)語音,將初步增強(qiáng)的語音送入評分模型中進(jìn)行評分,選擇評分最高且大于指定閾值的語音信號(hào),得到該信號(hào)的方向;
S50、再次增強(qiáng)語音信號(hào),對篩選的目標(biāo)語音進(jìn)行再次增強(qiáng),所述再次增強(qiáng)包括采用高性能的語音增強(qiáng)算法;
S60、喚醒詞檢測,將再次增強(qiáng)的語音送入高精度的喚醒詞檢測模型中進(jìn)行喚醒詞檢測,當(dāng)檢測到喚醒詞時(shí)進(jìn)入S70,否則返回S20;
S70、持續(xù)增強(qiáng)語音,對通過喚醒詞檢測的語音進(jìn)行持續(xù)增強(qiáng),然后將增強(qiáng)后的語音送入識(shí)別端進(jìn)行識(shí)別。
進(jìn)一步的,所述固定波束語音增強(qiáng)算法包括廣義旁瓣相消算法或權(quán)重延遲相加算法。
進(jìn)一步的,所述評分模型包括深度神經(jīng)網(wǎng)絡(luò)喚醒模型,所述深度神經(jīng)網(wǎng)絡(luò)喚醒模型包括評分特征提取模塊,所述評分特征提取模塊用于對送入的初步增強(qiáng)的語音提取與模型匹配的特征;評分深度神經(jīng)網(wǎng)絡(luò)模塊,所述評分深度神經(jīng)網(wǎng)絡(luò)模塊用于將每一幀的語音特征轉(zhuǎn)化為指定關(guān)鍵字與其它無關(guān)字的后驗(yàn)概率;評分喚醒決策模塊,所述評分喚醒決策模塊用于通過一段語音信號(hào)的后驗(yàn)概率來判斷該段語音是否可以被喚醒。
進(jìn)一步的,所述深度神經(jīng)網(wǎng)絡(luò)喚醒模型的層數(shù)為3-5層,節(jié)點(diǎn)數(shù)在30-40。
進(jìn)一步的,所述喚醒決策模塊的喚醒詞包括兩個(gè)字。
進(jìn)一步的,所述高性能語音增強(qiáng)算法包括最小方差無失真響應(yīng)算法或基于混合高斯模型的最小方差無失真響應(yīng)算法。
進(jìn)一步的,所述喚醒詞檢測模型包括時(shí)間延遲網(wǎng)絡(luò)或者卷積神經(jīng)網(wǎng)絡(luò)。
進(jìn)一步的,
所述喚醒詞檢測模型包括
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州奇夢者網(wǎng)絡(luò)科技有限公司,未經(jīng)蘇州奇夢者網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202010424011.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





