[發明專利]語音數據處理方法、裝置、計算機設備和存儲介質有效
| 申請號: | 202011585881.X | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112289323B | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 周維聰;袁丁;劉云峰;吳悅 | 申請(專利權)人: | 深圳追一科技有限公司 |
| 主分類號: | G10L17/00 | 分類號: | G10L17/00;G10L25/87;G10L15/04;G10L15/08;G10L15/16 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 陳小娜 |
| 地址: | 518051 廣東省深圳市南山區粵海街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 數據處理 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種語音數據處理方法、裝置、計算機設備和存儲介質。方法包括:獲取待進行說話者分離的目標語音數據;對目標語音數據進行語音端點檢測,得到目標語音數據對應的語音端點集合;對目標語音數據進行說話者切換檢測,得到目標語音數據對應的說話者切換點集合;基于語音端點集合以及說話者切換點集合對目標語音數據進行語音切分,得到目標語音片段集合;對目標語音片段集合中的各個目標語音片段進行聲紋特征提取,得到目標聲紋特征集合;對目標聲紋特征集合進行聚類處理,將屬于同一聚類類別的目標聲紋特征所對應的目標語音片段作為同一說話者對應的語音。采用本方法能夠提高語音分離準確度以及語音分離質量。
技術領域
本申請涉及語音處理技術領域,特別是涉及一種語音數據處理方法、裝置、計算機設備和存儲介質。
背景技術
隨著科學技術的發展,語音在很多領域例如人機交互領域到了廣泛的應用,如可以利用語音控制設備或者通過機器人進行智能語音對話等。
一段語音中通常包括多個說話者的聲音,因此需要將一段語音中,不同說話者的語音數據區分開,以進行語音識別。傳統技術中,語音數據通常是通過進行說話切換點檢測進行說話者分離的,但經常存在分離得到的語音片段包括靜音的片段的情況,導致說話者分離所得到的語音數據的語音質量低。
發明內容
基于此,有必要針對上述技術問題,提供一種語音數據處理方法、裝置、計算機設備和存儲介質。
一種語音數據處理方法,所述方法包括:獲取待進行說話者分離的目標語音數據;對所述目標語音數據進行語音端點檢測,得到所述目標語音數據對應的語音端點集合;對所述目標語音數據進行說話者切換檢測,得到所述目標語音數據對應的說話者切換點集合;基于所述語音端點集合以及所述說話者切換點集合對所述目標語音數據進行語音切分,得到目標語音片段集合;對所述目標語音片段集合中的各個目標語音片段進行聲紋特征提取,得到目標聲紋特征集合,所述目標聲紋特征集合包括各個所述目標語音片段分別對應的目標聲紋特征;對所述目標聲紋特征集合進行聚類處理,將屬于同一聚類類別的目標聲紋特征所對應的目標語音片段作為同一說話者對應的語音。
在一些實施例中,所述對所述目標語音數據進行語音端點檢測,得到所述目標語音數據對應的語音端點集合包括:對所述目標語音數據進行語音幀劃分,得到目標語音幀序列;提取所述目標語音幀序列中的各個目標語音幀對應的聲學特征,得到目標聲學特征序列,所述目標聲學特征序列包括各個所述目標語音幀分別對應的目標聲學特征;將所述目標聲學特征序列輸入到端點檢測模型中進行處理,得到端點檢測值序列,所述端點檢測值序列包括各個所述目標語音幀分別對應的端點檢測值;根據所述端點檢測值序列得到所述目標語音數據對應的語音端點集合。
在一些實施例中,所述將所述目標聲學特征序列輸入到端點檢測模型中進行處理,得到端點檢測值序列包括:將所述目標聲學特征序列輸入到端點檢測模型中,所述端點檢測模型結合所述目標聲學特征序列輸出各個所述目標語音幀對應的端點檢測概率;當所述目標語音幀對應的端點檢測概率大于預設概率時,獲取第一預設值作為端點檢測值;將所述目標語音幀對應的端點檢測值按照語音幀順序組成端點檢測值序列。
在一些實施例中,所述根據所述端點檢測值序列得到所述目標語音數據對應的語音端點集合包括:獲取所述端點檢測值序列中,所述第一預設值的連續排列數量大于第一數量閾值的檢測值區域;將所述檢測值區域所對應的前向語音點作為所述目標語音數據對應的語音端點,得到語音端點集合。
在一些實施例中,所述對所述目標語音數據進行說話者切換檢測,得到所述目標語音數據對應的說話者切換點集合包括:基于所述語音端點集合對所述目標語音數據進行靜音過濾以及語音切分,得到語音切分片段集合;對所述語音切分片段集合中的各個語音切分片段進行說話者切換檢測,到所述語音切分片段對應的說話者切換點,各個語音切分片段對的說話者切換點組成說話者切換點集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳追一科技有限公司,未經深圳追一科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202011585881.X/2.html,轉載請聲明來源鉆瓜專利網。





