[發明專利]一種基于說話人嵌入空間的競爭說話人數量估計方法及系統有效
| 申請號: | 202010009945.5 | 申請日: | 2020-01-06 |
| 公開(公告)號: | CN111179959B | 公開(公告)日: | 2022-08-05 |
| 發明(設計)人: | 曲天書;吳璽宏;彭超 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G10L21/0216 | 分類號: | G10L21/0216;G10L21/0272;G10L21/0208;G10L25/30;G10L25/45 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 說話 嵌入 空間 競爭 人數 估計 方法 系統 | ||
本發明公開了一種基于說話人嵌入空間的競爭說話人數量估計方法及系統。本方法為:1)利用麥克風陣列采集多說話人的混合多通道信號;2)提取所述混合多通道信號的多通道幅度信息和多通道相位信息;3)利用深度神經網絡分別估計所述多通道幅度信息的嵌入空間和多通道相位信息的嵌入空間;4)利用全連接層將兩所述嵌入空間映射到說話人嵌入空間;其中,所述多通道幅度信息的嵌入空間、多通道相位信息的嵌入空間和說話人嵌入空間均為相同維度的嵌入空間;5)估計所述說話人嵌入空間中的嵌入向量的平均協方差矩陣;6)對所述平均協方差矩陣做特征值分解,將得到的秩的個數判定為說話人的數量。本發明能夠實現更精確的競爭說話人數量估計。
技術領域
本發明屬于競爭說話人計數領域,涉及深度神經網絡、嵌入空間和特征值分解,具體涉及一種基于嵌入空間(Embedding Space)的競爭說話人數量估計方法。
背景技術
在多個說話者同時講話同時有其他干擾源的環境中,拾音目標說話者的聲音一直是一個難題。
最近,許多基于深度學習的方法在這方面都進行了嘗試,例如,置換不變訓練(Permutation Invariant Training),深度聚類(Deep Clustering)和深度吸引子網絡(Deep Attractor Network)。但是,這些語音分離方法都具有一個主要問題,即必須知道說話人的個數。同時,存在于復雜聲學場景中的說話人數量不僅對于語音分離而且對于聲音定位、音頻監控和多說話人語音識別都是至關重要的信息。
然而,現有方法并不能直接獲得真實環境中的競爭說話人的數量。幸運的是,在最近的說話人數量估計工作中,存在三種使用深度學習解決此問題的策略。第一個是通過說話人分割(Speaker Diarization)進行計數,它通過檢測一個說話人在一段時間內何時開始講話和何時結束講話來進行計數;但這似乎是一個非常復雜的問題,并且當同時有多個源一起說話時(如在實際的雞尾酒會環境中),現有的切割策略將失敗。第二個是利用波達方向(DOA)計數,該方法通過手動確定閾值或檢測峰的數量來確定;然而,在有語音重疊的多個說話人的情況下,它的效果非常不佳。最后一種策略是直接使用深度神經網絡進行計數,它基于強大的機器學習技術,可將輸入表示直接映射到說話者人數;盡管該策略可行,但缺乏數學上的可解釋性。
發明內容
針對現有技術中存在的技術問題,本發明的目的在于提供一種基于深度聯合嵌入學習的競爭說話人數量估計方法及系統。本發明首先引入了一種多通道方法,將單通道的混合語音幅度譜擴展到多通道特征;由于空間幅度信息和相位信息訓練的嵌入矢量是互補的,因此本發明會首先訓練空間幅度譜和相位譜的兩個嵌入空間,然后再將其映射到相同的嵌入空間中。這種方法能夠很好地估計競爭說話人的人數。
本發明的基本思想是使用神經網絡將混合語音投影到說話人嵌入空間中,其中不同說話人的嵌入向量之間是正交的,而對于同一說話人是平行的。因此,可以通過計算嵌入矢量的平均協方差矩陣的秩來對說話者數量進行估計。這是一種新穎的在說話人嵌入空間中的一種特征拼接方法,而不是簡單地在神經網絡的輸入層進行特征拼接。實驗結果表明,在無混響和有混響的數據集上,本發明所提出的基于聯合學習的方法比單通道和多通道說話者計數估計方法能夠實現更精確的競爭說話人數量估計。
本發明的重要創新之處在于在已有的單通道方法基礎上,利用聯合學習分別學習幅度信息和相位信息的嵌入空間,接著再將其映射到同一個嵌入空間,最后利用這個嵌入空間中的嵌入向量的平均協方差矩陣的特征值分解估計說話人數量。
本發明的技術方案為:
一種基于說話人嵌入空間的的競爭說話人數量估計方法,其步驟包括:
1)首先,利用麥克風陣列采集多說話人的混合多通道信號;
2)在得到多通道信號后,分別提取多通道信號的多通道幅度信息和多通道相位信息;
3)利用深度神經網絡分別估計幅度信息和相位信息的嵌入空間;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202010009945.5/2.html,轉載請聲明來源鉆瓜專利網。





