[發明專利]基于用戶音色進行語音合成的方法及裝置有效
| 申請號: | 201810996446.2 | 申請日: | 2018-08-29 |
| 公開(公告)號: | CN108847215B | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 吳千瑜 | 申請(專利權)人: | 北京云知聲信息技術有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L13/10;G10L15/14;G10L17/02;G10L21/0208 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 朱健;張國香 |
| 地址: | 100089 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 用戶 音色 進行 語音 合成 方法 裝置 | ||
本發明提供了一種基于用戶音色進行語音合成的方法及裝置,其中,該方法包括:獲取用戶輸入的用戶音頻數據,并確定用戶音頻數據的用戶音色特征;根據用戶音色特征和測試數據合成與測試數據對應的測試音頻數據并播放,并接收用戶指向測試音頻數據的播放調整指令;根據播放調整指令修正用戶音色特征,將修正后的用戶音色特征作為最終的標準音色特征;根據標準音色特征和待播放數據合成與待播放數據對應的目標音頻數據并播放。該方法提取用戶的音色特征并基于用戶的音色特征來播放音頻數據,從而可以模仿用戶發聲,提高播放音頻時的真實性;基于用戶的播放調整指令可對音色特征進行調整,使得最終播放音頻數據時更加符合用戶的特征和需求。
技術領域
本發明涉及語音處理技術領域,特別涉及一種基于用戶音色進行語音合成的方法及裝置。
背景技術
隨著智能設備的普及,目前大多數智能設備(比如智能手機、機器人等)具有自動發音功能。但目前大部分智能設備只是單純的發出機器聲音,對于需要通過語音進行人機交互的智能設備,機器聲音比較單調乏味,聽起來沒有自然語言那樣生動形象,且過于生硬,并不能體現出用戶本身的特色。而現有智能設備并不支持用戶自主改變機器發聲的音色。
發明內容
本發明提供一種基于用戶音色進行語音合成的方法及裝置,用以解決用戶不能自主改變機器發聲的音色的缺陷。
本發明提供的一種基于用戶音色進行語音合成的方法,包括:
獲取用戶輸入的用戶音頻數據,并確定所述用戶音頻數據的用戶音色特征;
根據所述用戶音色特征和測試數據合成與所述測試數據對應的測試音頻數據并播放,并接收用戶指向所述測試音頻數據的播放調整指令;
根據所述播放調整指令修正所述用戶音色特征,將修正后的用戶音色特征作為最終的標準音色特征;
根據所述標準音色特征和待播放數據合成與所述待播放數據對應的目標音頻數據;
獲取用戶輸入的發送指令,所述發送指令中包括音頻接收端標識;
將所述目標音頻數據發送給所述音頻接收端標識所對應的音頻接收端,由所述音頻接收端將所述目標音頻數據作為自身的音頻播放源。
在一種可能的實現方式中,所述獲取用戶輸入的用戶音頻數據包括:
以預設采樣率依次采集當前的環境噪聲和用戶音頻數據,所述預設采樣率不小于預設閾值;
在所述環境噪聲和所述用戶音頻數據的幅值均不超過相應的預設幅值時,根據所述環境噪聲和所述用戶音頻數據確定信噪比;
在所述信噪比不小于預設信噪比閾值時,將當前采集的所述用戶音頻數據作為有效的用戶音頻數據。
在一種可能的實現方式中,在所述信噪比不小于預設信噪比閾值時,將當前采集的所述用戶音頻數據作為有效的用戶音頻數據包括:
根據所述環境噪聲對所述用戶音頻數據進行補償處理,將補償處理后的用戶音頻數據作為最終有效的用戶音頻數據。
在一種可能的實現方式中,所述獲取用戶輸入的用戶音頻數據包括:
分段獲取用戶輸入的用戶音頻子數據,將所有的所述用戶音頻子數據組合成為與所述用戶對應的用戶音頻數據。
在一種可能的實現方式中,所述將所有的所述用戶音頻子數據組合成為與所述用戶對應的用戶音頻數據包括:
對每段用戶音頻子數據進行聲紋識別處理,并確定每段用戶音頻子數據的聲紋特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京云知聲信息技術有限公司,未經北京云知聲信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201810996446.2/2.html,轉載請聲明來源鉆瓜專利網。





