[發明專利]基于用戶音色進行語音合成的方法及裝置有效

申請號：	201810996446.2	申請日：	2018-08-29
公開（公告）號：	CN108847215B	公開（公告）日：	2020-07-17
發明（設計）人：	吳千瑜	申請（專利權）人：	北京云知聲信息技術有限公司
主分類號：	G10L13/08	分類號：	G10L13/08;G10L13/10;G10L15/14;G10L17/02;G10L21/0208
代理公司：	北京冠和權律師事務所 11399	代理人：	朱健;張國香
地址：	100089 北京市海***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于用戶音色進行語音合成方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供了一種基于用戶音色進行語音合成的方法及裝置，其中，該方法包括：獲取用戶輸入的用戶音頻數據，并確定用戶音頻數據的用戶音色特征；根據用戶音色特征和測試數據合成與測試數據對應的測試音頻數據并播放，并接收用戶指向測試音頻數據的播放調整指令；根據播放調整指令修正用戶音色特征，將修正后的用戶音色特征作為最終的標準音色特征；根據標準音色特征和待播放數據合成與待播放數據對應的目標音頻數據并播放。該方法提取用戶的音色特征并基于用戶的音色特征來播放音頻數據，從而可以模仿用戶發聲，提高播放音頻時的真實性；基于用戶的播放調整指令可對音色特征進行調整，使得最終播放音頻數據時更加符合用戶的特征和需求。

技術領域

本發明涉及語音處理技術領域，特別涉及一種基于用戶音色進行語音合成的方法及裝置。

背景技術

隨著智能設備的普及，目前大多數智能設備(比如智能手機、機器人等)具有自動發音功能。但目前大部分智能設備只是單純的發出機器聲音，對于需要通過語音進行人機交互的智能設備，機器聲音比較單調乏味，聽起來沒有自然語言那樣生動形象，且過于生硬，并不能體現出用戶本身的特色。而現有智能設備并不支持用戶自主改變機器發聲的音色。

發明內容

本發明提供一種基于用戶音色進行語音合成的方法及裝置，用以解決用戶不能自主改變機器發聲的音色的缺陷。

本發明提供的一種基于用戶音色進行語音合成的方法，包括：

獲取用戶輸入的用戶音頻數據，并確定所述用戶音頻數據的用戶音色特征；

根據所述用戶音色特征和測試數據合成與所述測試數據對應的測試音頻數據并播放，并接收用戶指向所述測試音頻數據的播放調整指令；

根據所述播放調整指令修正所述用戶音色特征，將修正后的用戶音色特征作為最終的標準音色特征；

根據所述標準音色特征和待播放數據合成與所述待播放數據對應的目標音頻數據；

獲取用戶輸入的發送指令，所述發送指令中包括音頻接收端標識；

將所述目標音頻數據發送給所述音頻接收端標識所對應的音頻接收端，由所述音頻接收端將所述目標音頻數據作為自身的音頻播放源。

在一種可能的實現方式中，所述獲取用戶輸入的用戶音頻數據包括：

以預設采樣率依次采集當前的環境噪聲和用戶音頻數據，所述預設采樣率不小于預設閾值；

在所述環境噪聲和所述用戶音頻數據的幅值均不超過相應的預設幅值時，根據所述環境噪聲和所述用戶音頻數據確定信噪比；