[發明專利]虛擬人臉生成方法、裝置、計算機設備及可讀存儲介質在審
| 申請號: | 202210945884.2 | 申請日: | 2022-08-08 |
| 公開(公告)號: | CN115482832A | 公開(公告)日: | 2022-12-16 |
| 發明(設計)人: | 康世胤;趙欣陶;劉柏基;莫貴明;吳志勇 | 申請(專利權)人: | 深圳元象信息科技有限公司 |
| 主分類號: | G10L21/10 | 分類號: | G10L21/10;G10L25/63 |
| 代理公司: | 深圳市力道知識產權代理事務所(普通合伙) 44507 | 代理人: | 黃嘉嘉 |
| 地址: | 518000 廣東省深圳市南山區粵海街道濱海社區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 虛擬 生成 方法 裝置 計算機 設備 可讀 存儲 介質 | ||
1.一種虛擬人臉生成方法,其特征在于,包括:
獲取源音頻,并基于預設流式語音識別模型的隱藏層,將所述源音頻進行流式處理,得到流式語音特征,其中,所述流式語音特征為所述隱藏層的輸出;
基于預設自注意機制模型,將所述流式語音特征進行編碼與解碼,得到流式語義特征;
根據預設語義特征與預設人臉特征之間的預設對應關系,若所述流式語義特征與所述預設語義特征一致,將所述預設人臉特征作為所述流式語義特征所對應的流式人臉特征,并將所述流式人臉特征生成虛擬人臉。
2.根據權利要求1所述虛擬人臉生成方法,其特征在于,所述將所述流式語音特征進行編碼與解碼,得到流式語義特征,包括:
將所述流式語音特征進行編碼,得到初始編碼語義特征;
獲取韻律特征,并采用所述韻律特征修正所述初始編碼語義特征,得到編碼語義特征;
將所述編碼語義特征進行解碼,得到流式語義特征。
3.根據權利要求2所述虛擬人臉生成方法,其特征在于,所述韻律特征包括基頻特征與能量特征中的至少一種。
4.根據權利要求2或者3所述虛擬人臉生成方法,其特征在于,所述將所述編碼語義特征進行解碼,得到流式語義特征,包括:
根據所述流式語音特征所對應的語音幀,獲取情感標簽特征;
將所述情感標簽特征與所述編碼語義特征組合并解碼,得到流式語義特征。
5.根據權利要求4所述虛擬人臉生成方法,其特征在于,所述情感標簽特征為基于獨熱編碼描述的情感標簽。
6.根據權利要求2或者3所述虛擬人臉生成方法,其特征在于,所述將所述編碼語義特征進行解碼,得到流式語義特征,包括:
基于預設自注意機制解碼器包含的其它模型層,將所述編碼語義特征進行解碼,得到初始解碼語義特征,其中,所述預設自注意機制解碼器為所述預設自注意機制模型包含的解碼器;
將所述編碼語義特征進行因果卷積處理,得到因果卷積輸出結果;
采用所述因果卷積輸出結果調整所述初始解碼語義特征,得到流式語義特征。
7.根據權利要求1所述虛擬人臉生成方法,其特征在于,所述預設自注意機制模型為基于Chunk-mask的Transformer模型或者基于Chunk-mask的Conformer模型。
8.一種虛擬人臉生成裝置,其特征在于,包括:
語音處理單元,用于獲取源音頻,并基于預設流式語音識別模型的隱藏層,將所述源音頻進行流式處理,得到流式語音特征,其中,所述流式語音特征為所述隱藏層的輸出;
編解碼單元,用于基于預設自注意機制模型,將所述流式語音特征進行編碼與解碼,得到流式語義特征;
人臉生成單元,用于根據預設語義特征與預設人臉特征之間的預設對應關系,若所述流式語義特征與所述預設語義特征一致,將所述預設人臉特征作為所述流式語義特征所對應的流式人臉特征,并將所述流式人臉特征生成虛擬人臉。
9.一種計算機設備,其特征在于,所述計算機設備包括存儲器以及與所述存儲器相連的處理器;所述存儲器用于存儲計算機程序;所述處理器用于運行所述計算機程序,以執行如權利要求1-7任一項所述方法的步驟。
10.一種計算機可讀存儲介質,其特征在于,所述存儲介質存儲有計算機程序,所述計算機程序被處理器執行時可實現如權利要求1-7中任一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳元象信息科技有限公司,未經深圳元象信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202210945884.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種聚合物堵漏劑的模擬堵漏實驗裝置及其使用方法
- 下一篇:錄像方法和相關裝置





