[發明專利]視頻處理方法、裝置、電子設備及存儲介質有效

申請號：	202110296780.9	申請日：	2021-03-19
公開（公告）號：	CN113115104B	公開（公告）日：	2023-04-07
發明（設計）人：	葉奎;黃旭為	申請（專利權）人：	北京達佳互聯信息技術有限公司
主分類號：	H04N21/439	分類號：	H04N21/439;H04N21/44;G10L25/30
代理公司：	北京清亦華知識產權代理事務所(普通合伙) 11201	代理人：	韓?；?/td>
地址：	100085 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	視頻處理方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本公開關于一種視頻處理方法、裝置、電子設備及存儲介質，屬于視頻處理技術領域。方法包括：獲取與待處理文本對應的聲譜；對聲譜進行分段處理，得到多個聲譜段；采用表情系數序列生成模型對聲譜進行預測處理，得到與聲譜對應的表情系數序列，表情系數序列包括：多個表情系數，以及與表情系數對應的時長，表情系數與聲譜段相對應；生成與聲譜段對應的音頻段；將表情系數序列和多個音頻段發送至客戶端，以觸發客戶端生成目標視頻。該方法有效提升表情系數序列生成的準確性和時效性，由于對聲譜進行分段處理，且得到了與分段處理后的聲譜段對應的音頻段，該表情系數序列和音頻段被用于處理目標視頻，能夠有效輔助提升后續視頻處理的響應效率。

技術領域

本公開涉及視頻處理技術領域，尤其涉及一種視頻處理方法、裝置、電子設備及存儲介質。

背景技術

隨著智能終端的軟硬件技術的發展，智能終端側的處理視頻的方法越來越流行，比如，采用文本驅動以處理視頻(該文本驅動以處理視頻，即指根據目標人物的視頻和一段音頻(該音頻由文本合成)，生成與該音頻同步的目標人物說話的視頻，在處理視頻的過程中采用了表情系數序列和由文本合成的音頻)。

相關技術中文本驅動以處理視頻的方法，表情系數序列的生成質量不高，且視頻處理的響應效率較低。

發明內容

本公開提供一種視頻處理方法、裝置、電子設備、存儲介質及計算機程序產品，以至少解決相關技術中文本驅動以處理視頻的方法，表情系數序列的生成質量不高，且視頻處理的響應效率較低的技術問題。

本公開的技術方案如下：

根據本公開實施例的第一方面，提供一種視頻處理方法，包括：獲取與待處理文本對應的聲譜；對所述聲譜進行分段處理，得到多個聲譜段；采用表情系數序列生成模型對所述聲譜進行預測處理，得到與所述聲譜對應的表情系數序列，所述表情系數序列包括：多個表情系數，以及與所述表情系數對應的時長，所述表情系數與所述聲譜段相對應；生成與所述聲譜段對應的音頻段；將所述表情系數序列和多個所述音頻段發送至客戶端，以觸發所述客戶端生成目標視頻。

在本公開的一些實施例中，所述表情系數序列生成模型的訓練方法包括：

獲取多個樣本聲譜，以及與所述樣本聲譜對應的標注表情系數序列；

將所述多個樣本聲譜輸入至神經網絡模型，得到所述神經網絡模型輸出的預測的樣本表情系數序列；

根據所述樣本表情系數序列與所述標注表情系數序列之間的差值對所述神經網絡模型進行訓練，得到所述表情系數序列生成模型。

在本公開的一些實施例中，所述對所述聲譜進行分段處理，得到多個聲譜段，包括：

確定所述聲譜的時間刻度信息，所述時間刻度信息，用于描述所述聲譜所攜帶的聲譜特征對應的分布時長；

根據所述時間刻度信息和所述目標視頻的預設幀率確定分段時長；

對所述聲譜進行分段處理，得到時長為所述分段時長的多個聲譜段。

在本公開的一些實施例中，所述根據所述時間刻度信息和所述目標視頻的預設幀率確定分段時長的步驟，包括：

確定預設值與所述預設幀率的比值；

確定所述時間刻度信息與所述比值的最小公約數，并將所述最小公約數作為所述分段時長。

在本公開的一些實施例中，在所述生成與所述聲譜段對應的音頻段后，還包括：