[發明專利]基于雙目融合網絡與兩步訓練框架立體視頻質量評價方法在審
| 申請號: | 202011110071.9 | 申請日: | 2020-10-16 |
| 公開(公告)號: | CN112437290A | 公開(公告)日: | 2021-03-02 |
| 發明(設計)人: | 李素梅;劉安琪;馬帥 | 申請(專利權)人: | 天津大學 |
| 主分類號: | H04N17/00 | 分類號: | H04N17/00;H04N13/106;G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉國威 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 雙目 融合 網絡 訓練 框架 立體 視頻 質量 評價 方法 | ||
本發明屬于視頻和圖像處理領域,為提出立體視頻質量評價方法,更加準確高效,且貼合人眼對立體視覺的感知,本發明:基于雙目融合網絡與兩步訓練框架立體視頻質量評價方法,首先通過計算立體視頻的時間顯著性與空間顯著性,對立體視頻的每一幀生成顯著性圖片,得到的順序排列的顯著性圖片稱為左視頻的時空顯著性特征流與右視頻的時空顯著性特征流,并將其作為雙目融合網絡的兩個輸入;其次,分兩步訓練雙目融合網絡,即局部回歸和全局回歸,在第一步中,通過添加全連接層,用小塊標簽預訓練所提網絡的左通道CNN以及右通道CNN;在第二步中,基于第一步的權重模型,使用MOS值對整個網絡進行訓練。本發明主要應用于視頻和圖像處理場合。
技術領域
本發明屬于視頻和圖像處理領域,涉及到視頻時空顯著性的計算,不同失真塊的質量分數的計算,以及深度學習在立體視頻質量評價中的應用。具體涉及基于雙目融合網絡與兩步訓練框架立體視頻質量評價方法。
背景技術
目前,立體視頻已經廣泛地應用在人類生活的各個領域。與此同時,也產生了一系列立體視頻處理技術。但任何處理技術都可能對立體內容造成不同程度的失真,從而影響人們對立體視頻的感知。因此,找到一個有效的立體視頻質量評價方法是非常有必要的。一個有效的立體視頻質量評價方法不僅可以衡量立體視頻的失真程度,還可以為當代3D技術的發展提供技術支持。
到目前為止,立體視頻質量評價方法可以分為三類:傳統方法,基于稀疏表示的方法和基于深度學習的方法。在傳統方法中,最近的文章都類似于[1]-[5]。不同的空間特征,時間特征和深度特征被提取,通過不同方式結合后獲得立體視頻的質量。但是傳統的方法手動提取特征,而未被提取的特征就此丟失。因此,一些研究人員使用稀疏表示的方法來使立體視頻中的信息得到充分利用。例如,[6]將從稀疏字典和堆疊自動編碼器中提取的特征輸入給支持向量機,以獲得最終的質量分數。然而,傳統方法和稀疏表示的方法都不符合大腦分層提取視覺信息的事實[7]。因此,開始有研究人員選擇使用深度學習來完成立體視頻質量評價任務,如[8][9]。深度學習可以分層次地提取綜合特征,并通過深化網絡層來獲得更好的結果。
在深度學習的方法中,文獻[8]設計了深層雙流神經網絡來分別評價左視圖和右視圖的質量。通過組合左右視圖的質量以獲得立體視頻質量。文獻[9]通過搭建3D卷積神經網絡(CNN)來自動提取立體視頻中的時空信息。簡而言之,[8]在最后一步結合了左右視圖的質量,而[9]首先對左右視圖點進行簡單的融合或提取差異,然后再對2D視頻再進行處理。這些處理方式看起來稍微有些簡單,而且忽略了左右視圖之間的相關性。同樣,無論是傳統方法還是稀疏表示方法,對兩個視圖都有類似的處理方式,文章[6]首先融合了左右視圖,文章[1][2][3][4]在最后一步中結合了左右視圖的質量,且忽視了大腦的視覺融合機制。
雖然目前在醫學中成像機制尚不清楚,但已有文獻表明,立體視覺感知是大腦長期處理的結果,并且在低級和高級視覺區域均存在融合感知。當大腦在處理立體視覺信號時,雙目視差首先在初級視覺皮層V1區域形成[10]。進一步地,在次級皮層區域V2中選擇性增強深度感知。然后,3D視覺刺激導致視覺皮層V3區域激活[11]。V4視覺區域在3D成像中也起著至關重要的作用[12]。所以,在本發明中,為了盡可能地模仿這種醫學機制,采用了從低層到高層的多重融合。此外,雙目競爭還涉及V1,V2,V3和V4區域神經元活性的增強[13]。并且當發生雙目競爭時,應通過分配不同的權重來融合左右視圖信號[15][16]。這表明每個視覺區域都存在雙目競爭以及雙目融合。因此,本發明將“加權模塊”嵌入到融合網絡中來盡可能地模仿雙目競爭。“加權模塊”由文獻[14]中的擠壓和激勵(SE)模塊來實現,用以對來自不同視點的特征圖進行加權。
此外,考慮到不同的視圖,不同的框架以及不同的區域可能有不同的質量,本發明采取兩步訓練框架。在先前的深度學習方法中,研究人員將同一平均意見值(MOS值)分配給立體視頻中的所有塊,再將它們輸入到網絡中進行訓練。這對于具有對稱失真的立體視頻可能是合理的。但是對于非對稱失真,在訓練網絡時使用相同的標簽來標記同一立體視頻的不同視圖和不同區域是不合理的。這也是難以準確評價非對稱失真的原因。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202011110071.9/2.html,轉載請聲明來源鉆瓜專利網。





