[發(fā)明專利]一種使用Transformer的多層次圖像壓縮方法有效
| 申請?zhí)枺?/td> | 202111138182.5 | 申請日: | 2021-09-27 |
| 公開(公告)號: | CN113709455B | 公開(公告)日: | 2023-10-24 |
| 發(fā)明(設(shè)計)人: | 劉美琴;梁甲名;林春雨;白慧慧;趙耀 | 申請(專利權(quán))人: | 北京交通大學 |
| 主分類號: | H04N19/103 | 分類號: | H04N19/103;H04N19/20;H04N19/30;H04N19/42 |
| 代理公司: | 北京市商泰律師事務(wù)所 11255 | 代理人: | 鄒芳德 |
| 地址: | 100044 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 使用 transformer 多層次 圖像 壓縮 方法 | ||
1.一種使用Transformer的多層次圖像壓縮方法,其特征在于,所述的多層次圖像壓縮方法為以Transformer模塊為主,輔之以卷積層神經(jīng)網(wǎng)絡(luò)的多層次的圖像壓縮框架,該框架利用卷積層神經(jīng)網(wǎng)降低特征圖分辨率、提取局部特征的同時兼顧全局特征分布;其中,Transformer模塊包括多層編碼器組件組件、解碼器組件,編碼端采用編碼器組件,解碼端采用解碼器組件;解碼器擁有交叉注意力機制,該交叉注意力機制將解碼器的輸入的自注意力特征與編碼器的自注意力特征進行聯(lián)合計算,對壓縮壓縮框架編碼器的編碼端學習到的特征充分利用。
2.根據(jù)權(quán)利要求1所述的一種使用Transformer的多層次圖像壓縮方法,其特征在于,所述的圖像壓縮框架的編碼端和解碼端是對稱的分層結(jié)構(gòu),每一層稱之為一個階段,每個階段包含一個上下采樣模塊、一個Transformer模塊和必要的特征變形;
每個階段的上下采樣模塊通過一個卷積層來實現(xiàn),分階段的上下采樣有利于適應(yīng)圖像壓縮任務(wù)輸入圖像分辨率大而提取特征分辨率小的特點;同時在卷積之后使用GDN/IGDN層對特征進行非線性變換處理,以使特征排列更有利于壓縮。
3.根據(jù)權(quán)利要求1或2所述的一種使用Transformer的多層次圖像壓縮方法,其特征在于,所述的圖像壓縮框架包括:
輸入圖像數(shù)據(jù)x先經(jīng)過壓縮框架的編碼端計算得到圖像的潛在特征y,隨后超先驗?zāi)K的編碼部分對y進行計算提取出邊信息z,z先經(jīng)過量化再通過超先驗?zāi)K的解碼部分重建出特征與經(jīng)過掩碼處理的y進行拼接,一同輸入到上下文預(yù)測模塊中以預(yù)測y的概率分布,概率模型采用由三個子高斯分布組成的混合高斯分布模型;其中,在訓練的過程中,對y直接進行量化得到經(jīng)過壓縮框架解碼端的計算實現(xiàn)對原圖像x的重建;在測試過程中,則是基于對y的概率分布的預(yù)測,自回歸地重建然后再重建原始圖像x。
4.根據(jù)權(quán)利要求2所述的一種使用Transformer的多層次圖像壓縮方法,其特征在于,所述的特征變形包括兩個操作:維度轉(zhuǎn)變和分塊拉長,維度轉(zhuǎn)變適應(yīng)Transformer在從自然語言處理領(lǐng)域遷移至計算機視覺領(lǐng)域的過程中數(shù)據(jù)維度的差異,分塊拉長解決Transformer中注意力機制的顯存占用過高導(dǎo)致內(nèi)存溢出錯誤的問題。
5.根據(jù)權(quán)利要求4所述的一種使用Transformer的多層次圖像壓縮方法,其特征在于,所述的分塊拉長的操作發(fā)生在上下采樣卷積之后、維度轉(zhuǎn)變之前,由于圖像特征圖的高和寬的乘積相較于文本序列長度會很大,先分塊拉長再轉(zhuǎn)變維度輸入到Transformer中有助于大幅度減少注意力機制的顯存占用,注意力機制的計算公式如下:
公式中的Q、K、V分別代表查詢向量、鍵向量、值向量,這三個向量是通過輸入特征經(jīng)過三個不同的全連接層產(chǎn)生的,dk為單頭注意力維度;注意力機制中顯存占用最大的部分是計算Q與K點積得到的注意力矩陣,即公式中的QKT,Q與K的形狀與Transformer的輸入的形狀相同,假定卷積后特征圖的形狀為(B,H,W,C),如果直接維度轉(zhuǎn)變,形狀變?yōu)?B,H×W,C)輸入到Transformer中,那么QK點積的形狀為(B,N,N),N=H×W。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京交通大學,未經(jīng)北京交通大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202111138182.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種音箱包裝盒
- 下一篇:一種輻流回轉(zhuǎn)斜板沉淀池
- 基于Transformer+LSTM神經(jīng)網(wǎng)絡(luò)模型的商品銷量預(yù)測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法
- 點云分割方法、系統(tǒng)、介質(zhì)、計算機設(shè)備、終端及應(yīng)用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機器翻譯模型優(yōu)化方法
- 基于Transformer和增強交互型MPNN神經(jīng)網(wǎng)絡(luò)的小分子表示學習方法
- 基于U-Transformer多層次特征重構(gòu)的異常檢測方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法
- 利用商用支撐結(jié)構(gòu)所構(gòu)筑的多層次水產(chǎn)養(yǎng)殖系統(tǒng)
- 多層次微粒體及其抗眩膜
- 一種自動生成網(wǎng)格與著色器多層次細節(jié)的方法
- 一種高靈敏度電容型柔性壓力傳感器
- 一種基于多組學數(shù)據(jù)整合的植物全基因組多層次生物網(wǎng)絡(luò)重建方法
- 基于多層次深度特征的鐵軌異物檢測方法與裝置
- 多源故障檢測與診斷方法和裝置
- 識別待檢測樣本中異常細胞的方法、裝置和存儲介質(zhì)
- 云平臺監(jiān)控方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 用于產(chǎn)生多層次字符圖形的方法和裝置以及記錄介質(zhì)
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





