[發明專利]一種圖像中文字幕生成方法有效
| 申請號: | 201711260141.7 | 申請日: | 2017-12-04 |
| 公開(公告)號: | CN107909115B | 公開(公告)日: | 2022-02-15 |
| 發明(設計)人: | 王斌;王劍鋒;周小平;張倩;黃繼風 | 申請(專利權)人: | 上海師范大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/237;G06F40/216;G06N3/04;G06N3/08 |
| 代理公司: | 上海宛林專利代理事務所(普通合伙) 31361 | 代理人: | 張明 |
| 地址: | 200234 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 圖像 中文字幕 生成 方法 | ||
1.一種圖像中文字幕生成方法,其特征在于,包括以下步驟:
步驟一,構建訓練集:收集圖像并通過人工對所述圖像加上意思相近的中文描述;所述步驟一選用Flickr8k圖像字幕數據集,原數據集中每幅圖像對應的標注為5句英文,給每幅圖像添加了5句簡單中文字幕的描述;
步驟二,訓練卷積神經網絡進行圖像特征提取,在對上述數據集進行特征提取之前,需要在一個更大的數據集上來預訓練該網絡;使用ImageNet數據庫來訓練16層神經網絡,其中前13層是卷積層,最后3層為全連接層,其中每個卷積層又包括卷積、激活、池化操作;每三層的卷積核數目分別是16、32、64、128、256,其初始化權值采用均值為0、方差為的高斯分布初始化,其中input_size代表該層輸入數據的維度;網絡的最后一層是SOFTMAX分類器,用來計算每幅訓練圖像對應每個類別的概率;每一層的激活函數均選用Relu函數,并且在最后三層后加上Dropout層;訓練該卷積神經網絡的數據集采用ImageNet數據集,該數據集包括1000類別,每個類別包括數千張圖像;訓練方法采用Adadelta梯度下降算法,按以下公式進行網絡參數的更新:
wt+1=wt+Δwt (3)
其中,wt代表第t次迭代的參數值,g代表它的梯度,E[g2]代表梯度g平方的移動平均數,E[g2]t代表第t次迭代梯度g平方的移動平均數,α為計算該移動平均數的系數,取0.99,Δwt代表第t次迭代的參數變化值,η為學習速率取0.0001,ε在這里是一個很小的數防止分母為0;gt為調制結構,代表第t次迭代的梯度,訓練時,待模型的損失函數變化不大時停止訓練,并且在以后步驟中模型參數保持不變;最后利用模型的第二個全連接層的4096維輸出當經過卷積神經網絡提取的特征,用于后續字幕生成;
訓練完成所述卷積神經網絡后,對所述步驟一收集的所述圖像進行正向傳播運算,得到所述圖像的語義特征;
步驟三,對每一句所述中文描述按語義進行分詞,并構造中文字典;對所有中文描述分詞后,統計所有出現過的詞匯,并按照詞匯出現的頻率進行排序,取前2000個詞匯以及未知詞匯標記符UNK作為字典;
步驟四,訓練循環神經網絡進行中文字幕生成;在傳統的LSTM網絡上,加入了Dropout層,該層與傳統的不同的是它在每一個時序周期是不變的,在不同的時序周期采用與傳統方式一樣隨機置0的方法,從而提升模型的泛化能力;LSTM的單元結構有一個細胞狀態在時序之間傳遞,以及幾種不同的門Gates結構去控制輸入,輸出以及細胞狀態;這些門結構包括:輸入門it、輸出門ot、忘記門ft,以及輸入調制結構gt,在第t次迭代,LSTM網絡的細胞狀態ct以及隱層輸出ht通過下列式子求出:
it=σ(Wixxt+Wihht-1+bi) (4)
ft=σ(Wfxxt+Wfhht-1+bf) (5)
ot=σ(Woxxt+Wohht-1+bo) (6)
gt=tanh(Wgxxt+Wghht-1+bg) (7)
ct=ft⊙ct-1+it⊙gt (8)
ht=ot⊙tanh(ct) (9)
其中,xt為第t次迭代的輸入,ht-1為t-1次迭代隱層單元的輸出,σ(x)=1/(1+e-x)是sigmoid函數,tanh(x)=(e^x-e^(-x))/(e^x+e^(-x))是雙曲正切函數,Wix、Wfx、Wox、Wgx、Wih、Wfh、Woh、Wgh與bi、bf、bo、bg為該模型待學習的參數,它們不隨迭代次數t的變化而變化,符號⊙代表矩陣對應元素相乘;接著,在每個隱層后加上一個Dropout層,構建出一個Drop-LSTM網絡,即每一次迭代t將隱層輸出ht乘以同一個與其形狀相同的0-1隨機矩陣:
ht=ht⊙mh
其中mh代表隨機矩陣,該矩陣的產生方法通過讓其每個元素服從概率為p的0-1二元分布產生,p取0.5,mh不會隨著迭代次數t變化而變化,在同一個時序中它是一個定值;最后,利用卷積神經網絡提取的特征和對應的中文描述序號矩陣當作輸入,并按照上述訓練卷積神經網絡的方法,訓練該網絡,使其學會如何自動生成字幕;
步驟五,進行圖像字幕生成,在測試或使用階段,將待生成字幕的圖像依次通過所述卷積神經網絡、所述循環神經網絡完成其圖像字幕生成任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海師范大學,未經上海師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201711260141.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:訓練有監督機器學習的模型的方法和裝置
- 下一篇:洗衣機故障識別方法及裝置
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





