[發(fā)明專利]自然場景文字識別方法、系統(tǒng)、設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202310623773.4 | 申請日: | 2023-05-30 |
| 公開(公告)號: | CN116343190B | 公開(公告)日: | 2023-08-29 |
| 發(fā)明(設(shè)計(jì))人: | 張勇東;王裕鑫;謝洪濤 | 申請(專利權(quán))人: | 中國科學(xué)技術(shù)大學(xué) |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V30/19;G06V10/82;G06N3/045;G06N3/0455 |
| 代理公司: | 北京凱特來知識產(chǎn)權(quán)代理有限公司 11260 | 代理人: | 韓珂;鄭立明 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 自然 場景 文字 識別 方法 系統(tǒng) 設(shè)備 存儲 介質(zhì) | ||
1.一種自然場景文字識別方法,其特征在于,包括:
步驟1、將待識別的自然場景圖像轉(zhuǎn)換為序列信息,再通過多層Transformer模塊提取出多粒度的視覺特征向量;其中,Transformer模塊為變壓器模塊;
步驟2、對所述多粒度的視覺特征向量進(jìn)行聚合,獲得全局向量;
步驟3、利用所述全局向量并行生成每個時間步的通道注意力圖,并結(jié)合所述全局向量,獲得每個時間步的字符特征向量,利用每個時間步的字符特征向量預(yù)測出每個時間步的字符;
利用所述全局向量并行生成每個時間步的通道注意力圖包括:對每個時間步,生成相應(yīng)的時間嵌入信息,通過第一全連接層為全局向量引入每個時間步的時間嵌入信息,再依次通過第二全連接層、激活函數(shù)與歸一化層得到每個時間步的通道注意力圖。
2.根據(jù)權(quán)利要求1所述的一種自然場景文字識別方法,其特征在于,生成單個時間步的通道注意力圖的方式表示為:
;
其中,表示第一全連接層,表示第二全連接層,表示時間步t對應(yīng)的時間嵌入信息,表示時間步t的通道注意力圖,V表示全局向量;表示激活函數(shù),為歸一化指數(shù)函數(shù),是由歸一化層執(zhí)行的歸一化操作。
3.根據(jù)權(quán)利要求1所述的一種自然場景文字識別方法,其特征在于,所述步驟1通過編碼器實(shí)現(xiàn),步驟3通過基于向量到序列的解碼器實(shí)現(xiàn),編碼器與基于向量到序列的解碼器的內(nèi)部參數(shù)均預(yù)先利用損失函數(shù)進(jìn)行優(yōu)化,損失函數(shù)表示為:
;
其中,為預(yù)測出的時間步t的字符所屬類別,為時間步t的字符的真實(shí)標(biāo)簽,M為時間步總數(shù),等同于最大字符數(shù);L為損失函數(shù)。
4.一種自然場景文字識別系統(tǒng),其特征在于,包括:
編碼器,用于將待識別的自然場景圖像轉(zhuǎn)換為序列信息,再通過多層Transformer模塊提取出多粒度的視覺特征向量;其中,Transformer模塊為變壓器模塊;
特征聚合模塊,用于對所述多粒度的視覺特征向量進(jìn)行聚合,獲得全局向量;
向量到序列的解碼器,用于利用所述全局向量并行生成每個時間步的通道注意力圖,并結(jié)合所述全局向量,獲得每個時間步的字符特征向量,利用每個時間步的字符特征向量預(yù)測出每個時間步的字符;
利用所述全局向量并行生成每個時間步的通道注意力圖包括:對每個時間步,生成相應(yīng)的時間嵌入信息,通過第一全連接層為全局向量引入每個時間步的時間嵌入信息,再依次通過第二全連接層、激活函數(shù)與歸一化層得到每個時間步的通道注意力圖。
5.根據(jù)權(quán)利要求4所述的一種自然場景文字識別系統(tǒng),其特征在于,生成單個時間步的通道注意力圖的方式表示為:
;
其中,表示第一全連接層,表示第二全連接層,表示時間步t對應(yīng)的時間嵌入信息,表示時間步t的通道注意力圖,V表示全局向量;表示激活函數(shù),為歸一化指數(shù)函數(shù),是由歸一化層執(zhí)行的歸一化操作。
6.根據(jù)權(quán)利要求4所述的一種自然場景文字識別系統(tǒng),其特征在于,編碼器與基于向量到序列的解碼器的內(nèi)部參數(shù)均預(yù)先利用損失函數(shù)進(jìn)行優(yōu)化,損失函數(shù)表示為:
;
其中,為預(yù)測出的時間步t的字符所屬類別,為時間步t的字符的真實(shí)標(biāo)簽,M為時間步總數(shù),等同于最大字符數(shù);L為損失函數(shù)。
7.一種處理設(shè)備,其特征在于,包括:一個或多個處理器;存儲器,用于存儲一個或多個程序;
其中,當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行時,使得所述一個或多個處理器實(shí)現(xiàn)如權(quán)利要求1~3任一項(xiàng)所述的方法。
8.一種可讀存儲介質(zhì),存儲有計(jì)算機(jī)程序,其特征在于,當(dāng)計(jì)算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1~3任一項(xiàng)所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)技術(shù)大學(xué),未經(jīng)中國科學(xué)技術(shù)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202310623773.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





