[發明專利]自然場景文字識別方法、系統、設備及存儲介質有效
| 申請號: | 202310623773.4 | 申請日: | 2023-05-30 |
| 公開(公告)號: | CN116343190B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 張勇東;王裕鑫;謝洪濤 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V30/19;G06V10/82;G06N3/045;G06N3/0455 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 韓珂;鄭立明 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自然 場景 文字 識別 方法 系統 設備 存儲 介質 | ||
本發明公開了一種自然場景文字識別方法、系統、設備及存儲介質,它們是一一對應的方案,方案中:將圖像編碼到向量空間,從而被賦予局部和全局多粒度語義,并聚合得到全局向量,再并行生成不同時間步通道注意力圖,從而解碼出不同時間步的字符信息,由于采用向量到序列的解碼方式,不僅可以提升識別速度,同時,由于不同字符在通道空間中共享一些特征表達(例如注意力圖被較強地激活),但一些具有區分力特征的通道權重也存在一定差異,因此,可以確保全局向量能夠在低質量注意力圖的情況下,也能生成魯棒的字符特征表達(例如缺少對共享通道特征的關注不會影響區分力通道特征的表達),因而,本發明提供的方案可以準確的識別自然場景的文字。
技術領域
本發明涉及自然場景文字識別技術領域,尤其涉及一種自然場景文字識別方法、系統、設備及存儲介質。
背景技術
自然場景文字識別是一種通用的文字識別技術,已成為近年來計算機視覺與文檔分析領域的熱點研究方向,并且被廣泛應用于自動駕駛,車牌識別,幫助視障人士等領域。該任務的目標是將圖像中的文字內容轉換成可編輯的文字。
由于自然場景中的文字具有分辨率低下、背景復雜、易受噪聲干擾等特點,導致傳統的文字識別技術無法應用到自然場景中。因此,自然場景中的文字識別技術具有重大的研究意義。
隨著近年來深度學習技術在計算機視覺領域的發展,近期的場景文字識別方法達到了比較好的效果。這些方法都使用了序列到序列的解碼機制,如圖1所示,文字識別過程中,首先將輸入圖像編碼到序列信號,此部分通過CNN(卷積神經網絡)實現;然后再通過對齊結構解碼出序列的字符信息,此部分通過序列到序列的解碼器實現,它可以是基于注意力機制的解碼器,也可以是基于CTC(連接時序分類)機制的解碼器,圖1頂部提供的字符均為示例。然而,這種序列到序列的對齊結構設計較為復雜,無法有效地平衡文字識別過程的速度和魯棒性,因此場景文字識別的速度和精度還有待提升。
發明內容
本發明的目的是提供一種自然場景文字識別方法、系統、設備及存儲介質,可以快速、準確的識別自然場景的文字。
本發明的目的是通過以下技術方案實現的:
一種自然場景文字識別方法,包括:
步驟1、將待識別的自然場景圖像轉換為序列信息,再通過多層Transformer模塊提取出多粒度的視覺特征向量;其中,Transformer模塊為變壓器模塊;
步驟2、對所述多粒度的視覺特征向量進行聚合,獲得全局向量;
步驟3、利用所述全局向量并行生成每個時間步的通道注意力圖,并結合所述全局向量,獲得每個時間步的字符特征向量,利用每個時間步的字符特征向量預測出每個時間步的字符。
一種自然場景文字識別系統,包括:
編碼器,用于將待識別的自然場景圖像轉換為序列信息,再通過多層Transformer模塊提取出多粒度的視覺特征向量;其中,Transformer模塊為變壓器模塊;
特征聚合模塊,用于對所述多粒度的視覺特征向量進行聚合,獲得全局向量;
向量到序列的解碼器,用于利用所述全局向量并行生成每個時間步的通道注意力圖,并結合所述全局向量,獲得每個時間步的字符特征向量,利用每個時間步的字符特征向量預測出每個時間步的字符。
一種處理設備,包括:一個或多個處理器;存儲器,用于存儲一個或多個程序;
其中,當所述一個或多個程序被所述一個或多個處理器執行時,使得所述一個或多個處理器實現前述的方法。
一種可讀存儲介質,存儲有計算機程序,當計算機程序被處理器執行時實現前述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202310623773.4/2.html,轉載請聲明來源鉆瓜專利網。





