[發明專利]一種文本定位方法和裝置在審
| 申請號: | 202010147332.8 | 申請日: | 2020-03-05 |
| 公開(公告)號: | CN112749606A | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 鄭巖 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20;G06K9/34;G06K9/46;G06K9/62 |
| 代理公司: | 深圳翼盛智成知識產權事務所(普通合伙) 44300 | 代理人: | 汪阮磊 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 定位 方法 裝置 | ||
本申請實施例公開了一種文本定位方法和裝置;本申請實施例可以獲取文本圖像;對文本圖像進行字符輪廓提取,得到文本圖像中字符的字符輪廓信息;根據字符輪廓信息,從文本圖像中確定字符所在的字符區域;對字符區域進行分類,得到字符區域的字符類別;根據字符區域的字符類別,對字符區域進行區域合并,得到每種字符類別對應的目標字符區域。該方案能夠基于字符的字符輪廓信息確定字符所在的字符區域,并對字符區域進行分類以及區域合并,使得合并后得到的每種字符類別對應的目標字符區域更加準確,從而大大提高了文本定位的準確度。
技術領域
本發明涉及人工智能技術領域,具體涉及一種文本定位方法和裝置。
背景技術
隨著人工智能的到來,文本識別作為該領域的重要應用,愈發收到重視。如今,數字文檔由最初的純文本文檔過渡到文本圖片混排、手寫印刷體混排、多語言和多字體的文檔混排等。以生活中應用較多的手寫和印刷體混排文本為例,文本中的手寫和印刷體文本都各自發揮著應有的作用,因此將手寫和印刷文本進行區分和定位,是非常有意義的,也有助于后續更加針對性的數據處理。
現有的文本定位方法,在文本分類過程中,多是針對單個文本行進行的印刷和手寫文本的分類,在文本定位過程中,通常是基于空白模板對手寫文本進行定位,即在定位過程中需要使用額外的模板信息用于特征配準。
在對現有技術的研究和實踐過程中,本發明的發明人發現,現有技術難以在沒有空白模板的情況下對手寫文本進行定位,從而使得對文本定位的準確度大大降低。
發明內容
本申請實施例提供一種文本定位方法和裝置,可以提高文本定位的準確度。
本申請實施例提供一種文本定位方法,包括:
獲取文本圖像;
對所述文本圖像進行字符輪廓提取,得到所述文本圖像中字符的字符輪廓信息;
根據所述字符輪廓信息,從所述文本圖像中確定字符所在的字符區域;
對所述字符區域進行分類,得到所述字符區域的字符類別;
根據所述字符區域的字符類別,對所述字符區域進行區域合并,得到每種字符類別對應的目標字符區域。
相應的,本申請實施例還提供了一種文本定位裝置,包括:
獲取單元,用于獲取文本圖像;
提取單元,用于對所述文本圖像進行字符輪廓提取,得到所述文本圖像中字符的字符輪廓信息;
確定單元,用于根據所述字符輪廓信息,從所述文本圖像中確定字符所在的字符區域;
分類單元,用于對所述字符區域進行分類,得到所述字符區域的字符類別;
合并單元,用于根據所述字符區域的字符類別,對所述字符區域進行區域合并,得到每種字符類別對應的目標字符區域。
在一些實施例中,所述提取單元,用于:
對所述文本圖像進行灰度處理,得到所述文本圖像對應的灰度圖像;
對所述灰度圖像進行二值化處理,得到處理后文本圖像;
對所述處理后文本圖像進行字符輪廓提取,得到所述文本圖像中字符的字符輪廓信息。
在一些實施例中,所述確定單元,包括:
確定子單元,用于根據所述字符輪廓信息,從所述文本圖像中確定字符的初始字符區域;
修正子單元,用于對所述初始字符區域進行修正處理,得到字符所在的字符區域。
在一些實施例中,所述修正子單元,用于:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202010147332.8/2.html,轉載請聲明來源鉆瓜專利網。





