[發明專利]一種從PDF格式文件頁面中提取圖像的方法及系統無效
| 申請號: | 201110243119.8 | 申請日: | 2011-08-23 |
| 公開(公告)號: | CN102306294A | 公開(公告)日: | 2012-01-04 |
| 發明(設計)人: | 晏檢平 | 申請(專利權)人: | 深圳市萬興軟件有限公司 |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 彭愿潔;李文紅 |
| 地址: | 518110 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 pdf 格式文件 頁面 提取 圖像 方法 系統 | ||
技術領域
本發明涉及文檔處理領域,特別是涉及一種從PDF格式文件頁面中提取圖像的方法及系統。
背景技術
PDF是Portable?Document?Format(便攜文件格式)的縮寫,是一種電子文件格式。PDF文件格式以其卓越的特性成為在互聯網上進行電子文檔發行和格式化信息傳播的理想文件格式。當前,在互聯網上發布的科技論文大部分以PDF格式提交。但是,PDF格式文件的著重點在于描述文檔的打印格式,而沒有描述原始文檔內的數據結構,并且不易編輯。因此,如果需要將PDF格式文件轉換為其它格式的文件,是比較困難的。尤其是PDF格式文件中的圖像,是PDF格式文件轉換中最難解決的問題。
現有技術中,在將PDF格式文件轉換為其它格式的文件時,對于圖像的提取主要有兩種方式:
一種是將PDF格式文件中的所有圖像元素(一幅圖片可能由大量的圖像元素構成)原封不動的提取出來。該方式提取出的圖像元素,往往有成千上萬個。由于該方式提取出的是大量的圖像元素,同時并沒有明確哪些圖像元素構成一幅圖像。因此,該方式提取出的圖像,只能對圖像元素進行編輯而無法對圖像整體進行編輯。
還有一種是直接將PDF格式文件中的整個頁面作為一個圖片提取出來。該方式提取出的圖像,同樣存在不易編輯的問題。
發明內容
本發明的目的是提供一種從PDF格式文件頁面中提取圖像的方法及系統,能夠使得提取出的圖像易于編輯,同時具有較高的提取效率。
為實現上述目的,本發明提供了如下方案:
一種從PDF格式文件頁面中提取圖像的方法,包括:
獲取PDF格式文件頁面中每個圖像元素的位置信息;
根據所述位置信息,將頁面中的全部圖像元素劃分為不同的集合;
將每個集合中的全部圖像元素作為整體進行圖像提取。
優選的,所述獲取PDF格式文件頁面中每個圖像元素的位置信息包括:
獲取PDF格式文件頁面中每個圖像元素的左上角頂點位置坐標信息,并記錄所述坐標信息作為該圖像元素的基準點。
優選的,所述根據所述位置信息,將頁面中的全部圖像元素劃分為不同的集合,包括:
對所述圖像元素進行水平方向的劃分,得到一個或多個行集合;
對所述行集合中的圖像元素進行垂直方向的劃分,得到行列集合。
優選的,所述對所述圖像元素進行水平方向的劃分,得到一個或多個行集合,包括:
A、按照圖像元素的基準點的縱坐標,對全部圖像元素進行排序;
B、按照縱坐標的排序結果,將第一個圖像元素劃分至第一個行集合;
C、判斷下一個圖像元素與剛劃分的圖像元素的縱坐標范圍是否相交;
D、如果是,則將所述下一個圖像元素劃分至所述剛劃分的圖像元素所在的行集合;否則,將所述下一個圖像元素劃分至新的行集合,返回步驟C。
優選的,所述對所述行集合中的圖像元素進行垂直方向的劃分,得到行列集合,包括:
E、對于每個行集合,按照所述圖像元素的基準點的橫坐標,對行集合中的圖像元素進行排序;
F、按照橫坐標的排序結果,將行集合中的第一個圖像元素劃分至第一個列集合;所述列集合為對應于整個頁面的行列集合;
G、判斷下一個圖像元素與剛劃分的圖像元素在橫坐標方向是否相交;
H、如果是,則將所述下一個圖像元素劃分至所述剛劃分的圖像元素所在的列集合;否則,將所述下一個圖像元素劃分至新的列集合,返回步驟G。
優選的,所述將每個行列集合中的全部圖像元素作為整體進行圖像提取,包括:
獲取每個行列集合的外圍輪廓;
按照所述外圍輪廓,將所述行列集合中的全部圖像元素作為一幅圖片進行提取。
優選的,所述獲取每個行列集合的外圍輪廓;按照所述外圍輪廓,將所述行列集合中的全部圖像元素作為一幅圖片進行提取,包括:
獲取每個行列集合的外圍矩形;
根據該外圍矩形對該行列集合中的全部圖像元素作為整體進行截圖提取。
一種從PDF格式文件頁面中提取圖像的系統,包括:
位置信息獲取模塊,用于獲取PDF格式文件頁面中每個圖像元素的位置信息;
集合劃分模塊,用于根據所述位置信息,將頁面中的全部圖像元素劃分為不同的集合;
提取模塊,用于將每個集合中的全部圖像元素作為整體進行圖像提取。
優選的,所述位置信息獲取模塊包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市萬興軟件有限公司,未經深圳市萬興軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201110243119.8/2.html,轉載請聲明來源鉆瓜專利網。





