[發(fā)明專利]一種簡(jiǎn)歷文件解析方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110360385.2 | 申請(qǐng)日: | 2021-04-02 |
| 公開(kāi)(公告)號(hào): | CN113095075A | 公開(kāi)(公告)日: | 2021-07-09 |
| 發(fā)明(設(shè)計(jì))人: | 宋杰 | 申請(qǐng)(專利權(quán))人: | 上海中通吉網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號(hào): | G06F40/289 | 分類號(hào): | G06F40/289;G06F40/205;G06F16/35;G06F16/33;G06F16/11 |
| 代理公司: | 北京細(xì)軟智谷知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11471 | 代理人: | 鮑亞平 |
| 地址: | 201799 上*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 簡(jiǎn)歷 文件 解析 方法 | ||
本發(fā)明涉及一種簡(jiǎn)歷文件解析方法,包括:獲取用戶上傳和/或投遞的簡(jiǎn)歷文件;基于預(yù)設(shè)文件類別對(duì)簡(jiǎn)歷文件進(jìn)行分類;對(duì)分類后的簡(jiǎn)歷文件進(jìn)行解析獲取簡(jiǎn)歷文件中的文本內(nèi)容;基于預(yù)設(shè)分析框架對(duì)文本內(nèi)容進(jìn)行中文分詞得到結(jié)構(gòu)化文件。本發(fā)明的有益效果為:通過(guò)對(duì)獲取到的簡(jiǎn)歷文件進(jìn)行分類,然后對(duì)分類后的簡(jiǎn)歷文件進(jìn)行解析,得到解析后的文本內(nèi)容,對(duì)文本內(nèi)容進(jìn)行中文分詞進(jìn)而得到機(jī)構(gòu)化的簡(jiǎn)歷文件,從而使得對(duì)簡(jiǎn)歷文件的解析更加的準(zhǔn)確不易出錯(cuò)。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種建立文件解析方法。
背景技術(shù)
簡(jiǎn)歷信息是招聘公司判定求職者是否符合職位要求的重要依據(jù)。招聘人員會(huì)通過(guò)接收郵件、登錄招聘網(wǎng)站等方式瀏覽大量的簡(jiǎn)歷信息,而這些簡(jiǎn)歷信息往往是采用不同的表格模板制作的。而目前市場(chǎng)上存在的簡(jiǎn)歷分析的方法,通常采用將簡(jiǎn)歷文本生成圖片,然后對(duì)圖片進(jìn)行模塊化切割,再采用圖像識(shí)別技術(shù)獲取到特定模塊的文本。
上述通過(guò)圖像模塊化處理的方式來(lái)獲得簡(jiǎn)歷信息的方式,對(duì)簡(jiǎn)歷信息的格式要求非常的嚴(yán)格,對(duì)與不同模塊格式的簡(jiǎn)歷,很容易出現(xiàn)模塊劃分出錯(cuò)的情況,進(jìn)而導(dǎo)致解析率不高。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)存在的易出錯(cuò)、解析率不高等問(wèn)題,本發(fā)明提供了一種簡(jiǎn)歷文件解析方法,其具有準(zhǔn)確率高、解析更加準(zhǔn)確等特點(diǎn)。
根據(jù)本發(fā)明的具體實(shí)施方式的一種簡(jiǎn)歷文件解析方法,包括:
獲取用戶上傳和/或投遞的簡(jiǎn)歷文件;
基于預(yù)設(shè)文件類別對(duì)所述簡(jiǎn)歷文件進(jìn)行分類;
對(duì)分類后的所述簡(jiǎn)歷文件進(jìn)行解析獲取所述簡(jiǎn)歷文件中的文本內(nèi)容;
基于預(yù)設(shè)分析框架對(duì)所述文本內(nèi)容進(jìn)行中文分詞得到結(jié)構(gòu)化文件。
進(jìn)一步地,所述基于預(yù)設(shè)文件類別對(duì)所述簡(jiǎn)歷文件進(jìn)行分類包括:
使用文本轉(zhuǎn)換器將所述簡(jiǎn)歷文件轉(zhuǎn)換為所述預(yù)設(shè)文件類別。
進(jìn)一步地,所述預(yù)設(shè)文件類別包括:word格式、excel格式和pdf格式。
進(jìn)一步地,所述基于預(yù)設(shè)分析框架對(duì)所述文本內(nèi)容進(jìn)行中文分詞得到結(jié)構(gòu)化文件包括:
基于中文分詞ansj框架對(duì)所述文本內(nèi)容進(jìn)行中文分詞。
進(jìn)一步地,所述獲取用戶上傳和/或投遞的簡(jiǎn)歷文件包括:
基于linux服務(wù)器上的web接口獲取所述簡(jiǎn)歷文件。
本發(fā)明的有益效果為:通過(guò)對(duì)獲取到的簡(jiǎn)歷文件進(jìn)行分類,然后對(duì)分類后的簡(jiǎn)歷文件進(jìn)行解析,得到解析后的文本內(nèi)容,對(duì)文本內(nèi)容進(jìn)行中文分詞進(jìn)而得到機(jī)構(gòu)化的簡(jiǎn)歷文件,從而使得對(duì)簡(jiǎn)歷文件的解析更加的準(zhǔn)確不易出錯(cuò)。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是根據(jù)一示例性實(shí)施例提供的簡(jiǎn)歷文件解析方法的流程圖;
圖2是根據(jù)一示例性實(shí)施例提供的解析后的簡(jiǎn)歷文件圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)的描述。顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)的前提下所得到的所有其它實(shí)施方式,都屬于本發(fā)明所保護(hù)的范圍。
參照?qǐng)D1所示,本發(fā)明的實(shí)施例提供了一種簡(jiǎn)歷文件解析方法,具體包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海中通吉網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)上海中通吉網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202110360385.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:快遞分撥系統(tǒng)
- 下一篇:企業(yè)季度分析表的生成方法及裝置
- 一種視頻簡(jiǎn)歷制作和發(fā)布的方法及系統(tǒng)
- 一種求職簡(jiǎn)歷的組合式制作發(fā)布系統(tǒng)及方法
- 簡(jiǎn)歷識(shí)別裝置、方法及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于簡(jiǎn)歷隱私保護(hù)的簡(jiǎn)歷分享方法
- 一種簡(jiǎn)歷狀態(tài)的反饋方法、裝置、存儲(chǔ)介質(zhì)及服務(wù)器
- 簡(jiǎn)歷審核的方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 簡(jiǎn)歷生成方法、系統(tǒng)、計(jì)算機(jī)設(shè)備以及產(chǎn)品
- 一種基于垂直搜索引擎的簡(jiǎn)歷解析系統(tǒng)
- 一種簡(jiǎn)歷生成方法、裝置、客戶端、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種簡(jiǎn)歷查重方法
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





