[發明專利]文檔匹配方法和文檔匹配裝置在審
| 申請號: | 201310714413.1 | 申請日: | 2013-12-20 |
| 公開(公告)號: | CN103678645A | 公開(公告)日: | 2014-03-26 |
| 發明(設計)人: | 劉恒;廖飛鳴;黃凱峰;陳洪波;黃玉金 | 申請(專利權)人: | 中電長城網際系統應用有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京天昊聯合知識產權代理有限公司 11112 | 代理人: | 彭瑞欣;張天舒 |
| 地址: | 102200 北京市昌平區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 匹配 方法 裝置 | ||
技術領域
本發明涉及信息檢索領域,特別涉及一種文檔匹配方法和文檔匹配裝置。
背景技術
目前,隨著信息檢索技術的發展,文檔快速匹配技術的應用越來越廣泛。在信息檢索技術領域中,對于文檔智能快速匹配的問題已經做出了大量的研究工作,并產生了相應的研究成果。
現有技術中,文檔智能快速匹配的方法是對整個文檔進行分析和比較,從而確定出兩篇文檔是否是相同或者相似。
但是,由于文檔通常都很大,因此采用整篇文檔比較的方法導致文檔匹配的處理效率不高。
發明內容
本發明提供一種文檔匹配方法和文檔匹配裝置,用于提高文檔匹配的處理效率。
為實現上述目的,本發明提供了一種文檔匹配方法,包括:
從待比較文檔中提取出待比較文檔摘要以及從基準文檔中提取出基準文檔摘要;
根據所述待比較文檔摘要和所述基準文檔摘要,判斷出所述待比較文檔和所述基準文檔是否為相似文檔。
可選地,所述從待比較文檔中提取出待比較文檔摘要包括:
對待比較文檔進行分詞處理生成文檔的名詞集合,并根據名詞集合生成文檔矩陣,其中,名詞集合中的名詞為至少在待比較文檔中的兩個句子中出現的名詞;
對文檔矩陣進行加權處理,生成加權處理后的文檔矩陣;
對加權處理后的文檔矩陣進行奇異值分解處理生成右特征向量和左奇異向量,并根據右特征向量和左奇異向量生成矩陣范數;
將文檔矩陣以左奇異向量為聚類中心進行聚類劃分,生成文檔聚類;
根據文檔矩陣中的句子數量以及預先設定的壓縮比,生成文檔摘要假設句子數;
根據文檔聚類和預先設定的覆蓋率,生成摘要聚類的最小數量值;
根據文檔摘要假設句子數和摘要聚類的最小數量值,得出文檔摘要實際句子數;
根據矩陣范數,從文檔聚類的句子中選取出摘要實際句子數個或者摘要實際句子數加1個句子,生成待比較文檔摘要。
可選地,所述從基準文檔中提取出基準文檔摘要包括:
對基準文檔進行分詞處理生成文檔的名詞集合,并根據名詞集合生成文檔矩陣,其中,名詞集合中的名詞為至少在基準文檔中的兩個句子中出現的名詞;
對文檔矩陣進行加權處理,生成加權處理后的文檔矩陣;
對加權處理后的文檔矩陣進行奇異值分解處理生成右特征向量和左奇異向量,并根據右特征向量和左奇異向量生成矩陣范數;
將文檔矩陣以左奇異向量為聚類中心進行聚類劃分,生成文檔聚類;
根據文檔矩陣中的句子數量以及預先設定的壓縮比,生成文檔摘要假設句子數;
根據文檔聚類和預先設定的覆蓋率,生成摘要聚類的最小數量值;
根據文檔摘要假設句子數和摘要聚類的最小數量值,得出文檔摘要實際句子數;
根據矩陣范數,從文檔聚類的句子中選取出摘要實際句子數個或者摘要實際句子數加1個句子,生成基準文檔摘要。
可選地,所述根據所述待比較文檔和所述基準文檔,判斷出所述待比較文檔和所述基準文檔是否為相似文檔包括:
從所述待比較文檔摘要和所述基準文檔摘要中提取公共子序列;
若提取出所述公共子序列,從所述公共子序列中選取出最大公共子序列,判斷所述最大公共子序列的長度與所述基準文檔摘要的長度之比是否大于設定比值,若判斷出所述最大公共子序列的長度與所述基準文檔摘要的長度之比大于設定比值,確定出所述待比較文檔和所述基準文檔是相似文檔,所述最大公共子序列為提取出的所述公共子序列中長度最大的一個公共子序列。
可選地,所述根據所述待比較文檔和所述基準文檔,判斷出所述待比較文檔和所述基準文檔是否為相似文檔包括:
從所述待比較文檔摘要和所述基準文檔摘要中提取公共子序列;
若提取出所述公共子序列,從所述公共子序列中選取出長度最大的設定數量個所述公共子序列并計算出長度最大的設定數量個所述公共子序列的長度之和,判斷長度最大的設定數量個所述公共子序列的長度之和與所述基準文檔摘要的長度之比是否大于設定比值,若判斷出長度最大的設定數量個所述公共子序列的長度之和與所述基準文檔摘要的長度之比大于所述設定比值,確定出所述待比較文檔和所述基準文檔是相似文檔。
為實現上述目的,本發明提供了一種文檔匹配裝置,包括:
提取單元,用于從待比較文檔中提取出待比較文檔摘要以及從基準文檔中提取出基準文檔摘要;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電長城網際系統應用有限公司,未經中電長城網際系統應用有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201310714413.1/2.html,轉載請聲明來源鉆瓜專利網。





