[發明專利]新詞識別方法與裝置有效
| 申請號: | 201610322268.6 | 申請日: | 2016-05-16 |
| 公開(公告)號: | CN107391504B | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 周文禮 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/9032 | 分類號: | G06F16/9032;G06F16/901 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 新詞 識別 方法 裝置 | ||
本申請涉及計算機技術領域,尤其涉及在信息檢索系統中使用的新詞識別方法。在新詞識別方法中,首先獲取信息檢索系統的歷史查詢日志中的單字串,之后,將單字串進行切分,生成候選詞匯,并從信息檢索系統的歷史查詢日志中獲取與所述候選詞匯相關的目標查詢日志,最后根據所述目標查詢日志識別所述當前候選詞匯為新詞,且識別所述候選詞匯為新詞后,將所述候選詞匯存儲至所述信息檢索系統的詞特征庫中。通過本申請提供的方案,可以高效識別出不斷涌現的新詞,完善詞特征庫,進而提高分詞的精度,進而提高信息檢索系統的檢索速度和檢索結果準確度。
技術領域
本申請涉及計算機技術領域,具體涉及一種新詞識別方法與裝置以及一種計算設備。
背景技術
信息檢索系統,例如搜索引擎或問答(英文:question answering)系統,是根據用戶輸入的查詢語句進行查詢并生成查詢結果展示給用戶的系統。信息檢索系統獲取了用戶輸入的查詢語句后,需將查詢語句分為一系列的詞。如果查詢語句為無邊界語言,則獲取該一系列詞的過程也稱為分詞。例如將“手機購物”分詞為“手機”和“購物”,接下來,將分詞產生的一系列的詞與索引文件進行匹配,并獲取該查詢語句在索引文件中匹配的各個文件的匹配情況,包括匹配的各個文件的評分或排序,最后將評分最高或排序最靠前的一定數量的文件返回給用戶。通過信息檢索系統的工作流程可以看出,信息檢索系統輸出的檢索結果的準確與否,很大程度上依賴于分詞產生的一系列詞的準確性,因此,分詞的精度直接決定了信息檢索系統的檢索的速度和檢索結果準確度。比如,把用戶輸入的查詢語句中的AB分成兩個詞A、B與分成一個詞AB相比,前者檢索時長較長且檢索結果也不如后者準確。
目前的分詞技術,均是基于一個已有的詞特征庫來實現的,對于詞特征庫中已經存儲的詞,能夠準確分出,而對于不斷涌現的新詞,比如網絡新詞、專業詞匯等等,卻無法準確分出,可見,詞特征庫的完備性是影響分詞的精度的最大因素。
因此,亟需一種高效識別新詞的方法,以完善詞特征庫,提高分詞的精度,進而提高信息檢索系統的檢索速度和檢索結果準確度。
發明內容
有鑒于此,本申請提供了一種新詞識別方法、裝置以及計算設備,以高效識別新詞,進而提升信息檢索系統的檢索速度和檢索結果準確度。
為實現上述目的,本申請提供如下技術方案:
本申請的第一方面提供了一種新詞識別方法,該方法由信息檢索系統中的檢索設備執行,包括:從所述信息檢索系統的歷史查詢日志中獲取單字串;將所述單字串進行切分,生成候選詞匯,所述候選詞匯中包括至少兩個單字;從所述歷史查詢日志中獲取與所述候選詞匯相關的目標查詢日志;根據所述目標查詢日志計算所述候選詞匯的統計指標;判斷所述候選詞匯的統計指標是否滿足預設規則;當所述候選詞匯的統計指標滿足預設規則時,識別所述候選詞匯為新詞,并將所述候選詞匯存儲至所述信息檢索系統的詞特征庫中。
通過獲取信息檢索系統的歷史查詢日志中的單字串,隨后將單字串進行切分,生成候選詞匯,并從信息檢索系統的歷史查詢日志中獲取與所述候選詞匯相關的目標查詢日志,最后根據所述目標查詢日志識別所述當前候選詞匯為新詞,且識別所述當前候選詞匯為新詞后,將所述候選詞匯存儲至所述信息檢索系統的詞特征庫中,可以高效識別出不斷涌現的新詞,完善詞特征庫,進而提高分詞的精度,進而提高信息檢索系統的檢索速度和檢索結果準確度。
結合第一方面,在第一方面的第一種實現方式中,所述目標查詢日志的數量為一個,,所述候選詞匯的統計指標包括所述候選詞匯的出現頻率、凝固程度和自由程度中的一個或多個,則,所述判斷所述候選詞匯的統計指標是否滿足預設規則,具體包括:判斷所述候選詞匯的各個統計指標是否大于對應的預設閾值;當所述候選詞匯的各個統計指標均大于對應的預設閾值時,判斷所述候選詞匯的統計指標滿足預設規則。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201610322268.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:具有興趣引導功能的個性化推薦方法
- 下一篇:一種圖像處理方法及系統





