[發明專利]一種實體鏈接方法及裝置有效
| 申請號: | 201610091371.4 | 申請日: | 2016-02-18 |
| 公開(公告)號: | CN107092605B | 公開(公告)日: | 2019-12-31 |
| 發明(設計)人: | 許茜;葉茂;任彩紅;徐劍波;湯幟 | 申請(專利權)人: | 北大方正集團有限公司;北京大學;北京方正阿帕比技術有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F17/27 |
| 代理公司: | 11002 北京路浩知識產權代理有限公司 | 代理人: | 李相雨 |
| 地址: | 100871 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 鏈接 方法 裝置 | ||
1.一種實體鏈接方法,其特征在于,包括:
獲取數字資源的待鏈接實體集合,對所述實體集合中的每個實體在給定知識庫中生成所述每個實體對應的候選實體集合;
根據候選實體集合中每個候選實體的精確屬性、模糊屬性和相關實體,計算每個實體與該實體對應的候選實體集合中的每個候選實體的相關度;
根據當前實體與其各候選實體的相關度大小和該實體對應的候選實體的數量,得到當前實體的鏈接實體;
其中,所述根據候選實體集合中每個候選實體的精確屬性、模糊屬性和相關實體,計算每個實體與該實體對應的候選實體集合中的每個候選實體的相關度,包括:
根據每個候選實體的每個精確屬性,若當前精確屬性在數字資源中存在相似或相同的詞語,則當前實體與當前候選實體的相關度增加第一預設值;其中,當前實體與當前候選實體的相關度的初始值為0,當前候選實體的所有精確屬性計算結束后的相關度為第一相關度;
根據每個候選實體的每個模糊屬性,若當前模糊屬性在數字資源中存在相同的詞語,或存在相似的詞語且精確屬性的數量大于第二預設值,則當前實體與當前候選實體的相關度增加0.5倍的第一預設值;若當前模糊屬性在數字資源中存在相似的詞語且精確屬性的數量小于等于第二預設值,則當前實體與當前候選實體的相關度根據以下公式一計算得到:
其中,Si,j表示當前實體與當前候選實體的相關度,O表示當前候選實體的精確屬性的數量,score表示第一預設值,σ表示第二預設值;
根據每個候選實體的每個相關實體,若當前相關實體在數字資源中存在相同的詞語且所述第一相關度大于等于所述第一預設值,則當前實體與當前候選實體的相關度增加0.5倍的第一預設值;若當前相關實體在數字資源中存在相同的詞語且所述第一相關度小于所述第一預設值,則當前實體與當前候選實體的相關度增加0.25倍的第一預設值。
2.根據權利要求1所述的方法,其特征在于,所述根據當前實體與其各候選實體的相關度大小和該實體對應的候選實體的數量,得到當前實體的鏈接實體之后,還包括:
根據每個鏈接實體的相關實體集合,對數字資源進行補充實體鏈接。
3.根據權利要求2所述的方法,其特征在于,所述根據當前實體與其各候選實體的相關度大小和該實體對應的候選實體的數量,得到當前實體的鏈接實體,包括:
若當前實體對應的候選實體集合中的候選實體數量為0,則當前實體的鏈接實體為空;
若當前實體對應的候選實體集合中的候選實體數量為1且當前實體與當前候選實體的相關度大于等于3倍的第一預設值,則當前實體的鏈接實體為當前候選實體;
若當前實體對應的候選實體集合中的候選實體數量大于1且當前實體包含相關度大于等于3倍的第一預設值的候選實體,則當前實體的鏈接實體為相關度最大的候選實體。
4.根據權利要求3所述的方法,其特征在于,所述根據每個鏈接實體的相關實體集合,對數字資源進行補充實體鏈接,包括:
獲取所有鏈接實體的相關實體,若數字資源中存在與當前相關實體相同的字符串且該字符串長度大于2,或該字符串長度小于等于2且當前相關實體與該字符串的相關度大于等于3倍的第一預設值,則將該字符串與當前相關實體的進行鏈接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京大學;北京方正阿帕比技術有限公司,未經北大方正集團有限公司;北京大學;北京方正阿帕比技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201610091371.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鋼管切割裝置
- 下一篇:一種搜索方法、裝置及服務器





