[發明專利]實體發現方法及裝置有效
| 申請號: | 201910242996.X | 申請日: | 2019-03-28 |
| 公開(公告)號: | CN110008352B | 公開(公告)日: | 2022-12-20 |
| 發明(設計)人: | 徐程程 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;熊永強 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 發現 方法 裝置 | ||
本申請實施例公開了一種實體發現的方法及裝置,該方法包括:獲取至少一個數據來源的實體候選數據;根據實體候選數據中包括的各個實體的實體參數從各個實體中選取出候選實體;若候選實體包含于指定實體集合中,則從指定實體集合中提取包括候選實體在內的至少一個指定實體的實體特征;根據至少一個指定實體的實體特征從至少一個指定實體中確定出目標實體,并基于目標實體與指定實體集合中其他指定實體之間的關聯關系,從指定實體集合中確定出目標實體的至少一個關聯實體;根據目標實體以及目標實體的至少一個關聯實體生成目標實體集合。采用本申請實施例,可及時發現熱門實體,提高熱門實體的召回率和召回效率,適用性高。
技術領域
本申請涉及數據處理領域,尤其涉及一種實體發現方法及裝置。
背景技術
知識圖譜需要保證知識的全面性和實時性。當知識圖譜構建的整體流程搭建成功后,實體的自動發現及下載是保持知識自動更新的重要入口。一般而言,網站每天會有很多新的實體出現,而現有技術只能發現展示在主頁的實體,導致熱門實體的召回不足。同時,知識圖譜中有很多已經存在但是很重要的實體,需要定期下載進行更新,無論是依靠配置抓取規則還是人工運營的方式都無法有效發現它們,如果全部更新的話占用資源較大,通常不太現實,因此導致很多知識時效性較差。
發明內容
本申請實施例提供一種實體發現的方法及裝置,可及時發現熱門實體,提高熱門實體的召回率和召回效率,適用性高。
第一方面,本申請實施例提供了一種實體發現的方法,該方法包括:
獲取至少一個數據來源的實體候選數據;
根據上述實體候選數據中包括的各個實體的實體參數從上述各個實體中選取出候選實體;
若上述候選實體包含于指定實體集合中,則從上述指定實體集合中提取包括上述候選實體在內的至少一個指定實體的實體特征;
根據上述至少一個指定實體的實體特征從上述至少一個指定實體中確定出目標實體,并基于上述目標實體與上述指定實體集合中其他指定實體之間的關聯關系,從上述指定實體集合中確定出上述目標實體的至少一個關聯實體;
根據上述目標實體以及上述目標實體的上述至少一個關聯實體生成目標實體集合。
本申請實施例可及時發現熱門實體,通過確定目標實體和目標實體的關聯實體可提高熱門實體的召回率和召回效率,適用性高。
結合第一方面,在一種可能的實施方式中,上述方法還包括:
若上述候選實體不包含于上述指定實體集合,則根據上述候選實體和上述指定實體集合中所包括的各個指定實體生成目標實體集合。
本申請實施例可及時發現不包含于指定實體集合的實體,提高了實體的召回率和召回效率,適用性強。
結合第一方面,在一種可能的實施方式中,上述數據來源包括新聞頻道、搜索日志及社交平臺中的至少一項;上述獲取至少一個數據來源的實體候選數據,包括:
獲取新聞頻道中的新聞標題、新聞摘要以及新聞正文中的一項或者多項數據,并將獲取的數據確定為實體候選數據;和/或
獲取搜索日志中的搜索記錄,并將獲取的上述搜索記錄確定為實體候選數據;和/或
獲取社交平臺中的討論話題,并將獲取的上述討論話題確定為實體候選數據。
本申請實施例可及時發現實體,增加了數據來源的多樣性,進而可提高熱門實體的召回率,靈活性高且適用性強。
結合第一方面,在一種可能的實施方式中,上述方法還包括:
基于命名實體識別算法識別并提取上述實體候選數據中包括的各個實體;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201910242996.X/2.html,轉載請聲明來源鉆瓜專利網。





