[發明專利]一種基于文本嵌入和結構嵌入聯合的知識表示方法有效
| 申請號: | 201911036834.7 | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN110851620B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 喻梅;張妍;于瑞國;于健;李雪威;趙滿坤;徐天一;劉春鳳 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/284 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉子文 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 嵌入 結構 聯合 知識 表示 方法 | ||
本發明公開一種基于文本嵌入和結構嵌入聯合的知識表示方法,包括步驟一:將知識庫中的實體描述文本進行預處理,對每個實體描述提取主題詞;步驟二:使用fasttext將主題詞編碼成詞向量,每個實體描述表示為多維詞向量;步驟三:將處理后的多維詞向量,輸入到帶有注意力機制的雙向長短記憶網絡(A?BiLSTM)或帶有注意力機制的長短記憶網絡(A?LSTM)編碼,將表示每個實體的多維詞向量處理成一維向量,也就是文本表示,并訓練現有的StransE模型,得到實體的結構表示;步驟四:引入門控機制,并提出四種關于文本嵌入和結構嵌入聯合的方法,得到最終的實體嵌入矩陣;步驟五:將實體嵌入矩陣輸入到ConvKB、TransH、TransR、Distmult、Hole知識圖譜嵌入模型中,提高知識補全任務。
技術領域
本發明屬于知識圖譜、自然語言處理和信息檢索領域,涉及知識表示學習中的異質信息融合與知識圖譜補全,尤其是一種在知識庫中聯合基于實體描述的文本嵌入和結構嵌入的知識表示方法。
背景技術
將知識表示嵌入方法分為兩個方面,一個方面是僅使用符號三元組的基于結構的嵌入模型。Bordes等人受到詞向量空間對于詞匯語義與句法關系存在有趣的平移不變現象的啟發,提出了TransE模型,將知識庫中的關系看作實體間的某種平移向量。與以往模型相比,TransE模型參數較少,計算復雜度低,卻能直接建立實體和關系之間的復雜語義聯系。可以說,TransE已經成為知識表示學習的代表模型。但是也由于過于簡單,導致TransE在處理前面提到的知識庫的復雜關系時捉襟見肘。
為了解決TransE模型在處理1-N、N-1、N-N復雜關系時的局限性,TransH模型提出讓一個實體在不同的關系下擁有不同的表示。TransR模型進一步認為不同的關系擁有不同的語義空間。對每個三元組,首先應將實體利用矩陣投影到對應的關系空間中,然后再建立從頭實體到尾實體的翻譯關系。針對在知識庫中實體的異質性和不平衡性,還有TransR模型中矩陣參數過多的問題,TransD模型和TranSparse模型對TransR模型中的投影矩陣進行了進一步的優化。此外,TransG模型和KG2E模型提出了利用高斯分布來表示知識庫中的實體和關系,可以在表示過程中考慮實體和關系本身語義上的不確定性。上述模型都從不同角度嘗試解決復雜關系建模問題。
另一種是使用文本描述的文本增強嵌入模型。現在主要是考慮實體描述的知識表示學習模型,以及文本與知識庫融合的知識表示學習。文本嵌入模型通常可追溯到NTN。NTN使用實體名稱并嵌入實體作為名稱的平均單詞嵌入向量。將知識圖與語料庫對齊,然后聯合進行知識嵌入和單詞嵌入。然而,對準信息的必要性在性能和實際適用性方面限制了該方法。因此,提出了“聯合”方法,該方法僅將freebase實體與相應的wiki頁面對齊。DKRL將基于翻譯的嵌入方法從特定三元組方法擴展到“文本增強”模型。更重要的是,DKRL采用CNN結構來表示單詞,這提升了單詞語義的表達能力。一般而言,通過聯合建模知識和文本,文本增強嵌入模型獲得了最先進的性能。
但是,還有幾個問題需要解決。(1)在這些方法中,結構表示和文本表示的最佳組合沒有得到很好的研究,一個實體的良好表示應該同時編碼結構和文本信息,并且能夠適用于多種基于結構的模型。(2)給定實體描述文本,其描述中提供的所有信息并非都可用于預測鏈接實體。一個好的編碼器應該根據不同的關系上下文從文本中選擇文本信息,使其最有易于實體鏈接任務。
發明內容
本發明的目的是為了克服現有技術中的不足,提供一種基于文本嵌入和結構嵌入聯合的知識表示方法,本發明是一個新的文本增強知識表示方法,能夠有效地融合事實三元組的結構信息和實體的描述信息,增強知識圖譜的表示學習。此方法能適用于已存在的多種知識圖譜嵌入模型,且能提高這些嵌入模型的鏈接預測任務。
本發明的目的是通過以下技術方案實現的:一種基于文本嵌入和結構嵌入聯合的知識表示方法,包括以下步驟:
步驟一:將知識庫中的實體描述文本進行預處理,對每個實體描述提取主題詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201911036834.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種液壓驅動四連桿的上肢助力外骨骼機器人
- 下一篇:一種基于服務器的發電系統





