[發明專利]一種基于文本嵌入和結構嵌入聯合的知識表示方法有效
| 申請號: | 201911036834.7 | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN110851620B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 喻梅;張妍;于瑞國;于健;李雪威;趙滿坤;徐天一;劉春鳳 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/284 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉子文 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 嵌入 結構 聯合 知識 表示 方法 | ||
1.一種基于文本嵌入和結構嵌入聯合的知識表示方法,其特征在于,包括以下步驟:
步驟一:將知識庫中的實體描述文本進行預處理,對每個實體描述提取主題詞;
步驟二:使用fasttext將主題詞編碼成詞向量,每個實體描述表示為多維詞向量;
步驟三:將處理后的多維詞向量,輸入到帶有注意力機制的雙向長短記憶網絡A-BiLSTM或帶有注意力機制的長短記憶網絡A-LSTM編碼,將表示每個實體的多維詞向量處理成一維向量,也就是文本表示,并訓練現有的transE模型,得到實體的結構表示;
步驟四:引入門控機制,并通過文本嵌入和結構嵌入聯合的方法,得到最終的實體嵌入矩陣;具體如下:
對于實體e,定義ed表示是它的結構嵌入信息,es是對實體e文本描述的編碼;對于如何結合es和ed,即要得到平衡系數gs與gd如公式(1)所示;
通過以下四種方法將結構特征矩陣和文本特征矩陣組合;分別為:
(1)根據attention機制的思想,得到平衡系數gs和gd如公式(2)所示;
us=tanh(es·w+b)
ud=tanh(ed·w+b)
(2)將平衡系數gs和gd總和設置為1,并利用在(2)中的評分系數us和ud,得到gs和gd如公式(3)所示:
(3)利用公式評分函數即來代替評分系數us和ud,得到平衡系數gs和gd如公式(4)所示:
(4)同樣地,將gs和gd總和為1,并利用評分函數z(e),得到gs和gd如公式(5)所示:
步驟五:將實體嵌入矩陣輸入到ConvKB、TransH、TransR、Distmult、Hole知識圖譜嵌入模型中,提高知識補全任務。
2.根據權利要求1所述一種基于文本嵌入和結構嵌入聯合的知識表示方法,其特征在于,步驟一中對實體描述文本進行預處理的具體步驟如下:首先從原始文本中刪除所有停止詞,之后在描述中標記所有短語,并將這些短語視為單詞;然后,對每個實體提取多個主題單詞作為描述。
3.根據權利要求1所述一種基于文本嵌入和結構嵌入聯合的知識表示方法,其特征在于,步驟三的具體步驟如下:雙向長短時神經網絡Bi-LSTM,Bi-directional?Long?Short-Term?Memory被認為兩個單獨的不同方向的LSTMs;其中一個LSTM從左到右將文本描述編碼,而另一個LSTM分別將文本描述從右向左編碼,然后把兩次結果組合起來;在解碼端引入注意力機制,對目標數據進行加權變化,能夠有效提高文本編碼的表示;利用提供的參數訓練transE知識圖譜嵌入模型得到結構表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201911036834.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種液壓驅動四連桿的上肢助力外骨骼機器人
- 下一篇:一種基于服務器的發電系統





