[發明專利]一種面向醫學文本的實體關系聯合抽取方法有效
| 申請號: | 202010156316.5 | 申請日: | 2020-03-09 |
| 公開(公告)號: | CN111368528B | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 滕飛;馬敏博;李雙慶;姚遠;曾崳;劉赟 | 申請(專利權)人: | 西南交通大學 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 呂春艷 |
| 地址: | 610031*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 醫學 文本 實體 關系 聯合 抽取 方法 | ||
1.一種面向醫學文本的實體關系聯合抽取方法,其特征在于,包括以下步驟:
S1、獲取帶有標簽的醫學文本實體關系數據集,并按照三元組方式進行重組;
S2、采用序列化文本嵌入方法將醫學文本語句向量化表示;
S3、采用雙向長短期記憶網絡加自注意力機制,從醫學文本語句向量表示中學習文本序列的潛在語義信息,具體為:
采用前向LSTM從左到右為句子中每個單詞收集從開始到當前位置i的信息,并且采用后向LSTM從右到左為句子中每個單詞收集結束到當前位置i的信息,表示為
采用自注意力機制獲取不同單詞在文本中所占權重向量,表示為
α=softmax(Watt⊙HT)
其中,分別表示前向LSTM的參數權重和后向LSTM的參數權重,softmax(·)為歸一化指數函數,⊙為哈達瑪積,Watt為待學習權重矩陣,HT=(h1,h2,...,hn);
同時構建參數共享層;
S4、采用softmax函數預測頭實體標簽,得到基于輸入語句預測的頭實體集合;
S5、采用CNN-softmax進行關系-尾實體聯合解碼,并結合頭實體預測結果,得到關系-尾實體標簽預測;
S6、采用聯合損失函數優化方式訓練步驟S3中的參數共享層和步驟S5中的聯合解碼層。
2.如權利要求1所述的面向醫學文本的實體關系聯合抽取方法,其特征在于,所述步驟S1中對醫學文本實體關系數據集按照三元組方式進行重組具體為:
設定實體1為ent1,開始位置為結束位置為實體類別為l1,相應實體2為ent2、l2,關系為rel,n為實體總個數,重新組織與實體1具有相同頭實體的三元組,重構形式表示為
3.如權利要求2所述的面向醫學文本的實體關系聯合抽取方法,其特征在于,所述步驟S2采用序列化文本嵌入方法將醫學文本語句向量化表示具體為:
將醫學文本語句中每個單詞映射為低維向量,通過向量拼接形成整個句子,表示為
X=(x1,x2,x3,...,xn)
其中,X為醫學文本語句向量化表示,xi為單詞ωi的向量表示,wi為詞向量,ci為單詞基于字符的向量表示,為向量拼接符號。
4.如權利要求1所述的面向醫學文本的實體關系聯合抽取方法,其特征在于,所述步驟S3中構建參數共享層具體為:
將BiLSTM每一時刻的隱層向量與注意力向量拼接,作為兩個識別模塊的參數共享層,表示為
其中,表示與注意力向量拼接后的隱層向量。
5.如權利要求4所述的面向醫學文本的實體關系聯合抽取方法,其特征在于,所述步驟S4中采用softmax函數預測頭實體標簽,得到其后驗概率分布,表示為
其中,為頭實體標簽,S為輸入語句,θshr為共享參數層的權重參數集合,WE為詞向量嵌入矩陣。
6.如權利要求5所述的面向醫學文本的實體關系聯合抽取方法,其特征在于,所述步驟S4對輸入語句S和真實標簽e,通過最小化交叉熵損失函數獲取頭實體標簽概率的最大化,其中最小化交叉熵損失函數表示為
其中,ei表示第i個位置的預測實體標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南交通大學,未經西南交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202010156316.5/1.html,轉載請聲明來源鉆瓜專利網。





