[發明專利]一種面向醫學文本的實體關系聯合抽取方法有效
| 申請號: | 202010156316.5 | 申請日: | 2020-03-09 |
| 公開(公告)號: | CN111368528B | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 滕飛;馬敏博;李雙慶;姚遠;曾崳;劉赟 | 申請(專利權)人: | 西南交通大學 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 呂春艷 |
| 地址: | 610031*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 醫學 文本 實體 關系 聯合 抽取 方法 | ||
本發明公開了一種面向醫學文本的實體關系聯合抽取方法,該方法包括對醫學文本實體關系數據集按照三元組方式進行重組,將醫學文本語句向量化表示,采用雙向長短期記憶網絡加自注意力機制構建參數共享層,采用softmax函數預測頭實體標簽,采用CNN?softmax進行關系?尾實體聯合解碼,結合頭實體預測結果增強聯合解碼表示,采用聯合損失函數優化方式訓練參數共享層和聯合解碼層。本發明解決了醫學文本中實體和關系類別和位置分布不均勻、多對關系同時出現在同一句的問題,能夠提高醫學文本實體關系抽取的質量和效率。
技術領域
本發明屬于醫學文本實體識別技術領域,具體涉及一種面向醫學文本的實體關系聯合抽取方法。
背景技術
隨著自然語言處理技術的快速發展,特別是在垂直領域的不斷落地應用,極大促進了我國醫療服務從“信息化”向“智慧化”的過渡。從自由醫學文本如電子病歷、生物醫學文獻抽取結構化知識是智能導診、問診、臨床輔助決策等智慧醫療應用的基礎,同時也是構建醫學知識圖譜的重要研究內容。實體和關系聯合抽取是信息抽取核心任務之一,具體指從給定的醫學文本中自動識別出實體所在位置范圍、類別,并同時對不同實體之間的語義關系進行判別。
大多數研究者獨立地研究命名實體識別和實體抽取任務,或是將其視為序列流水線任務,即先識別出文本中的命名實體,再對實體對進行關系分類。由于該方法不需要對實體和關系聯合標注,可以分別使用不同的模型和數據集學習,具有較高的靈活性。基于詞,有學者提出了一種乳腺電子病歷醫療實體與關系抽取系統,先通過訓練詞向量和字向量獲取句子高維空間表示,然后使用 CNN和LSTM抽取句子級別特征向量,識別疾病、癥狀、檢查和治療實體,最后使用CNN-Softmax對所有實體對進行關系判別。
然而,命名實體類別往往和關系類別是相互影響。已知實體類別可以減少關系類型的搜索空間,反之亦然,如醫學文本中定義“表現為”關系類別,可知實體1為疾病,實體2為癥狀。此外,分階段識別任務易受錯誤傳遞的影響,故有許多學者開始從實體關系隱式聯合抽取進行建模研究。如有研究者提出了一種中醫電子病歷實體關系抽取方法,將實體對與其關系看作三元組,通過聯合標簽同時識別關系類別與兩個實體的位置,序列標簽沿用常用的BIOES方式,模型結構采用雙層BiLSTM-Softmax實現多標簽分類學習。
基于深度學習的醫學文本實體關系聯合抽取方法隱式地降低了任務之間的錯誤傳遞,但仍然面臨不同網絡之間聯合表示弱化的現象,這影響了兩者的信息共享。醫學文本由于其領域的特殊性,存在實體和關系類別和位置分布不均勻、多對關系同時出現在同一句的特點,即一句話中可能出現多個實體以及多個關系,且多個關系中第一個實體是相同的現象。
綜上所述,現有的醫學文本實體關系聯合抽取主要存在以下問題:
(1)流水線實體和關系抽取方法帶來的錯誤傳遞問題;
(2)同一語句多實體、多關系的信息稀疏問題;
(3)聯合抽取框架中實體抽取模塊和關系抽取模塊交互能力不足的問題。
發明內容
為了解決現有技術中存在的以上問題,本發明提供了一種面向醫學文本的實體關系聯合抽取方法,有效提高醫學文本實體關系抽取的質量和效率。
為了達到上述發明目的,本發明采用的技術方案為:
一種面向醫學文本的實體關系聯合抽取方法,包括以下步驟:
S1、獲取帶有標簽的醫學文本實體關系數據集,并按照三元組方式進行重組;
S2、采用序列化文本嵌入方法將醫學文本語句向量化表示;
S3、采用雙向長短期記憶網絡加自注意力機制,從醫學文本語句向量表示中學習文本序列的潛在語義信息,同時構建參數共享層;
S4、采用softmax函數預測頭實體標簽,得到基于輸入語句預測的頭實體集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南交通大學,未經西南交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202010156316.5/2.html,轉載請聲明來源鉆瓜專利網。





