[發(fā)明專利]一種基于深度學(xué)習(xí)的信息要素聯(lián)合抽取方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110101370.4 | 申請日: | 2021-01-26 |
| 公開(公告)號: | CN112765994A | 公開(公告)日: | 2021-05-07 |
| 發(fā)明(設(shè)計)人: | 姬東鴻;徐康;費豪 | 申請(專利權(quán))人: | 武漢大學(xué) |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/28;G06N3/04;G06N3/08 |
| 代理公司: | 武漢謙源知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 42251 | 代理人: | 王力 |
| 地址: | 430000*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 信息 要素 聯(lián)合 抽取 方法 系統(tǒng) | ||
本發(fā)明涉及一種基于深度學(xué)習(xí)的信息要素聯(lián)合抽取方法及系統(tǒng),其方法包括利用預(yù)訓(xùn)練語言模型和雙向長短期記憶網(wǎng)絡(luò)將輸入的目標(biāo)文本轉(zhuǎn)換為目標(biāo)詞向量表示;枚舉目標(biāo)詞向量中每個句子的所有文本跨度,并基于目標(biāo)詞向量表示得到目標(biāo)文本跨度向量表示;構(gòu)建共指關(guān)系、實體關(guān)系、事件結(jié)構(gòu)關(guān)系對應(yīng)的文本跨度圖網(wǎng)絡(luò),并傳遞和更新文本跨度向量表示;對更新后的每個文本跨度向量表示進(jìn)行多任務(wù)分類。本發(fā)明將目標(biāo)文本轉(zhuǎn)換為目標(biāo)詞向量表示,能夠?qū)W習(xí)到綜合局部語境和全局語境的文本跨度向量表示,這樣即可構(gòu)建不同關(guān)系對應(yīng)的跨度圖網(wǎng)絡(luò)并更新文本跨度向量表示,進(jìn)而實現(xiàn)對文本跨度向量表示的任務(wù)分類,提高各任務(wù)之間關(guān)聯(lián)程度,從而提高各任務(wù)彼此的性能。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,尤其涉及一種基于深度學(xué)習(xí)的信息要素聯(lián)合抽取模型。
背景技術(shù)
信息抽取將技術(shù)主要用于從各種非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本輸入(如新聞網(wǎng)頁、商品頁面、微博、論壇頁面等)中提取各種指定的結(jié)構(gòu)化信息(如實體、關(guān)系、事件),并將這些信息在不同的層面進(jìn)行集成。其核心內(nèi)容包括命名實體識別(Named EntityRecognition,NER)、關(guān)系抽取(Relation Extraction)、事件抽取(Event Detection)。
(1)命名實體識別,是指識別文本中代表現(xiàn)實世界中客觀存在、具有特定名稱事物的字符串。需要識別實體的邊界并確定實體類型。
(2)關(guān)系抽取,通常指識別兩個實體之間存在的語義關(guān)系。一般在確定的關(guān)系集合內(nèi)進(jìn)行識別。常見的關(guān)系抽取結(jié)果可以用(E1,R,E2)的三元組來表示。此外,由于存在多個實體指稱對應(yīng)同一實體對象的情況,往往還需要進(jìn)行共指消解來將這些指稱項關(guān)聯(lián)到正確的實體對象。
(3)事件抽取,在該任務(wù)中,一個事件往往被更形式化地定義為包含了事件觸發(fā)詞、事件類型、事件元素和事件元素角色。于是事件抽取任務(wù)可以定義為識別上述事件要素并進(jìn)行特定的結(jié)構(gòu)化組織,即為所有的事件觸發(fā)詞分配事件元素,對事件元素角色進(jìn)行預(yù)測。
作為一種新興的互聯(lián)網(wǎng)信息處理技術(shù),信息抽取在知識圖譜、問答系統(tǒng)、情感分析等眾多領(lǐng)域都有著廣泛的應(yīng)用。
然而由于實體、關(guān)系、事件這三種信息要素具有不同的組成形式和特征,此前絕大部分信息抽取模型都采用了流水線的工作模式,即首先進(jìn)行命名實體識別,然后利用識別出的實體進(jìn)行關(guān)系三元組的抽取和共指消解,最后完成事件觸發(fā)詞、事件元素、事件元素角色等的抽取。為了避免流水線模式引發(fā)的級聯(lián)錯誤,近幾年的研究在以上幾種抽取任務(wù)的聯(lián)合模型上作出了一些嘗試,然而大都僅僅依賴于嵌入層的LSTM來實現(xiàn)不同抽取任務(wù)的文本跨度表征信息共享,各任務(wù)之間的關(guān)聯(lián)程度不高。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是針對上述現(xiàn)有技術(shù)的不足,提供一種基于深度學(xué)習(xí)的信息要素聯(lián)合抽取方法及系統(tǒng)。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種基于深度學(xué)習(xí)的信息要素聯(lián)合抽取方法,包括如下步驟:
步驟1:利用基于文本上下文內(nèi)容的預(yù)訓(xùn)練語言模型和雙向長短期記憶網(wǎng)絡(luò)將輸入的目標(biāo)文本轉(zhuǎn)換為目標(biāo)詞向量表示;
步驟2:通過拼接目標(biāo)詞向量表示左右端點的詞向量表示以及學(xué)習(xí)到的文本跨度寬度枚舉所述目標(biāo)詞向量中每個句子的所有文本跨度,并基于所述目標(biāo)詞向量表示得到目標(biāo)文本跨度向量表示;
步驟3:基于所述文本跨度向量表示分別構(gòu)建共指關(guān)系、實體關(guān)系、事件結(jié)構(gòu)關(guān)系對應(yīng)的文本跨度圖網(wǎng)絡(luò),并通過所述文本跨度圖網(wǎng)絡(luò)傳遞和更新所述文本跨度向量表示;
步驟4:基于神經(jīng)網(wǎng)絡(luò)構(gòu)建打分函數(shù),并對更新后的每個所述文本跨度向量表示進(jìn)行多任務(wù)分類。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202110101370.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





