[發(fā)明專利]一種基于時(shí)間關(guān)系對文本包含的因果關(guān)系進(jìn)行抽取的方法有效
| 申請?zhí)枺?/td> | 202011489612.3 | 申請日: | 2020-12-16 |
| 公開(公告)號: | CN112463970B | 公開(公告)日: | 2022-11-22 |
| 發(fā)明(設(shè)計(jì))人: | 鄭余祥;左祥麟;史振坤;張一嘉;梁世寧;左萬利 | 申請(專利權(quán))人: | 吉林大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06F16/36;G06N3/04 |
| 代理公司: | 北京君泊知識(shí)產(chǎn)權(quán)代理有限公司 11496 | 代理人: | 李丹 |
| 地址: | 130000 吉林省長*** | 國省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 時(shí)間 關(guān)系 文本 包含 因果關(guān)系 進(jìn)行 抽取 方法 | ||
本發(fā)明公開了一種基于時(shí)間關(guān)系對文本包含的因果關(guān)系進(jìn)行抽取的方法,包括:構(gòu)建基于時(shí)間關(guān)系的Bi?LSTM+GCN網(wǎng)絡(luò)模型;將待輸入的文本中的單詞輸入到Bi?LSTM網(wǎng)絡(luò)獲得文本中單詞的特征;將文本中單詞的時(shí)間關(guān)系轉(zhuǎn)化成時(shí)間關(guān)系特征矩陣輸入到GCN網(wǎng)絡(luò),由GCN網(wǎng)絡(luò)輸出特征向量;將GCN網(wǎng)絡(luò)輸出特征向量輸入分類器,獲得因果關(guān)系的抽取結(jié)果:原因、結(jié)果和非因非果。與現(xiàn)有技術(shù)相比,本發(fā)明利用時(shí)間關(guān)系與因果關(guān)系的聯(lián)系,本文通過將時(shí)間關(guān)系轉(zhuǎn)化成特征矩陣的方式結(jié)合了Bi?LST+GCN網(wǎng)絡(luò)模型,并且通過實(shí)驗(yàn)?zāi)軠?zhǔn)確獲得因果關(guān)系標(biāo)注,時(shí)間關(guān)系有利于因果關(guān)系的抽取,本發(fā)明提出的基于時(shí)間關(guān)系的Bi?LSTM+GCN模型能有效的獲取因果關(guān)系。
技術(shù)領(lǐng)域
本發(fā)明涉及領(lǐng)域,特別是一種基于時(shí)間關(guān)系對文本包含的因果關(guān)系進(jìn)行抽取的方法。
背景技術(shù)
近些年伴隨著互聯(lián)網(wǎng)的飛速發(fā)展,產(chǎn)生了大量的文本數(shù)據(jù),文本中的關(guān)系抽取對于理解和得到有價(jià)值的信息變得越來越重要。因果關(guān)系的抽取在文本關(guān)系中占重要的位置,當(dāng)獲得了文本中的因果關(guān)系,很容易就可以判斷文本的主干,因果關(guān)系的信息可能會(huì)有益于許多自然語言處理任務(wù),例如問答系統(tǒng)、文本摘要、決策支持等。因果關(guān)系是一個(gè)已經(jīng)從哲學(xué)、心理和邏輯的角度進(jìn)行了廣泛研究的概念。如何在以NLP為中心的應(yīng)用程序中對它的識(shí)別和表示進(jìn)行建模成為一個(gè)熱門的話題。
理解事件是自然語言處理的重要組成部分。此過程中的重要步驟是確定事件之間的關(guān)系,在事件之間可能存在的許多關(guān)系類型中,時(shí)間關(guān)系對因果關(guān)系的提取的作用有很大影響。
在時(shí)間關(guān)系中包含事件發(fā)生的順序,這有助于對于因果關(guān)系的判斷。ParamitaMirza等人,從文本中獲取指定事件上下文關(guān)系、詞性、時(shí)間標(biāo)簽等特征,使用分類器對指定的事件進(jìn)行判斷,并提出利用時(shí)間TimeML標(biāo)注對因果事件進(jìn)行標(biāo)注。之后提出CATENA模型,設(shè)定了基于時(shí)間關(guān)系的過濾規(guī)則,證實(shí)對時(shí)間和因果進(jìn)行聯(lián)合抽取相互促進(jìn)。NasrinMostafazadeh等人提出事件結(jié)構(gòu)的語義注釋的因果和時(shí)間關(guān)系方案(CaTeRS)通過大量的故事型事件,獲得時(shí)間關(guān)系對因果關(guān)系的判斷。Qiang Ning等人提出連接結(jié)構(gòu)TCR根據(jù)指定的規(guī)則去推理事件的因果關(guān)系。然而這些方法都沒有利用深度學(xué)習(xí)的優(yōu)勢,對文本包含的因果關(guān)系進(jìn)行抽取效果不理想。
發(fā)明內(nèi)容
本發(fā)明的目的是要提供一種基于時(shí)間關(guān)系對文本包含的因果關(guān)系進(jìn)行抽取的方法。
為達(dá)到上述目的,本發(fā)明是按照以下技術(shù)方案實(shí)施的:
一種基于時(shí)間關(guān)系對文本包含的因果關(guān)系進(jìn)行抽取的方法,包括以下步驟:
S1、構(gòu)建基于時(shí)間關(guān)系的Bi-LSTM+GCN網(wǎng)絡(luò)模型,所述Bi-LSTM+GCN模型由輸入端到輸出端包括Bi-LSTM網(wǎng)絡(luò)、GCN網(wǎng)絡(luò)和分類器;
S2、將待輸入的文本中的單詞輸入到Bi-LSTM網(wǎng)絡(luò)獲得文本中單詞的特征;
S3、將文本中單詞的時(shí)間關(guān)系轉(zhuǎn)化成時(shí)間關(guān)系特征矩陣輸入到GCN網(wǎng)絡(luò),由GCN網(wǎng)絡(luò)輸出特征向量;
S4、將GCN網(wǎng)絡(luò)輸出特征向量輸入分類器,獲得因果關(guān)系的抽取結(jié)果:原因、結(jié)果和非因非果。
進(jìn)一步地,所述S2中,在將待輸入的文本中的單詞輸入到Bi-LSTM網(wǎng)絡(luò)模型之前,首先將待輸入的文本中的單詞通過Word Embedding轉(zhuǎn)換成300維度的詞向量并添加詞性POS特征。
進(jìn)一步地,所述S3中GCN網(wǎng)絡(luò)輸出的特征向量為:
其中N(v)是和v有關(guān)系的單詞的集合,每一個(gè)L(u,v)代表從u到v的時(shí)間關(guān)系,WL(u,v)表示u到v的時(shí)間關(guān)系的參數(shù)矩陣,hu是來自上一層輸出的u的特征向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學(xué),未經(jīng)吉林大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202011489612.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 時(shí)間同步裝置、時(shí)間同步系統(tǒng)和時(shí)間同步方法
- 時(shí)間校準(zhǔn)裝置和時(shí)間校準(zhǔn)方法
- 時(shí)間同步系統(tǒng)及時(shí)間同步方法
- 時(shí)間同步方法、時(shí)間同步系統(tǒng)、時(shí)間主設(shè)備以及時(shí)間從設(shè)備
- 時(shí)間控制裝置和時(shí)間控制方法
- 時(shí)間測試電路及時(shí)間測試方法
- 時(shí)間的飛行時(shí)間
- 局部激活時(shí)間的時(shí)間變換
- 時(shí)間測量電路、時(shí)間測量芯片及時(shí)間測量裝置
- 時(shí)間同步方法與時(shí)間同步系統(tǒng)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





