[發(fā)明專利]基于案件要素異構(gòu)圖的輿情新聞抽取式摘要方法在審
| 申請?zhí)枺?/td> | 202110458891.5 | 申請日: | 2021-04-27 |
| 公開(公告)號: | CN113076483A | 公開(公告)日: | 2021-07-06 |
| 發(fā)明(設(shè)計)人: | 余正濤;李剛;黃于欣;相艷;朱恩昌;張勇丙 | 申請(專利權(quán))人: | 昆明理工大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/951;G06F16/34;G06F40/211;G06N3/04 |
| 代理公司: | 昆明人從眾知識產(chǎn)權(quán)代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 案件 要素 構(gòu)圖 輿情 新聞 抽取 摘要 方法 | ||
1.基于案件要素異構(gòu)圖的輿情新聞抽取式摘要方法,其特征在于,首先構(gòu)建案件輿情新聞數(shù)據(jù)集;通過基于圖注意力機制融入案件要素的方法,構(gòu)建一個由句子節(jié)點、詞節(jié)點以及案件要素節(jié)點組成的異構(gòu)圖,來捕捉句子間的關(guān)聯(lián)關(guān)系;最后對句子進行分類,生成摘要。
2.根據(jù)權(quán)利要求1所述的基于案件要素異構(gòu)圖的輿情新聞抽取式摘要方法,其特征在于,所述構(gòu)建案件輿情新聞數(shù)據(jù)集包括:
通過爬蟲技術(shù)爬取基于百度百科案件輿情文本;
首先構(gòu)造一個包含案件名稱的案件庫,根據(jù)案件名稱在百度百科詞條中去搜索,搜索結(jié)果以網(wǎng)頁的形式展現(xiàn),以網(wǎng)頁內(nèi)容第一條為摘要;把網(wǎng)頁第二條描述案件相關(guān)的內(nèi)容定義為案件要素,其數(shù)量平均為5個,經(jīng)過篩選與預處理形成json格式文件,通過人工對數(shù)據(jù)集進行清洗、標注得到案件輿情新聞數(shù)據(jù)集。
3.根據(jù)權(quán)利要求1所述的基于案件要素異構(gòu)圖的輿情新聞抽取式摘要方法,其特征在于,所述通過基于圖注意力機制融入案件要素的方法,構(gòu)建一個由句子節(jié)點、詞節(jié)點以及案件要素節(jié)點組成的異構(gòu)圖包括:
通過詞嵌入和位置嵌入分別對案件輿情新聞?wù)暮桶讣剡M行特征編碼,利用CNN與BiLSTM編碼器提取句子特征,將獲得的句子特征和案件要素特征構(gòu)建異構(gòu)圖提取文檔特征,再對文檔特征采用基于圖注意力機制融入案件要素的方法對句子進行有效地過濾篩選,采用圖注意力同時學習和更新主任務(wù)模型和輔助模型的參數(shù)。
4.根據(jù)權(quán)利要求1所述的基于案件要素異構(gòu)圖的輿情新聞抽取式摘要方法,其特征在于,所述構(gòu)建案件輿情新聞數(shù)據(jù)集的具體步驟如下:
Step1.1、通過爬蟲技術(shù)爬取案件輿情新聞文本,共爬取14214篇文檔,每一篇爬取的文檔包含著摘要、案件要素以及對于案件描述的正文;
Step1.2、對案件輿情新聞數(shù)據(jù)集中的正文及案件要素進行過濾篩選,過濾篩選的方式如下所示:(1)去除文本內(nèi)容中的多余符號、超鏈接和特殊字符;(2)去除正文中相同的案件要素信息;
Step1.3、采用人工標注,獲得案件輿情數(shù)據(jù)集;首先對正文中的每一句話打上標簽,1為候選摘要,0則不是候選摘要。
5.根據(jù)權(quán)利要求1所述的基于案件要素異構(gòu)圖的輿情新聞抽取式摘要方法,其特征在于,所述通過基于圖注意力機制融入案件要素的方法,構(gòu)建一個由句子節(jié)點、詞節(jié)點以及案件要素節(jié)點組成的異構(gòu)圖的具體步驟如下:
Step2.1、使用卷積神經(jīng)網(wǎng)絡(luò)CNN得到詞局部特征,同時用雙向長短期記憶網(wǎng)絡(luò)BiLSTM獲得句子全局特征,最后拼接詞局部特征和句子全局特征,得到句子特征表示;
Step2.2、案件要素的編碼,采用Word2Vec編碼模塊對案件要素特征、詞特征進行編碼,得到案件要素特征表示、詞特征表示;
Step2.3、引入在句子中的詞來連接句子,計算TF-IDF值作為案件要素節(jié)點與句子節(jié)點之間的邊權(quán)重,同理計算詞節(jié)點與句子節(jié)點之間的TF-IDF值作為它們之間邊的權(quán)重;利用得到的句子特征表示、案件要素特征表示、詞特征表示、案件要素節(jié)點與句子節(jié)點之間的邊權(quán)重、詞節(jié)點與句子節(jié)點之間的邊權(quán)重來構(gòu)建異構(gòu)圖;
Step2.4、在構(gòu)建異構(gòu)圖中,已經(jīng)對案件要素節(jié)點與句子節(jié)點之間邊的權(quán)重通過TF-IDF初始化得到,通過注意力層更新權(quán)重值,得到權(quán)重值高的句子,通過詞節(jié)點再建立句子間的聯(lián)系,得到句子間的權(quán)重,最后通過兩個注意力拼接就得到文檔中的與案件相關(guān)的句子排序。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學,未經(jīng)昆明理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202110458891.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





