[發(fā)明專利]中文文本摘要生成系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 201710034464.8 | 申請日: | 2017-01-18 |
| 公開(公告)號: | CN106919646B | 公開(公告)日: | 2020-06-09 |
| 發(fā)明(設(shè)計)人: | 俞旸;凌志輝 | 申請(專利權(quán))人: | 南京云思創(chuàng)智信息科技有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/30 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210042 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 中文 文本 摘要 生成 系統(tǒng) 方法 | ||
1.一種中文文本摘要生成系統(tǒng),其特征在于:該系統(tǒng)包括預(yù)處理模塊、詞匯理解模塊、句子理解模塊、段落理解模塊和摘要自動生成模塊,其中:
所述預(yù)處理模塊,用于將原始文本進行分詞,并對每個詞都形成對應(yīng)的原始詞向量;
所述詞匯理解模塊,用于按將原始詞向量集合作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)進行處理,得到對應(yīng)詞匯的具有上下文背景信息的詞向量;
所述句子理解模塊,用于將具有上下文背景信息的詞向量轉(zhuǎn)換為句子向量,并將句子向量集合作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)進行處理,得到對應(yīng)句子的具有上下文背景信息的句子向量;
所述段落理解模塊,用于將句子向量轉(zhuǎn)換為段落向量,并將段落向量集合作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進行處理,得到對應(yīng)段落的具有上下文背景信息的段落向量;
所述摘要自動生成模塊,用于將詞匯理解模塊生成的詞向量、句子理解模塊生成的句子向量和段落理解模塊生成的段落向量連接成一個總向量,并作為seq2seq模型中解碼序列RNN的原始狀態(tài),采用seq2seq模型進行逐字逐句的輸出,得到文章摘要。
2.根據(jù)權(quán)利要求1所述的中文文本摘要生成系統(tǒng),其特征在于:所述預(yù)處理模塊具體用于將原始文本進行分詞,并將分詞后得到的每個詞匯都形成一個原始詞向量,并按順序排列得到原始詞向量集合W={wiw|iw=1,2,…,nw},wiw表示第iw個詞向量,nw表示詞向量總個數(shù)。
3.根據(jù)權(quán)利要求2所述的中文文本摘要生成系統(tǒng),其特征在于:所述詞匯理解模塊具體用于按將原始詞向量集合W作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進行正向和反向處理,將最終神經(jīng)網(wǎng)絡(luò)中各神經(jīng)單元的記憶狀態(tài)作為對應(yīng)詞匯的具有上下文背景信息的詞向量wbiw,形成詞向量集合Wb={wbiw|iw=1,2,…,nw}。
4.根據(jù)權(quán)利要求3所述的中文文本摘要生成系統(tǒng),其特征在于:所述句子理解模塊具體用于按照原始文本中句子的詞匯組成方式,將詞向量集合Wb轉(zhuǎn)換為句子向量集合S={sis|is=1,2,…,ns},并將句子向量集合S作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進行正向和反向處理,將最終神經(jīng)網(wǎng)絡(luò)中各神經(jīng)單元的記憶狀態(tài)作為對應(yīng)句子的具有上下文背景信息的句子向量sbis,形成句子向量集合Sb={sbis|is=1,2,…,ns},其中,ns表示句子向量總個數(shù)。
5.根據(jù)權(quán)利要求4所述的中文文本摘要生成系統(tǒng),其特征在于:所述段落理解模塊具體用于按照原始文本中段落的句子組成方式,將句子向量集合Sb轉(zhuǎn)換為段落向量集合P={pip|ip=1,2,…,np},并將段落向量集合P作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進行正向和反向處理,將最終神經(jīng)網(wǎng)絡(luò)中各神經(jīng)單元的記憶狀態(tài)作為對應(yīng)段落的具有上下文背景信息的段落向量pbip,形成段落向量集合Pb={pbip|ip=1,2,…,np},np表示段落向量總個數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京云思創(chuàng)智信息科技有限公司,未經(jīng)南京云思創(chuàng)智信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201710034464.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





