[發明專利]中文文本摘要生成系統及方法有效
| 申請號: | 201710034464.8 | 申請日: | 2017-01-18 |
| 公開(公告)號: | CN106919646B | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 俞旸;凌志輝 | 申請(專利權)人: | 南京云思創智信息科技有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/30 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210042 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 文本 摘要 生成 系統 方法 | ||
本發明公開了一種中文文本摘要生成系統,包括預處理模塊、詞匯理解模塊、句子理解模塊、段落理解模塊和摘要自動生成模塊,其中,預處理模塊用于進行分詞和原始詞向量的形成,詞匯理解模塊、句子理解模塊和段落理解模塊分別用于采用雙向長短記憶神經網絡來對詞匯、句子和段落進行深度理解,摘要自動生成模塊用于根據詞匯理解模塊、句子理解模塊、段落理解模塊理解后的詞向量、句子向量和段落向量采用seg2seq生成摘要。本發明還公開了一種中文文本摘要生成方法。本發明利用神經網絡讓機器真正的去閱讀全文,并將理解后的文本表示在神經網絡內,再序列化的輸出簡短摘要,系統在理解文章時,除了語義外,還結合文章的結構表示,更加精細的理解了全文。
技術領域
本發明涉及文本數據處理技術領域,尤其涉及一種中文文本摘要生成系統及方法。
背景技術
文本摘要生成和總結是一個最近隨著大數據而出現的科研技術難題。因為隨著數據的爆炸性產生,特別是文本數據,人們已經無法及時瀏覽和理解所有感興趣的相關文本,但遺漏某些重要的文本信息又會造成很多組織和應用的損失。因此文本摘要自動歸納總結是實際應用中非常需要的應用面非常廣的一項技術。比如,用戶對商家的評論總結,自動新聞摘要的產生。
目前大部分中文文章摘要自動產生工具的工作方式是進行關鍵字式的片段提取形成文章總結或摘要。它們主要的方法是尋找文章中的關鍵字。然后選取含有關鍵字較多的句子形成摘要。這些方法的主要缺點是不能概括全文,摘要中的句子直接沒有很好的自然銜接。最重要的是這些方法都沒有真正的理解文章用自己理解后的語言組織成摘要。具體來說,目前主流技術的步驟如下:
1、將原文本拆分為句子,在每個句子中過濾掉停用詞(可選),并只保留指定詞性的單詞(可選)。由此可以得到句子的集合和單詞的集合。每個單詞作為關聯圖中的一個節點。設定窗口大小為k,假設一個句子依次由下面的單詞組成:w1,w2,w3,w4,w5,..., wn,其中{w1,w2,...,wk},{w2,w3,...,wk+1},{w3,w4,...,wk+2}等都是一個窗口。在一個窗口中的任兩個單詞對應的節點之間存在一個無向無權的邊。基于上面構成圖,可以計算出每個單詞節點的重要性。最重要的若干單詞可以作為關鍵詞。
2、接著是關鍵短語提取。若原文本中存在若干個關鍵詞相鄰的情況,那么這些關鍵詞可以構成一個關鍵詞組。例如,在一篇介紹支持向量機的文章中,可以找到關鍵詞支持、向量、機,通過關鍵詞組提取,可以得到支持向量機。
3、最后是摘要的生成。將每個句子看成圖中的一個節點,若兩個句子之間有相似性,認為對應的兩個節點之間有一個無向有權邊,權值是相似度。通過某種算法計算得到的重要性最高的若干句子可以當作摘要。
另外有些方法針對部分特別的結構化的文本,比如網頁,XML等。這些技術利用這些結構信息,去估計某些關鍵位置或關鍵標簽下的句子。最后將這些系統認為重要的句子組合成摘要。其主要缺點是不能概括全文,沒有真正的理解文章用自己理解后的語言組織成摘要。除以上缺點之外,目前主流的文本摘要方法都有人為特征定制和提取的工作。
本發明是基于深度學習的Seq2Seq技術,全稱Sequence to Sequence。該技術突破了傳統的固定大小輸入問題框架,開通了將經典深度神經網絡模型(DNNs)運用于翻譯與智能問答這一類序列型(Sequence Based,項目間有固定的先后關系)任務的先河,并被證實在翻譯以及人機短問快答的應用中有著不俗的表現。首先簡單介紹下Seq2Seq 模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京云思創智信息科技有限公司,未經南京云思創智信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201710034464.8/2.html,轉載請聲明來源鉆瓜專利網。





