[發明專利]一種合同段落標注模型的訓練方法、裝置及設備有效
| 申請號: | 201811590119.3 | 申請日: | 2018-12-25 |
| 公開(公告)號: | CN110046637B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 梁山雪 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F16/35;G06F18/2411 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 開曼群島大開曼島*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 合同 段落 標注 模型 訓練 方法 裝置 設備 | ||
公開了一種合同段落標注模型的訓練方法、裝置及設備。本說明書實施例所提供的方案,使用深度學習模型對合同的每個段落進行編碼,基于提取的段落特征使用序列標注模型自動的去學習段落之間的結構關系,進行模型訓練,進而可以使用訓練好的模型自動對合同進行段落標注,對合同文檔結構的識別具有更強的適應性和準確性,效率更高,且不需要人工編寫相關規則,更不需要后期對規則的維護更新。
技術領域
本說明書實施例涉及信息技術領域,尤其涉及一種合同段落標注模型的訓練方法、裝置及設備。
背景技術
當前的合同文件大多都以紙質版的形式存放,對合同文件的電子歸檔需要對紙質版文件進行掃描,得到無結構的純文本內容,而無法還原文檔的結構信息,帶來很多不便。一方面,沒有合同結構查閱起來很不方便。另一方面,對文本的后續文本分析處理依賴于合同文檔的結構信息。
例如,對于合同而言,提取某個標題下的子條款,提取合同中所有的條款,根據合同標題定位具體內容等,都需要有合同標題、條款等結構信息。如果對于合同的結構標注,都采用人工的方式,則效率太低。
基于此,需要一種對于非結構化的合同進行結構化段落標注的方案。
發明內容
針對現有合同標注效率太低的問題,為實現更高效的合同標注方案,第一方面,本說明書實施例提供一種合同段落標注模型的訓練方法,具體包括:
獲取訓練樣本集合,每一訓練樣本中包括由同一合同拆分得到的多個具有結構標簽的合同段落,和,按照合同段落順序組合得到的真實結構標簽序列,其中,所述結構標簽包括標題、條款內容和合同聲明內容,所述合同聲明內容包括對條款內容的使用聲明和對標題的解釋聲明;
針對任一訓練樣本,確定該訓練樣本中各合同段落的段落特征向量,并按合同段落順序組合得到段落特征向量序列,其中,所述段落特征向量序列和真實結構標簽序列所包含的元素數量等同于合同段落數量;
以所述段落特征向量序列作為訓練樣本的特征值,以所述真實結構標簽序列作為訓練樣本的標簽,采用有監督學習訓練得到目標標注模型;
其中,所述目標標注模型以合同的段落特征向量序列作為輸入值,以預測結構標簽序列作為輸出值,所述預測結構標簽序列中的結構標簽按順序對應于各合同段落。
第二方面,本說明書實施例還提供一種基于上述合同段落標注模型的合同段落標注方法,包括:
獲取合同文本內容,所述合同文本內容包括多個合同段落;
確定各合同段落的段落特征向量,按順序組合生成段落特征向量序列;
以所述段落特征向量序列作為所述合同段落標注模型的輸入值,以使得所述合同段落標注模型輸出對于所述合同文本內容的預測結構標簽序列,并按照合同段落的順序確定各合同段落的預測結構標簽;
其中,所述段落特征向量序列和預測結構標簽序列所包含的元素數量等同于合同段落數量,所述結構標簽包括標題、條款內容和合同聲明內容。
與第一方面對應的,本說明書實施例還提供一種合同段落標注模型的訓練裝置,包括:
獲取模塊,獲取訓練樣本集合,每一訓練樣本中包括由同一合同拆分得到的多個具有結構標簽的合同段落,和,按照合同段落順序組合得到的真實結構標簽序列,其中,所述結構標簽包括標題、條款內容和合同聲明內容,所述合同聲明內容包括對條款內容的使用聲明和對標題的解釋聲明;
確定模塊,針對任一訓練樣本,確定該訓練樣本中各合同段落的段落特征向量,并按合同段落順序組合得到段落特征向量序列,其中,所述段落特征向量序列和真實結構標簽序列所包含的元素數量等同于合同段落數量;
訓練模塊,以所述段落特征向量序列作為訓練樣本的特征值,以所述真實結構標簽序列作為訓練樣本的標簽,采用有監督學習訓練得到目標標注模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201811590119.3/2.html,轉載請聲明來源鉆瓜專利網。





