[發明專利]文本語料的處理方法、裝置、設備及存儲介質在審
| 申請號: | 202010951127.7 | 申請日: | 2020-09-11 |
| 公開(公告)號: | CN112069329A | 公開(公告)日: | 2020-12-11 |
| 發明(設計)人: | 王子豐;文瑞;陳曦 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/295;G06F40/247;G06F40/216 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 徐立 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 語料 處理 方法 裝置 設備 存儲 介質 | ||
1.一種文本語料的處理方法,其特征在于,所述方法包括:
采用設定召回參數獲取初始的訓練樣本集,所述初始的訓練樣本集中包括至少一個訓練樣本;其中,所述設定召回參數是用于從文本語料庫中召回所述訓練樣本的參數,所述文本語料庫中包括用于構建知識圖譜的文本語料;
基于所述初始的訓練樣本集中目標訓練樣本的影響函數,確定所述目標訓練樣本的重要性指標;其中,所述目標訓練樣本的重要性指標用于度量所述目標訓練樣本在關系抽取模型的訓練過程中的重要程度,所述關系抽取模型是用于從語料樣本中抽取實體間關系以構建知識圖譜的模型;
根據所述初始的訓練樣本集中各個訓練樣本的重要性指標,從所述初始的訓練樣本集中選取所述重要性指標滿足條件的訓練樣本,得到所述關系抽取模型的采樣后的訓練樣本集,所述采樣后的訓練樣本集用于對所述關系抽取模型進行訓練。
2.根據權利要求1所述的方法,其特征在于,所述基于所述初始的訓練樣本集中目標訓練樣本的影響函數,確定所述目標訓練樣本的重要性指標,包括:
獲取所述關系抽取模型的測試樣本集,所述測試樣本集中包括至少一個測試樣本;
基于所述測試樣本集和所述目標訓練樣本的影響函數,確定所述目標訓練樣本的影響參數;其中,所述目標訓練樣本的影響參數用于度量所述目標訓練樣本對所述關系抽取模型在所述測試樣本集上預測誤差的影響程度;
根據所述目標訓練樣本的影響參數,確定所述目標訓練樣本的重要性指標。
3.根據權利要求2所述的方法,其特征在于,所述基于所述測試樣本集和所述目標訓練樣本的影響函數,確定所述目標訓練樣本的影響參數,包括:
獲取第一損失函數值和第二損失函數值;其中,所述第一損失函數值是指所述關系抽取模型在所述目標訓練樣本上的損失函數值,所述第二損失函數值是指所述關系抽取模型在所述測試樣本上的損失函數值;
基于所述目標訓練樣本的影響函數、所述第一損失函數值和所述第二損失函數,確定所述目標訓練樣本針對單個所述測試樣本的影響參數;
將所述目標訓練樣本針對各個所述測試樣本的影響參數累加,得到所述目標訓練樣本的影響參數。
4.根據權利要求2所述的方法,其特征在于,所述根據所述目標訓練樣本的影響參數,確定所述目標訓練樣本的重要性指標,包括:
計算所述目標訓練樣本的影響參數對應的采樣概率值,所述采樣概率值是一個取值在[0,1]之間的概率值;
其中,所述重要性指標包括所述采樣概率值。
5.根據權利要求1至4任一項所述的方法,其特征在于,所述根據所述初始的訓練樣本集中各個訓練樣本的重要性指標,從所述初始的訓練樣本集中選取所述重要性指標滿足條件的訓練樣本,得到所述關系抽取模型的采樣后的訓練樣本集,包括:
從所述初始的訓練樣本集中選取所述重要性指標大于閾值的訓練樣本,得到所述關系抽取模型的采樣后的訓練樣本集;
或者,
按照所述重要性指標由大到小的順序對各個所述訓練樣本進行排序,得到訓練樣本序列;選取所述序列中前n個訓練樣本得到所述關系抽取模型的采樣后的訓練樣本集,所述n為正整數。
6.根據權利要求1至4任一項所述的方法,其特征在于,所述采用設定召回參數獲取初始的訓練樣本集,包括:
獲取所述設定召回參數,所述設定召回參數包括第一實體、第二實體、所述第一實體的類型、所述第二實體的類型和實體關系,所述實體關系用于指示所述第一實體與所述第二實體之間的關系;
從所述文本語料庫中選取與所述第一實體的類型和所述第二實體的類型相匹配的文本語料,得到一次篩選后的文本語料;
從所述一次篩選后的文本語料中選取與所述第一實體和所述第二實體相匹配的文本語料,得到二次篩選后的文本語料;
從所述二次篩選后的文本語料中選取合規的文本語料,得到所述初始的訓練樣本集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202010951127.7/1.html,轉載請聲明來源鉆瓜專利網。





