[發明專利]文本語料的處理方法、裝置、設備及存儲介質在審
| 申請號: | 202010951127.7 | 申請日: | 2020-09-11 |
| 公開(公告)號: | CN112069329A | 公開(公告)日: | 2020-12-11 |
| 發明(設計)人: | 王子豐;文瑞;陳曦 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/295;G06F40/247;G06F40/216 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 徐立 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 語料 處理 方法 裝置 設備 存儲 介質 | ||
本申請公開了一種文本語料的處理方法、裝置、設備及存儲介質,屬于人工智能技術領域。所述方法包括:采用設定召回參數獲取初始的訓練樣本集,所述初始的訓練樣本集中包括至少一個訓練樣本;基于初始的訓練樣本集中目標訓練樣本的影響函數,確定目標訓練樣本的重要性指標;根據初始的訓練樣本集中各個訓練樣本的重要性指標,從初始的訓練樣本集中選取重要性指標滿足條件的訓練樣本,得到關系抽取模型的采樣后的訓練樣本集,采樣后的訓練樣本集用于對關系抽取模型進行訓練。本申請中,能夠快速準確地從初始的訓練樣本集中獲取采樣后的訓練樣本集,保證采樣后的訓練樣本集的可信度,提高訓練出的關系抽取模型的準確性。
技術領域
本申請涉及人工智能技術領域,特別涉及一種文本語料的處理方法、裝置、設備及存儲介質。
背景技術
人工智能(Artificial Intelligence,AI)是利用數字計算機或者數字計算機控制的機器模擬、延伸和擴展人的智能,感知環境、獲取知識并使用知識獲得最佳結果的理論、方法、技術及應用系統。目前,深度學習模型在人工智能領域的運用越來越廣泛,關系抽取模型在醫療領域中對于知識圖譜的構建也越來越重要,因此,用于訓練關系抽取模型的樣本數據的選取也逐漸變得重要。
在相關技術中,由醫療領域的工作人員依據經驗編寫針對醫療領域的特征規則的校驗方案。在獲取用于訓練關系抽取模型的樣本數據之后,依據預先編寫好的特征規則的校驗方案,對上述樣本數據進行篩選,去除樣本數據中不可信的樣本個體,保留可信的樣本個體作為訓練關系抽取模型的實際訓練樣本,并依據該實際訓練樣本訓練得到關系抽取模型,進而依據該關系抽取模型對所獲取的醫療領域的待識別文本進行關系抽取,以此來實現對醫療領域的知識圖譜的更新。
然而,在上述相關技術中,在特征規則的編寫以及實際訓練樣本的篩選兩個方面嚴重依賴于人工操作,這難免存在局限性,容易導致所獲取的實際訓練樣本的準確性不佳,進而導致訓練出的關系抽取模型的準確性低。
發明內容
本申請實施例提供了一種文本語料的處理方法、裝置、設備及存儲介質,能夠快速準確地從初始的訓練樣本集中獲取采樣后的訓練樣本集,保證采樣后的訓練樣本集的可信度,提高關系抽取模型的訓練效率和準確性。所述技術方案如下:
根據本申請實施例的一個方面,提供了一種文本語料的處理方法,所述方法包括:
采用設定召回參數獲取初始的訓練樣本集,所述初始的訓練樣本集中包括至少一個訓練樣本;其中,所述設定召回參數是用于從文本語料庫中召回所述訓練樣本的參數,所述文本語料庫中包括用于構建知識圖譜的文本語料;
基于所述初始的訓練樣本集中目標訓練樣本的影響函數,確定所述目標訓練樣本的重要性指標;其中,所述目標訓練樣本的重要性指標用于度量所述目標訓練樣本在關系抽取模型的訓練過程中的重要程度,所述關系抽取模型是用于從語料樣本中抽取實體間關系以構建知識圖譜的模型;
根據所述初始的訓練樣本集中各個訓練樣本的重要性指標,從所述初始的訓練樣本集中選取所述重要性指標滿足條件的訓練樣本,得到所述關系抽取模型的采樣后的訓練樣本集,所述采樣后的訓練樣本集用于對所述關系抽取模型進行訓練。
根據本申請實施例的一個方面,提供了一種文本語料的處理裝置,所述裝置包括:
初始獲取模塊,用于采用設定召回參數獲取初始的訓練樣本集,所述初始的訓練樣本集中包括至少一個訓練樣本;其中,所述設定召回參數是用于從文本語料庫中召回所述訓練樣本的參數,所述文本語料庫中包括用于構建知識圖譜的文本語料;
指標獲取模塊,用于基于所述初始的訓練樣本集中目標訓練樣本的影響函數,確定所述目標訓練樣本的重要性指標;其中,所述目標訓練樣本的重要性指標用于度量所述目標訓練樣本在關系抽取模型的訓練過程中的重要程度,所述關系抽取模型是用于從語料樣本中抽取實體間關系以構建知識圖譜的模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202010951127.7/2.html,轉載請聲明來源鉆瓜專利網。





