[發明專利]數據處理方法、裝置、設備及存儲介質有效
| 申請號: | 201911149101.4 | 申請日: | 2019-11-21 |
| 公開(公告)號: | CN110929532B | 公開(公告)日: | 2023-03-21 |
| 發明(設計)人: | 袁松嶺;文心杰;王曉利;伍海江 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 邢惠童 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 設備 存儲 介質 | ||
本申請公開了數據處理方法、裝置、設備及存儲介質,屬于計算機技術領域。方法包括:獲取待篩選數據集,待篩選數據集包括多個待篩選的源語言數據;基于目標數據篩選模型,對待篩選數據集中的各個源語言數據進行篩選,得到篩選后的源語言數據,目標數據篩選模型利用強化學習算法訓練得到;將篩選后的源語言數據作為目標源語言數據,獲取與目標源語言數據對應的標注語言數據,基于目標源語言數據和標注語言數據獲取機器翻譯模型。在此種數據處理的過程中,目標數據篩選模型中的篩選規則為機器在強化學習的過程中自動學習出來的,目標數據篩選模型的適應場景廣泛,篩選后的源語言數據的質量較高,使得獲取的機器翻譯模型的翻譯性能較好。
技術領域
本申請實施例涉及計算機技術領域,特別涉及一種數據處理方法、裝置、設備及存儲介質。
背景技術
在機器翻譯領域,要訓練一個精確的機器翻譯模型,需要足夠數量的雙語訓練數據。雙語訓練數據由源語言數據和與源語言數據對應的標注語言數據組成。通常,獲取雙語訓練數據中的標注語言數據的成本較高,因此,為了在固定成本約束下獲取高質量的雙語訓練數據,需要先對大量的源語言數據進行篩選,然后再獲取與篩選后的源語言數據對應的標注語言數據。
相關技術中,基于詞頻或者基于模型置信度對源語言數據進行篩選,這些篩選規則的適應場景較局限,篩選后的源語言數據的質量不佳,使得基于篩選后的源語言數據和與其對應的標注語言數據獲取的機器翻譯模型的翻譯性能較差。
發明內容
本申請實施例提供了一種數據處理方法、裝置、設備及存儲介質,可用于解決相關技術中的問題。所述技術方案如下:
一方面,本申請實施例提供了一種數據處理方法,所述方法包括:
獲取待篩選數據集,所述待篩選數據集包括多個待篩選的源語言數據;
基于目標數據篩選模型,對所述待篩選數據集中的各個源語言數據進行篩選,得到篩選后的源語言數據,所述目標數據篩選模型利用強化學習算法訓練得到;
將所述篩選后的源語言數據作為目標源語言數據,獲取與所述目標源語言數據對應的標注語言數據,基于所述目標源語言數據和所述標注語言數據獲取機器翻譯模型。
另一方面,提供了一種數據處理裝置,所述裝置包括:
第一獲取模塊,用于獲取待篩選數據集,所述待篩選數據集包括多個待篩選的源語言數據;
篩選模塊,用于基于目標數據篩選模型,對所述待篩選數據集中的各個源語言數據進行篩選,得到篩選后的源語言數據,所述目標數據篩選模型利用強化學習算法訓練得到;
第二獲取模塊,用于將所述篩選后的源語言數據作為目標源語言數據,獲取與所述目標源語言數據對應的標注語言數據;
第三獲取模塊,用于基于所述目標源語言數據和所述標注語言數據獲取機器翻譯模型。
在一種可能實現方式中,所述裝置還包括:
初始化模塊,用于隨機初始化第一訓練數據集,所述第一訓練數據集包括多個源語言訓練數據;
第一訓練模塊,用于基于隨機初始化的第一訓練數據集,利用強化學習算法對第一數據篩選模型進行訓練,得到第二數據篩選模型;
第二訓練模塊,用于基于所述第二數據篩選模型進行迭代訓練,直至滿足第一訓練終止條件,得到目標數據篩選模型。
在一種可能實現方式中,所述第一訓練模塊,包括:
劃分單元,用于將所述隨機初始化的第一訓練數據集劃分為至少一個目標訓練數據集;
獲取單元,用于獲取第一目標訓練數據集中的各個源語言訓練數據的目標特征,所述第一目標訓練數據集為所述至少一個目標訓練數據集中的第一個目標訓練數據集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201911149101.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種工程施工用的項目管理系統
- 下一篇:一種超級電容器電極結構及增強方法





