[發明專利]訓練關鍵短語標識模型的方法、裝置、設備和存儲介質有效
| 申請號: | 202010880346.0 | 申請日: | 2020-08-27 |
| 公開(公告)號: | CN112101020B | 公開(公告)日: | 2023-08-04 |
| 發明(設計)人: | 楊虎;汪琦;王述;張曉寒;馮知凡;柴春光 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/295;G06F16/36;G06F16/335;G06F16/9535;G06N3/0442 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 趙林琳 |
| 地址: | 100094 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 關鍵 短語 標識 模型 方法 裝置 設備 存儲 介質 | ||
本申請公開了訓練關鍵短語標識模型的方法、裝置、設備和存儲介質,涉及人工智能、知識圖譜和深度學習領域。訓練關鍵短語標識模型的方法包括:獲取與目標領域相關的第一訓練數據,其中第一訓練數據的第一訓練文本中的與目標領域相關的關鍵短語被標識;獲取不與目標領域相關的通用訓練數據,其中通用訓練數據的通用訓練文本中的與目標領域不相關的關鍵短語被標識;以及基于第一訓練數據和通用訓練數據,訓練針對目標領域的關鍵短語標識模型,以用于對與目標領域相關的待標識文本進行標識。以此方式,利用目標領域中的少量經標識的數據,即可以獲得針對目標領域準確的關鍵短語標識模型。
技術領域
本公開涉及數據處理領域,特別地,涉及人工智能、知識圖譜和深度學習領域,并且更具體地,涉及訓練關鍵短語標識模型的方法、裝置、設備和存儲介質。
背景技術
隨著計算機技術的發展,目前已經可以基于機器學習技術來處理多種數據的技術方案。例如,已經可以利用機器學習技術來處理文本,進而標識出文本中的關鍵短語。例如,對于視頻來說,其標題和介紹文本中可能包含有對該視頻內容進行理解的關鍵短語。然而,由于這些文本可能屬于不同的領域,不同領域的特征各不相同,在針對與某一領域相關的文本進行關鍵短語標識時,可能需要針對該特定領域的標識模型,并且需要大量人工標識的數據對該標識模型進行訓練。
發明內容
本公開提供了一種用于訓練關鍵短語標識模型的方法、裝置、設備以及存儲介質。
根據本公開的第一方面,提供了一種用于訓練關鍵短語標識模型的方法。該方法包括獲取與目標領域相關的第一訓練數據,其中第一訓練數據的第一訓練文本中的與目標領域相關的關鍵短語被標識。該方法還包括獲取不與目標領域相關的通用訓練數據,其中通用訓練數據的通用訓練文本中的與目標領域不相關的關鍵短語被標識。該方法還包括基于第一訓練數據和通用訓練數據,訓練針對目標領域的關鍵短語標識模型,以用于對與目標領域相關的待標識文本進行標識。
根據本公開的第二方面,提供了一種用于對待標識文本中的關鍵短語進行標識的方法。該方法包括獲取與目標領域相關的待標識文本。該方法還包括利用根據本公開的第一方面所述的方法訓練的關鍵短語標識模型,標識待標識文本中的與目標領域相關的關鍵短語。
根據本公開的第三方面,提供了一種訓練關鍵短語標識模型的裝置。該裝置包括第一訓練數據獲取模塊,被配置為獲取與目標領域相關的第一訓練數據,其中第一訓練數據的第一訓練文本中的與目標領域相關的關鍵短語被標識。該裝置還包括通用訓練數據獲取模塊,被配置為獲取不與目標領域相關的通用訓練數據,其中通用訓練數據的通用訓練文本中的與目標領域不相關的關鍵短語被標識。該裝置還包括模型訓練模塊,被配置為基于第一訓練數據和通用訓練數據,訓練針對目標領域的關鍵短語標識模型,以用于對與目標領域相關的待標識文本進行標識。
根據本公開的第四方面,提供了一種用于對待標識文本中的關鍵短語進行標識的裝置。該裝置包括:待標識文本獲取模塊,被配置為獲取與目標領域相關的待標識文本。該裝置還包括:待標識文本標識模塊,被配置為利用根據本公開的第一方面所述的方法訓練的所述關鍵短語標識模型,標識待標識文本中的與目標領域相關的關鍵短語。
根據本公開的第五方面,提供了一種電子設備,包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,該存儲器存儲有可被至少一個處理器執行的指令,該指令被至少一個處理器執行,以使至少一個處理器能夠執行根據本公開的第一方面所述的方法。
根據本公開的第六方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,該計算機指令用于使計算機執行根據本公開的第一方面所述的方法。
根據本公開的第七方面,提供了一種計算機程序產品,包括計算機程序指令,該計算機程序指令被處理器實現如本公開的第一方面或第二方面所述的方法。
根據本申請的技術利用目標領域中的少量經標識的數據,即可以獲得針對目標領域準確的關鍵短語標識模型進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202010880346.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:車門疲勞仿真分析方法
- 下一篇:一種計算機機箱護板沖壓機





