[發明專利]文本分類和展示方法、裝置、計算機設備及存儲介質有效
| 申請號: | 201810385958.5 | 申請日: | 2018-04-26 |
| 公開(公告)號: | CN108563786B | 公開(公告)日: | 2019-12-20 |
| 發明(設計)人: | 方小敏;符帆;羅梓奇 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27 |
| 代理公司: | 44224 廣州華進聯合專利商標代理有限公司 | 代理人: | 李文淵;黃晶晶 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標類別 分詞結果 分類標記 文本 文本分類 計算機設備 存儲介質 分類 概率 迭代停止條件 處理效率 分類模型 繼續處理 模型訓練 輸入分類 重新確定 申請 展示 返回 輸出 | ||
本申請涉及一種文本分類和展示方法、裝置、計算機設備及存儲介質,該文本分類方法包括:從待分類的文本的分詞結果中確定部分目標類別的分詞結果;為包括目標類別的分詞結果的文本添加目標類別的分類標記,并為不包括目標類別的分詞結果的文本添加非目標類別的分類標記;按待分類的文本和所添加的分類標記進行模型訓練,得到分類模型;將各分詞結果輸入分類模型中,輸出各分詞結果屬于目標類別的概率;將屬于目標類別的概率大于或等于第一概率閾值的分詞結果重新確定為目標類別的分詞結果,返回為包括目標類別的分詞結果的文本添加目標類別的分類標記并繼續處理,直至滿足迭代停止條件時得到待分類的文本的分類標記。本申請的方案提高了處理效率。
技術領域
本發明涉及計算機技術領域,特別是涉及一種文本分類和展示方法、裝置、計算機設備及存儲介質。
背景技術
隨著科學技術的飛速發展,大數據時代逐步到來,數據處理方式多種多樣。其中,數據分類由于能夠在多方面起到重要作用,所以越來越受到大家的重視。
傳統方法在一些場景下需要通過人工為大量數據添加分類標記。比如,在進行有監督的機器學習訓練時,需要提前準備大批未分類的樣本數據,通過人工為全量的大批未分類的樣本數據一一添加分類標記,才能基于人工添加的分類標記后的樣本數據進行有監督的機器學習訓練。因此,傳統方法通過人工方式為大量樣本數據添加分類標記的效率比較低。
發明內容
基于此,有必要針對傳統方法通過人工方式為大量樣本數據添加分類標記的效率比較低的問題,提供一種文本分類和展示方法、裝置、計算機設備及存儲介質。
一種文本分類方法,所述方法包括:
從待分類的文本的分詞結果中確定部分目標類別的分詞結果;
為包括所述目標類別的分詞結果的文本添加目標類別的分類標記,以及為不包括所述目標類別的分詞結果的文本添加非目標類別的分類標記;
根據待分類的文本和所添加的分類標記進行模型訓練,得到分類模型;
將各分詞結果輸入所述分類模型中,輸出各分詞結果屬于目標類別的概率;
將屬于目標類別的概率大于或等于第一概率閾值的分詞結果重新確定為目標類別的分詞結果,返回所述為包括所述目標類別的分詞結果的文本添加目標類別的分類標記并繼續處理,直至滿足迭代停止條件時得到待分類的文本的分類標記。
一種文本分類裝置,所述裝置包括:
分詞結果確定模塊,用于從待分類的文本的分詞結果中確定部分目標類別的分詞結果;
標記添加模塊,用于為包括所述目標類別的分詞結果的文本添加目標類別的分類標記,以及為不包括所述目標類別的分詞結果的文本添加非目標類別的分類標記;
模型訓練模塊,用于根據待分類的文本和所添加的分類標記進行模型訓練,得到分類模型;
分類模塊,用于將各分詞結果輸入所述分類模型中,輸出各分詞結果屬于目標類別的概率;將屬于目標類別的概率大于或等于第一概率閾值的分詞結果重新確定為目標類別的分詞結果,并通知標記添加模塊工作,直至滿足迭代停止條件時得到待分類的文本的分類標記。
一種計算機設備,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述計算機程序被處理器執行時,使得所述處理器執行如下步驟:
從待分類的文本的分詞結果中確定部分目標類別的分詞結果;
為包括所述目標類別的分詞結果的文本添加目標類別的分類標記,以及為不包括所述目標類別的分詞結果的文本添加非目標類別的分類標記;
根據待分類的文本和所添加的分類標記進行模型訓練,得到分類模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201810385958.5/2.html,轉載請聲明來源鉆瓜專利網。





