[發(fā)明專利]主題類別對應(yīng)的特征詞提取和文本主題類別識別方法在審
| 申請?zhí)枺?/td> | 202011430233.7 | 申請日: | 2020-12-09 |
| 公開(公告)號: | CN112528022A | 公開(公告)日: | 2021-03-19 |
| 發(fā)明(設(shè)計)人: | 康鑫;孫艷;隗艷萍 | 申請(專利權(quán))人: | 廣州摩翼信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284 |
| 代理公司: | 廣州華進(jìn)聯(lián)合專利商標(biāo)代理有限公司 44224 | 代理人: | 馮右明 |
| 地址: | 511400 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 主題 類別 對應(yīng) 特征 提取 文本 識別 方法 | ||
1.一種主題類別對應(yīng)的特征詞提取方法,其特征在于,所述方法包括:
獲取多個主題類別的示例文本,以及各個主題類別的示例文本的類別標(biāo)簽;
對各個主題類別的示例文本進(jìn)行分詞處理,并對分詞處理得到的各個詞語分別進(jìn)行詞頻統(tǒng)計,得到各個主題類別對應(yīng)的多個詞語的詞頻信息;
針對各個主題類別,根據(jù)所述多個詞語在本主題類別中的詞頻信息,以及在多個主題類別中的分布情況,從所述多個詞語中篩選出至少一個特征詞語,作為對應(yīng)主題類別的特征詞語;所述特征詞語為在所述對應(yīng)主題類別的示例文本中構(gòu)成的顯著性差異達(dá)到設(shè)定條件的詞語。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述針對各個主題類別,根據(jù)所述多個詞語在本主題類別中的詞頻信息,以及在多個主題類別中的分布情況,從所述多個詞語中篩選出至少一個特征詞語,作為對應(yīng)主題類別的特征詞語,包括:
針對某個主題類別,根據(jù)各個詞語的詞頻信息,得到各個詞語在所述某個主題類別的示例文本包含的詞語中所占的比例,從所述多個詞語中確定出所述比例靠前的設(shè)定數(shù)量的詞語,作為備選特征詞語;
針對所述備選特征詞語,獲取其在所述多個主題類別中的類平均詞頻及類樣本標(biāo)準(zhǔn)差,并基于所述備選特征詞語的所述類平均詞頻及類樣本標(biāo)準(zhǔn)差,確定其作為所述某個主題類別的特征詞語的顯著性特征分值;所述顯著性特征分值的絕對值越大,與所述備選特征詞語在主題類別的示例文本中構(gòu)成的顯著性差異越大;
根據(jù)所述顯著性特征分值,從設(shè)定數(shù)量的所述備選特征詞語中,確定出所述顯著性特征分值靠前的至少一個,作為所述某個主題類別對應(yīng)的至少一個特征詞語。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述針對所述備選特征詞語,獲取其在所述多個主題類別中的類平均詞頻及類樣本標(biāo)準(zhǔn)差,包括:
通過對所述備選特征詞語在所述各個主題類別中的詞頻信息求平均,得到所述類平均詞頻。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述針對所述備選特征詞語,獲取其在所述多個主題類別中的類平均詞頻及類樣本標(biāo)準(zhǔn)差,還包括:
通過對所述備選特征詞語在所述各個主題類別中的詞頻信息計算標(biāo)準(zhǔn)差,得到所述類樣本標(biāo)準(zhǔn)差。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述備選特征詞語的所述類平均詞頻及類樣本標(biāo)準(zhǔn)差,確定其作為所述某個主題類別的特征詞語的顯著性特征分值,包括:
基于所述備選特征詞語的所述類平均詞頻和所述類樣本標(biāo)準(zhǔn)差,得到其對應(yīng)所述某個主題類別的檢驗統(tǒng)計值;
通過將所述檢驗統(tǒng)計值與預(yù)設(shè)的拒絕域臨界值相比較,得到所述備選特征詞語作為所述某個主題類別的特征詞語的顯著性特征分值。
6.一種文本主題類別識別方法,其特征在于,所述方法包括:
獲取待識別的目標(biāo)文本,進(jìn)行分詞處理,并統(tǒng)計分詞得到的各個詞語的詞頻信息;根據(jù)所述詞頻信息,確定詞語在目標(biāo)文本中的出現(xiàn)次數(shù)和出現(xiàn)頻率;
根據(jù)所述詞語在目標(biāo)文本中的出現(xiàn)次數(shù)和出現(xiàn)頻率,以及目標(biāo)文本中所有詞語的總出現(xiàn)次數(shù),確定所述詞語在目標(biāo)文本中的顯著性特征分值;
獲取多個主題類別中各個主題類別的特征詞語的顯著性特征分值;其中,所述各個主題類別的特征詞語根據(jù)權(quán)利要求1所述方法確定;
根據(jù)所述目標(biāo)文本中各個詞語的所述顯著性特征分值,以及各個主題類別的特征詞語的顯著性特征分值,計算所述目標(biāo)文本與各個主題類別的類別距離;
如果目標(biāo)文本與所述多個主題類別中的某個主題類別的類別距離最近且所述類別距離小于等于閾值,則將目標(biāo)文本確定為所述某個主題類別。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州摩翼信息科技有限公司,未經(jīng)廣州摩翼信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202011430233.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





