[發明專利]基于逆向詞頻的貝葉斯文本分類器在審
| 申請號: | 201410376416.3 | 申請日: | 2014-08-01 |
| 公開(公告)號: | CN104142997A | 公開(公告)日: | 2014-11-12 |
| 發明(設計)人: | 關丹輝 | 申請(專利權)人: | 浪潮電子信息產業股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 無 | 代理人: | 無 |
| 地址: | 250101 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 逆向 詞頻 斯文 分類 | ||
技術領域
本發明涉及信息科學和機器學習領域,具體地說是一種基于逆向詞頻的貝葉斯文本分類器。
背景技術
當前,大數據時代來臨逐漸被行業認可,大數據應用也逐漸落地。而在大數據時代,數據分析、數據挖掘和機器學習等科學變得炙手可熱,成為了大數據時代掘金的利器。隨著數據量的激增,尤其是文本數據的明顯上升,有越來越多的信息積累,而需要信息的人還沒有特別方便的工具去從多數據源的大規模的文本信息資源中提取符合需要的簡潔、精煉、可理解的知識。文本數據的復雜性和多場景使用,使得文本分類顯得非常重要。無論是新聞聚合、垃圾郵件分類,還是微博內容分析,文本分類都將扮演重要的角色。
發明內容
本發明的目的是克服現有技術中存在的不足,提供一種基于逆向詞頻的貝葉斯文本分類器。
文本分類是數據挖掘和機器學習中非常重要的研究領域,文本分類的目標是對新文檔標以合適的類標簽。文本自動分類的過程首先是對訓練集中文檔的內容進行分析,構造一個分類方案,即分類器。在分類器學習之后,每個類有一個不同的分類方案,可用這些分類方案對新文檔分類。
樸素貝葉斯分類器是一種應用基于獨立假設的貝葉斯定理的簡單概率分類器。貝葉斯分類的基礎是概率推理,就是在各種條件的存在不確定,僅知其出現概率的情況下,如何完成推理和決策任務。在文本分類中,我們首先假設各個單詞出現的概率相互獨立(盡管實際生活中,各個單詞并不完全相互獨立,但是樸素貝葉斯分類效果仍然很有效),根據訓練數據集估計出各個單詞的先驗概率,由此計算出在測試文檔中出現的各個單詞之后,屬于不同類別分檔的后驗概率。我們依據最大后驗概率值,將文檔分類到具體的類別中。
本發明的技術方案是按以下方式實現的,其特點在于以單詞的逆向詞頻作為單詞的區分度,加權單詞在不同類別中頻率得到單詞的綜合先驗概率;根據貝葉斯定理,由先驗概率求得這些單詞屬于不同類別的后驗概率,選擇最大后驗概率值的分類以達到分類的目的;
主要考慮該單詞在所有文檔中出現的次數和該單詞在本文檔中出現的次數兩個方面;而根據大數定律,單詞先驗概率值以單詞在該分類中頻率來表示,而我們考慮了不同單詞的區分度,換句話說此時得到的先驗概率不是純粹代表了該單詞在該分類中出現的概率,而是代表了該分類中出現該單詞的綜合先驗概率。?
本發明的優點是:
本發明的基于逆向詞頻的貝葉斯文本分類器和現有技術相比,我們首先假設各個單詞出現的概率相互獨立,根據訓練數據集估計出各個單詞的先驗概率,由此計算出在測試文檔中出現的各個單詞之后,屬于不同類別分檔的后驗概率。我們依據最大后驗概率值,將文檔分類到具體的類別中,本發明具有設計合理、結構簡單、使用方便等特點,因而,具有很好的使用價值。
具體實施方式
下面對本發明的基于逆向詞頻的貝葉斯文本分類器作以下詳細說明。
本發明的基于逆向詞頻的貝葉斯文本分類器,其特點在于以單詞的逆向詞頻作為單詞的區分度,加權單詞在不同類別中頻率得到單詞的綜合先驗概率;根據貝葉斯定理,由先驗概率求得這些單詞屬于不同類別的后驗概率,選擇最大后驗概率值的分類以達到分類的目的;
主要考慮該單詞在所有文檔中出現的次數和該單詞在本文檔中出現的次數兩個方面;而根據大數定律,單詞先驗概率值以單詞在該分類中頻率來表示,而我們考慮了不同單詞的區分度,換句話說此時得到的先驗概率不是純粹代表了該單詞在該分類中出現的概率,而是代表了該分類中出現該單詞的綜合先驗概率。
標示說明
這里,我們以垃圾郵件分類為例。假設A類為垃圾郵件,B類為非垃圾郵件,Vi表示各個單詞,由此,我們做出如下標示:?
Nums??表示樣本總數?????Counts??表示總單詞數
NumsA??表示垃圾郵件個數????????NumsB??表示非垃圾郵件個數
CountsA??表示垃圾郵件中單詞總數????????SumB??表示非垃圾郵件單詞總數
CountsViA???表示單詞Vi在垃圾郵件中出現次數
CountsViB???表示單詞Vi在非垃圾郵件中出現次數
P(A)?=?NumsA?/?Nums???表示一封郵件為垃圾郵件的概率
P(B)?=?NumsB?/?Nums???表示一封郵件為非垃圾郵件的概率
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮電子信息產業股份有限公司,未經浪潮電子信息產業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201410376416.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文本分類方法
- 下一篇:一種樣本存儲位置的分配方法及其裝置





