[發(fā)明專利]基于融合Boost模型的不平衡數(shù)據(jù)采樣方法在審
| 申請?zhí)枺?/td> | 201710781806.2 | 申請日: | 2017-09-02 |
| 公開(公告)號: | CN107609074A | 公開(公告)日: | 2018-01-19 |
| 發(fā)明(設計)人: | 宋彬;王丹;陳思佳 | 申請(專利權(quán))人: | 西安電子科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 陜西電子工業(yè)專利中心61205 | 代理人: | 田文英,王品華 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 融合 boost 模型 不平衡 數(shù)據(jù) 采樣 方法 | ||
1.一種基于融合提升Boost模型的不平衡數(shù)據(jù)采樣方法,其特征在于,包括如下步驟:
(1)生成訓練樣本集;
(2)訓練提升Boost模型:
采用提升Boost模型訓練方法,訓練提升Boost模型,得到訓練好的提升Boost模型;
(3)定義pure1、danger1、noise1數(shù)據(jù)集;
(4)獲取訓練樣本集的樣本點在加權(quán)特征空間的位置關系:
(4a)將訓練樣本集按特征類型歸一化;
(4b)采用更新特征權(quán)重值與提升Boost模型的F-score評分結(jié)合的方法,得到訓練樣本集的新特征權(quán)重值;
(4c)計算訓練樣本集的樣本點在加權(quán)特征空間的位置關系;
(5)定義danger2、pure2、noise2數(shù)據(jù)集;
(6)融合數(shù)據(jù)集:
將pure1數(shù)據(jù)集和pure2數(shù)據(jù)集融合為pure融合集,將danger1數(shù)據(jù)集和danger2數(shù)據(jù)集融合為danger融合集,將noise1數(shù)據(jù)集和noise2數(shù)據(jù)集融合為noise融合集;
(7)合成新樣本點:
(7a)創(chuàng)建新樣本點集合,將屬于pure融合集且屬于類0的樣本點的集合作為pure創(chuàng)建集,將屬于danger融合集且屬于類0的樣本點的集合作為danger創(chuàng)建集;
(7b)對pure創(chuàng)建集和danger創(chuàng)建集中的每一個樣本點,使用合成樣本數(shù)據(jù)集新樣本點的方法,合成樣本數(shù)據(jù)集的新樣本點;
(8)獲得平衡數(shù)據(jù)樣本集:
(8a)將屬于pure融合集且屬于類1的樣本點的集合作為pure刪除集,將屬于noise融合集且屬于類1的樣本點的集合作為noise刪除集,將屬于加權(quán)特征空間中重疊的所有樣本點的集合作為repeat刪除集;
(8b)刪除新樣本點中所有存在于repeat刪除集的樣本點;
(8c)刪除新樣本點中存在于pure刪除集和noise刪除集中的所有樣本點,獲得平衡數(shù)據(jù)樣本集。
2.根據(jù)權(quán)利要求1所述的基于融合提升Boost模型的不平衡數(shù)據(jù)采樣方法,其特征在于:步驟(1)中所述生成訓練樣本集是指,使用MATLAB仿真軟件,隨機生成一個包含兩類樣本數(shù)量不同的不平衡數(shù)據(jù)集,將樣本數(shù)量較多的類記作類1,樣本數(shù)量較少的類記作類0,并將兩類不平衡數(shù)據(jù)集作為訓練樣本集。
3.根據(jù)權(quán)利要求1所述的基于融合提升Boost模型的不平衡數(shù)據(jù)采樣方法,其特征在于:步驟(2)中所述提升Boost模型訓練方法的具體步驟如下:
第1步,將訓練樣本輸入到提升Boost模型中,對每個訓練樣本特征權(quán)重值初始化為得到帶權(quán)的訓練樣本集,其中,N表示訓練樣本的總數(shù);
第2步,將帶權(quán)的訓練樣本集輸入到分類器進行迭代訓練,每次迭代后對預測錯誤的樣本增加權(quán)重,統(tǒng)計預測為類1的樣本數(shù),直到分類器預測正確,迭代停止,獲取訓練樣本集的更新特征權(quán)重值。
4.根據(jù)權(quán)利要求1所述的基于融合提升Boost模型的不平衡數(shù)據(jù)采樣方法,其特征在于:步驟(3)中所述定義pure1、danger1、noise1數(shù)據(jù)集是指,使用訓練好的提升Boost模型,將訓練樣本集中樣本點分類正確概率大于0.5的樣本點集合定義為pure1數(shù)據(jù)集,將訓練樣本集中樣本點分類正確概率小于0.5的樣本點集合定義為danger1數(shù)據(jù)集,將訓練樣本集中樣本點分類錯誤概率大于0.5的樣本點集合定義為noise1數(shù)據(jù)集。
5.根據(jù)權(quán)利要求1所述的基于融合提升Boost模型的不平衡數(shù)據(jù)采樣方法,其特征在于:步驟(4a)中所述將訓練樣本集按特征類型歸一化是指,將訓練樣本數(shù)據(jù)特征分為連續(xù)型特征和離散型特征。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學,未經(jīng)西安電子科技大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201710781806.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





