[發(fā)明專利]基于融合Boost模型的不平衡數(shù)據(jù)采樣方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710781806.2 | 申請(qǐng)日: | 2017-09-02 |
| 公開(公告)號(hào): | CN107609074A | 公開(公告)日: | 2018-01-19 |
| 發(fā)明(設(shè)計(jì))人: | 宋彬;王丹;陳思佳 | 申請(qǐng)(專利權(quán))人: | 西安電子科技大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 陜西電子工業(yè)專利中心61205 | 代理人: | 田文英,王品華 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 融合 boost 模型 不平衡 數(shù)據(jù) 采樣 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,更進(jìn)一步涉及非平衡數(shù)據(jù)采樣技術(shù)領(lǐng)域中的一種融合集成模型的不平衡數(shù)據(jù)采樣方法。本發(fā)明針對(duì)不平衡數(shù)據(jù)樣本集Germam數(shù)據(jù)集,進(jìn)行融合Boost模型的自適應(yīng)采樣,實(shí)現(xiàn)大數(shù)據(jù)領(lǐng)域中對(duì)不平衡數(shù)據(jù)的處理,新生成平衡的數(shù)據(jù)樣本集。
背景技術(shù)
隨著現(xiàn)代信息技術(shù)的飛速發(fā)展,功能強(qiáng)大的計(jì)算機(jī)、數(shù)據(jù)收集設(shè)備和存儲(chǔ)設(shè)備為人們進(jìn)行事務(wù)管理、信息檢索和數(shù)據(jù)分析提供了大量的數(shù)據(jù)信息。盡管獲得的數(shù)據(jù)量特別大,但是有用的數(shù)據(jù)僅占全部數(shù)據(jù)的一小部分。某類樣本數(shù)據(jù)數(shù)量明顯少于其他類樣本的數(shù)據(jù)集被稱作不平衡數(shù)據(jù)集,不平衡數(shù)據(jù)集在研究與實(shí)際工作中往往難以避免。由于不平衡數(shù)據(jù)的類別樣本比例懸殊性,高維度數(shù)據(jù)的畸變性,導(dǎo)致了可用類別的信息在樣本結(jié)構(gòu)和特征維度兩個(gè)層面被大類別信息掩蓋,使得之后的數(shù)據(jù)挖掘往往難以學(xué)習(xí)到目標(biāo)信息。不平衡數(shù)據(jù)集的分類問題越來越受到數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)研究領(lǐng)域的關(guān)注。
天津大學(xué)在其申請(qǐng)的專利文獻(xiàn)“一種基于自適應(yīng)升采樣的不平衡數(shù)據(jù)集分類方法”(專利申請(qǐng)?zhí)枺?01610331709.9,公開號(hào):CN105975992A)中提出一種基于自適應(yīng)升采樣的不平衡數(shù)據(jù)集分類方法。該方法包括計(jì)算不平衡數(shù)據(jù)集的不平衡率和需要新生成的正樣本數(shù),將新生成的正樣本點(diǎn)加入到原有的不平衡訓(xùn)練集中,使正負(fù)樣本數(shù)目相同,對(duì)新生成的平衡訓(xùn)練集運(yùn)用Adaboost算法進(jìn)行訓(xùn)練,迭代T次后得到最終的分類模型。該方法存在的不足之處是,容易將少數(shù)類樣本錯(cuò)分為多數(shù)類,對(duì)少數(shù)類的分類精度較低,特異性較差。
李克文、楊磊在其發(fā)表的論文“基于RSBoost算法的不平衡數(shù)據(jù)分類方法”(計(jì)算機(jī)科學(xué),2015,TP181)中提出了一種基于RSBoost模型的不平衡數(shù)據(jù)分類方法。該方法將SMOTE采樣和Boost模型相結(jié)合進(jìn)行不平衡數(shù)據(jù)集分類,首先使用SMOTE模型增加少數(shù)類的數(shù)量,在保持?jǐn)?shù)據(jù)分布均勻的情況下對(duì)整數(shù)數(shù)據(jù)集進(jìn)行隨機(jī)欠采樣,再與Adaboost模型相結(jié)合對(duì)數(shù)據(jù)進(jìn)行分類,將采樣和分類作為串行的步驟,用SMOTE模型增加少數(shù)類的數(shù)量,再隨機(jī)采樣減少數(shù)據(jù)集的規(guī)模,在增加模型識(shí)別精度的同時(shí)保證模型訓(xùn)練速度。但是,該方法仍然存在的不足之處是,此方法只是SMOTE模型和Boost模型的拼接,沒有從根本上解決不平衡數(shù)據(jù)采樣中存在的盲目性和重復(fù)性問題。
胡小生,溫菊屏在其發(fā)表的論文“動(dòng)態(tài)平衡采樣的不平衡數(shù)據(jù)集成分類方法”(智能系統(tǒng)學(xué)報(bào),2016,TP181)中提出了一種動(dòng)態(tài)平衡采樣的不平衡數(shù)據(jù)集成分類方法。該方法將動(dòng)態(tài)平衡數(shù)據(jù)采樣與Boosting模型相結(jié)合的不平衡數(shù)據(jù)集成分類方法,將SMOTE模型嵌入到Boosting模型學(xué)習(xí)的每一次迭代中,然后進(jìn)行相應(yīng)子模型的訓(xùn)練,最后將所有子模型組合投票進(jìn)行。實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)⒉蓸尤诤系侥P陀?xùn)練中,提高了模型的分類準(zhǔn)確度。但是,該方法仍然存在的不足之處是,并沒有涉及到對(duì)于采樣技術(shù)的優(yōu)化,生成的數(shù)據(jù)往往難以契合之后的識(shí)別要求,需要反復(fù)的隨機(jī)測試,其得到的實(shí)際效果并沒有提高很多。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)上述現(xiàn)有技術(shù)存在的不足,提出了一種基于融合Boost模型的不平衡數(shù)據(jù)采樣方法。本發(fā)明與現(xiàn)有技術(shù)中其他對(duì)不平衡數(shù)據(jù)的分類和生成技術(shù)相比強(qiáng)化了數(shù)據(jù)生成的準(zhǔn)確度以及適應(yīng)性,提升了平衡化后數(shù)據(jù)的性能。
本發(fā)明實(shí)現(xiàn)的具體步驟包括如下:
(1)生成訓(xùn)練樣本集;
(2)訓(xùn)練提升Boost模型:
采用提升Boost模型訓(xùn)練方法,訓(xùn)練提升Boost模型,得到訓(xùn)練好的提升Boost模型;
(3)定義pure1、danger1、noise1數(shù)據(jù)集;
(4)獲取訓(xùn)練樣本集的樣本點(diǎn)在加權(quán)特征空間的位置關(guān)系:
(4a)將訓(xùn)練樣本集按特征類型歸一化;
(4b)采用更新特征權(quán)重值與提升Boost模型的F-score評(píng)分結(jié)合的方法,得到訓(xùn)練樣本集的新特征權(quán)重值;
(4c)計(jì)算訓(xùn)練樣本集的樣本點(diǎn)在加權(quán)特征空間的位置關(guān)系;
(5)定義danger2、pure2、noise2數(shù)據(jù)集;
(6)融合數(shù)據(jù)集:
將pure1數(shù)據(jù)集和pure2數(shù)據(jù)集融合為pure融合集,將danger1數(shù)據(jù)集和danger2數(shù)據(jù)集融合為danger融合集,將noise1數(shù)據(jù)集和noise2數(shù)據(jù)集融合為noise融合集;
(7)合成新樣本點(diǎn):
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學(xué),未經(jīng)西安電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201710781806.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 并聯(lián)雙Boost變換器的均流控制系統(tǒng)
- 一種單開關(guān)管雙Buck-Boost電路級(jí)聯(lián)的LED驅(qū)動(dòng)電源
- 蓄電池回饋放大儀交錯(cuò)并聯(lián)升壓系統(tǒng)
- 蓄電池回饋放大儀交錯(cuò)并聯(lián)升壓系統(tǒng)
- 一種6路交錯(cuò)并聯(lián)型Boost PFC電路
- 一種交錯(cuò)式BOOST開環(huán)全橋電源拓?fù)浣Y(jié)構(gòu)
- 一種BOOST保護(hù)及負(fù)載檢測電路
- 一種Boost電容電壓檢測電路
- 一種Boost變換器及其控制方法、開關(guān)電源
- 一種升壓變換器及升壓系統(tǒng)





