[發(fā)明專利]一種基于最近鄰KNN算法的缺失數(shù)據(jù)填補(bǔ)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710267672.2 | 申請(qǐng)日: | 2017-04-21 |
| 公開(kāi)(公告)號(hào): | CN107193876B | 公開(kāi)(公告)日: | 2020-10-09 |
| 發(fā)明(設(shè)計(jì))人: | 程宏亮;劉宏;白朝旭;饒思維;張建 | 申請(qǐng)(專利權(quán))人: | 美林?jǐn)?shù)據(jù)技術(shù)股份有限公司 |
| 主分類號(hào): | G06F16/215 | 分類號(hào): | G06F16/215;G06F16/23 |
| 代理公司: | 西安毅聯(lián)專利代理有限公司 61225 | 代理人: | 楊燕珠 |
| 地址: | 710000 陜西省西安市高*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 近鄰 knn 算法 缺失 數(shù)據(jù) 填補(bǔ) 方法 | ||
本發(fā)明公開(kāi)了一種基于最近鄰KNN算法的缺失數(shù)據(jù)填補(bǔ)方法,包括:自動(dòng)識(shí)別數(shù)據(jù)集中的存在缺失值的特征屬性;遍歷存在缺失值的特征屬性利用近鄰KNN算法逐步填充缺失值;在對(duì)每一個(gè)特征屬性進(jìn)行缺失值填充過(guò)程中,迭代KNN算法參數(shù)k,獲得不同參數(shù)配置的KNN模型簇;根據(jù)優(yōu)化目標(biāo)函數(shù)遴選最優(yōu)模型,并利用該模型對(duì)缺失數(shù)據(jù)進(jìn)行缺失值填充。由于算法參數(shù)k對(duì)KNN算法影響較大,在此,我們采用尋優(yōu)的策略運(yùn)用到缺失值填充模型的建模中,可以很大程度提高模型的精度,填充數(shù)據(jù)的質(zhì)量相應(yīng)有了很大程度的提高。
技術(shù)領(lǐng)域
本發(fā)明涉及企業(yè)數(shù)據(jù)治理領(lǐng)域,更具體的說(shuō),是一種基于最近鄰KNN算法的缺失數(shù)據(jù)填補(bǔ)方法,涉及企業(yè)級(jí)數(shù)據(jù)治理體系下的缺失數(shù)據(jù)。
背景技術(shù)
數(shù)據(jù)治理是指從使用零散數(shù)據(jù)變?yōu)槭褂媒y(tǒng)一主數(shù)據(jù)、從具有很少或沒(méi)有組織和流程治理到企業(yè)范圍內(nèi)的綜合數(shù)據(jù)治理的過(guò)程。企業(yè)數(shù)據(jù)治理以提升企業(yè)數(shù)據(jù)質(zhì)量為目的,通過(guò)制定相關(guān)的流程、政策、標(biāo)準(zhǔn)以及相關(guān)技術(shù)手段,用以保障企業(yè)數(shù)據(jù)信息的完整性、及時(shí)性、準(zhǔn)確性、一致性和安全性。
而現(xiàn)實(shí)世界中的數(shù)據(jù)是錯(cuò)綜復(fù)雜的,它們不可避免的存在數(shù)據(jù)缺失問(wèn)題。數(shù)據(jù)缺失是企業(yè)數(shù)據(jù)信息的完整性存在的最大問(wèn)題,也受到企業(yè)數(shù)據(jù)信息管理的極大重視,缺失數(shù)據(jù)智能填補(bǔ)方法能夠很好的解決企業(yè)數(shù)據(jù)信息管理中缺失數(shù)據(jù)的問(wèn)題,保障企業(yè)數(shù)據(jù)信息的完整性。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于最近鄰KNN算法的缺失數(shù)據(jù)填補(bǔ)方法,涉及企業(yè)級(jí)數(shù)據(jù)治理體系下的缺失數(shù)據(jù),以解決企業(yè)結(jié)構(gòu)化數(shù)據(jù)存在大量缺失值數(shù)據(jù)的問(wèn)題,保障企業(yè)數(shù)據(jù)信息的完整性。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種基于最近鄰KNN算法的缺失數(shù)據(jù)填補(bǔ)方法,包括以下步驟:
步驟一、檢驗(yàn)數(shù)據(jù)集,若數(shù)據(jù)集存在缺失值,自動(dòng)獲取存在缺失值的屬性列集合以及對(duì)應(yīng)的數(shù)據(jù)類型;
步驟二、對(duì)步驟一中的數(shù)據(jù)集進(jìn)行預(yù)處理操作以滿足KNN模型支持的數(shù)據(jù)格式后,構(gòu)建訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集;
步驟三、根據(jù)訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集構(gòu)建KNN模型;
步驟四、基于驗(yàn)證數(shù)據(jù)集和模型優(yōu)化目標(biāo)函數(shù)篩選最優(yōu)KNN模型;
步驟五、基于最優(yōu)KNN模型完成缺失值數(shù)據(jù)的預(yù)測(cè)和智能填充。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,所述步驟二中預(yù)處理之后的數(shù)據(jù)進(jìn)行篩選,針對(duì)步驟二中的數(shù)據(jù)集中的名詞型屬性列,對(duì)其做名詞數(shù)據(jù)標(biāo)簽化處理,對(duì)于數(shù)據(jù)集中的數(shù)值型屬性列,對(duì)其做數(shù)據(jù)歸一化或標(biāo)準(zhǔn)化處理。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,判斷所述步驟一中缺失值數(shù)據(jù)集量,若無(wú)缺失值數(shù)據(jù)集數(shù)據(jù)量不大,則對(duì)步驟二中預(yù)處理之后的數(shù)據(jù)集隨機(jī)拆分訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集;
若無(wú)缺失值數(shù)據(jù)集數(shù)據(jù)量較大,則對(duì)步驟二中預(yù)處理之后的數(shù)據(jù)集進(jìn)行隨機(jī)抽樣或系統(tǒng)抽樣的形式構(gòu)建訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,保留步驟二中數(shù)據(jù)預(yù)處理之前的相關(guān)數(shù)據(jù)以供步驟五使用。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,利用訓(xùn)練數(shù)據(jù)集和不同KNN模型參數(shù)建模得到KNN模型簇包括:
基于訓(xùn)練數(shù)據(jù)集對(duì)缺失值智能填補(bǔ)建模,如果屬性列的數(shù)據(jù)類型為數(shù)值型數(shù)據(jù),設(shè)定KNN模型參數(shù)k(近鄰個(gè)數(shù))的區(qū)間為[4,6],如果屬性列cj的數(shù)據(jù)類型為名詞型數(shù)據(jù),設(shè)定缺失值屬性列名詞類別個(gè)數(shù)為p,由此設(shè)定k的區(qū)間為[p,p+2],基于訓(xùn)練數(shù)據(jù)集Δ和不同的KNN模型參數(shù)k構(gòu)建KNN模型簇Λ=[M1,M2,...MT]。
在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,步驟四中篩選最優(yōu)KNN模型,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于美林?jǐn)?shù)據(jù)技術(shù)股份有限公司,未經(jīng)美林?jǐn)?shù)據(jù)技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201710267672.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于混合粒度分布式內(nèi)存網(wǎng)格索引的KNN查詢方法
- 一種基于最近鄰KNN算法的缺失數(shù)據(jù)填補(bǔ)方法
- 一種基于Hadoop平臺(tái)的改進(jìn)并行KNN網(wǎng)絡(luò)輿情分類算法
- 一種基于KNN的村莊用地復(fù)墾規(guī)劃模擬方法
- 一種基于AdaBoost-KNN的動(dòng)態(tài)人臉情感識(shí)別方法
- 一種海洋數(shù)據(jù)回歸模型獲得方法及裝置
- 一種按需快速構(gòu)建超表面的機(jī)器學(xué)習(xí)方法
- 一種基于VMD和樣本熵的電磁式電流互感器故障診斷方法
- 一種車用KNN基無(wú)鉛壓電陶瓷爆震傳感器的子組件
- 一種鈮酸鉀鈉無(wú)鉛壓電陶瓷與銀電極的低溫共燒方法





