[發(fā)明專利]一種基于完備相容類的云平臺不完備大數(shù)據(jù)填補方法有效
| 申請?zhí)枺?/td> | 201510051653.7 | 申請日: | 2015-01-30 |
| 公開(公告)號: | CN104598618B | 公開(公告)日: | 2018-03-27 |
| 發(fā)明(設(shè)計)人: | 袁景凌;楊光;鐘珞;陳旻騁 | 申請(專利權(quán))人: | 武漢理工大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢開元知識產(chǎn)權(quán)代理有限公司42104 | 代理人: | 潘杰 |
| 地址: | 430070 湖北省*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 完備 相容 平臺 數(shù)據(jù) 填補 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及不完備信息處理和大數(shù)據(jù)處理領(lǐng)域,具體是指一種基于完備相容類的云平臺不完備大數(shù)據(jù)填補方法。
背景技術(shù)
不完備信息處理是指根據(jù)一定的策略和方法,處理不完備信息系統(tǒng)中屬性缺失的數(shù)據(jù)信息,從而讓不完備數(shù)據(jù)發(fā)揮與完備數(shù)據(jù)相同的價值。隨著信息技術(shù)的不斷發(fā)展,數(shù)據(jù)呈爆發(fā)式增長。大數(shù)據(jù)成為各行各業(yè)日益關(guān)注的對象。大數(shù)據(jù)不僅具有數(shù)據(jù)量大,數(shù)據(jù)多樣化,數(shù)據(jù)變化快和數(shù)據(jù)價值大的4V特性,而且大數(shù)據(jù)往往是不完備的。不完備信息的處理,特別是不完備大數(shù)據(jù)的處理具有十分重大的意義。
目前處理不完備數(shù)據(jù)的方法主要是數(shù)據(jù)填補和模型擴充,數(shù)據(jù)填補具有更為廣泛的適應(yīng)范圍,填補后的數(shù)據(jù)可以直接作為完備數(shù)據(jù)進行應(yīng)用。目前的不完備數(shù)據(jù)填補大多是依據(jù)粗糙集中的相容塊和極大相容塊填補缺失屬性值。但是相容塊和極大相容塊的求取本身是十分耗時的過程,而且無法有效處理空值過多的不完備數(shù)據(jù)集,填補記錄的過程也十分低效。
為了解決這個問題,需要研究怎樣有效利用完備信息,發(fā)現(xiàn)完備信息與不完備信息的聯(lián)系;并且高效的計算需要填補的值,以及高效的填補缺失數(shù)據(jù)。云計算是一種有效的手段。云計算是指利用云平臺的并行化有效,采用分布式并行系統(tǒng)處理問題。在云平臺結(jié)合大數(shù)據(jù)分析,是云計算的一種實際運用。根據(jù)大數(shù)據(jù)的完備信息,劃分數(shù)據(jù)集為完備相容類,能夠高效計算填補值,并行填補不完備數(shù)據(jù),以滿足填補不完備大數(shù)據(jù)的信息需求。如何將上述技術(shù)應(yīng)用于不完備數(shù)據(jù)的填補,是一個亟待研究的課題。
發(fā)明內(nèi)容:
本發(fā)明的目的是為了解決上述背景技術(shù)存在的不足,提出一種基于完備相容類的云平臺不完備大數(shù)據(jù)填補方法,提高不完備數(shù)據(jù)填補的效率,有效填補缺失值過多的不完備大數(shù)據(jù)。
為了實現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案為:
一種基于完備相容類的云平臺不完備大數(shù)據(jù)填補方法,該方法包括如下步驟:步驟一,掃描待處理的大數(shù)據(jù),生成以缺失屬性序列為關(guān)鍵字的倒排索引;步驟二,依據(jù)倒排索引將待處理的大數(shù)據(jù)中的不完備數(shù)據(jù)劃分為若干相容類;步驟三,對待處理的大數(shù)據(jù)中完備數(shù)據(jù)進行映射端連接操作,得到映射端輸出中間結(jié)果,結(jié)合步驟二所得的若干相容類將待處理的大數(shù)據(jù)劃分為若干完備相容類;步驟四,依次讀取各個完備相容類中對于缺失屬性序列的頻繁項集,從頻繁項集中生成對缺失屬性序列的值覆蓋,用值覆蓋填補該完備相容類中的不完備數(shù)據(jù)。
較佳地,步驟二是依據(jù)缺失屬性序列的倒排索引,比較缺失屬性相同的不完備數(shù)據(jù)記錄;將除缺失屬性外剩余屬性值相同的記錄劃分到同一相容類。
較佳地,步驟三具體包括以下步驟:31)對待處理的大數(shù)據(jù)中完備數(shù)據(jù)進行映射端連接操作,得到映射端輸出中間結(jié)果;32)讀取映射端輸出中間結(jié)果與步驟二所得相容類中不完備數(shù)據(jù)具有相容關(guān)系的完備數(shù)據(jù);33)將步驟32)所得的完備數(shù)據(jù)與步驟二所得的相容類組合成為若干完備相容類。
較佳地,每個完備相容類包括具有相容關(guān)系的不完備數(shù)據(jù)記錄和用于獲取填補值的完備數(shù)據(jù)。
較佳地,完備相容類具有類標簽,類標簽包括缺失屬性序列及除缺失屬性序列之外剩余屬性值。
較佳地,步驟四是依次對步驟三所得各完備相容類做如下操作:41)讀取完備相容類在缺失屬性序列中的屬性值,從所有屬性值中挖掘頻繁項集;42)從頻繁項集中生成對缺失屬性序列的值覆蓋;43)用值覆蓋填補完備相容類中的缺失數(shù)據(jù);44)若缺失屬性序列未填補完畢,則從填補后的完備相容類中剩余的缺失屬性序列中繼續(xù)挖掘頻繁項集,然后回到步驟42);若缺失屬性序列均已填補完畢則退出。
較佳地,步驟41)是采用頻繁模式增長方法FP-growth從所有屬性值中挖掘頻繁項集。
較佳地,步驟42)從頻繁項集中生成對缺失屬性序列的值覆蓋時,優(yōu)先選擇包含屬性序列個數(shù)最多的頻繁項。
較佳地,生成對缺失屬性序列的值覆蓋時,若存在多個頻繁項所包含的屬性序列個數(shù)相同,則從中選擇出現(xiàn)頻度最大的頻繁項。
較佳地,用所述值覆蓋填補完備相容類中的缺失數(shù)據(jù)時采用并行填補方式。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢理工大學(xué),未經(jīng)武漢理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201510051653.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種信息傳遞方法、媒體網(wǎng)關(guān)控制器及通信系統(tǒng)
- 一種衛(wèi)星導(dǎo)航系統(tǒng)非完備條件下的定位方法
- 用于并行成像應(yīng)用的多階段磁共振重建
- 一種基于范式轉(zhuǎn)換的不完備系統(tǒng)知識庫生成方法
- 一種基于完備相容類的云平臺不完備大數(shù)據(jù)填補方法
- 基于通信拓撲完備矩陣的主動配電網(wǎng)分布式協(xié)同交互方法
- 分析提取近紅外小分子痕量氣體特征含量的方法和分析儀
- 一種基于對比完備與不完備信息的系統(tǒng)功能結(jié)構(gòu)分析方法
- 一種模糊推理系統(tǒng)的完備決策生成方法
- 基于數(shù)字孿生和AR的物料完備性智能檢測與配置方法





