[發明專利]一種基于有向鄰域距離的數據清洗方法在審
| 申請號: | 202011166897.7 | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN112307000A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 梁少軍 | 申請(專利權)人: | 中國人民解放軍陸軍工程大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/28 |
| 代理公司: | 武漢宇晨專利事務所 42001 | 代理人: | 李鵬;王敏鋒 |
| 地址: | 430075 *** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 鄰域 距離 數據 清洗 方法 | ||
本發明公開了一種基于有向鄰域距離的數據清洗方法,獲取添加噪聲的原始數據矩陣;計算歐式距離矩陣;計算共享近鄰距離矩陣;剔除離群樣本;構建基于有向鄰域距離的密度縮放矩陣;使用密度縮放矩陣對歐式距離矩陣進行縮放,得到有向鄰域距離矩陣;本發明適用于變密度數據的離群數據剔除,可逆向消減噪聲對數據影響,能有效提高后續聚類、模式識別、流形降維算法的準確度。
技術領域
本方法屬于數據挖掘領域,具體涉及一種基于有向鄰域距離的數據清洗方法。
背景技術
隨著信息技術的飛速發展,數據產生與獲取方式的渠道增多,數據樣式呈現多樣化,如音視頻數據、圖像數據、文本數據等。對數據進行有用信息挖掘是分析數據的前提和必要手段。數據清洗是數據挖掘的首要工作,主要目的是剔除離群數據和對數據均值、方差、幅度等的調整。常用的剔除離群數據方法有局部離群因子(LOF)檢測,箱線圖法,格拉布斯檢驗法,聚類法,基于數據方差(協方差)分布法等,常用的數據調整方法有歸一化、標準化、邏輯回歸、線性縮放等方法。隨著需求的變化和研究的深入,一些新的數據清洗方法被提出,例如基于滑動窗的數據分批處理方法,非線性映射方法等。
但在實際應用中,實測數據的密度有可能并不均勻,現有大部分離群數據剔除算法并不能很好適用于變密度數據。現實環境的噪聲會引起數據偏移,導致后續數據分析算法效果降低。總結來說,數據清洗算法有以下困境:(1)較難適用于變密度數據,尤其是難以從變密度數據中識別離群數據;(2)現有方法大多追求算法對噪聲的魯棒性、適應性,缺乏主動有效的消減噪聲影響的方法。
發明內容
本發明所要解決的技術問題是克服現有技術的缺陷,提供一種基于有向鄰域距離的數據清洗方法,本發明在深入分析數據間共享近鄰關系基礎上,將數據間絕對距離計算方式替換為相對距離,能適用于變密度數據的離群數據剔除,可逆向消減噪聲對數據影響,能有效提高后續聚類、模式識別、流形降維算法的準確度。
為了解決上述技術問題,本發明所采用的技術方案是:
一種基于有向鄰域距離的數據清洗方法,包括以下步驟:
步驟1、獲取添加噪聲的原始數據矩陣X;
步驟2、基于傳統歐式距離計算原始數據矩陣X中兩兩樣本之間距離,得到歐式距離矩陣D;
步驟3、基于歐式距離矩陣D篩選每個樣本的k個最近鄰樣本構成樣本對應的近鄰樣本集合,所有樣本的共享近鄰距離構成共享近鄰距離矩陣SNN;
步驟4、標記離群樣本,將離群樣本從原始數據矩陣X中剔除后獲得數據矩陣記數據矩陣對應的歐式距離矩陣為
步驟5、構建基于有向鄰域距離的密度縮放矩陣;
步驟6、使用密度縮放矩陣DM對數據矩陣的樣本間的歐式距離矩陣進行縮放,得到有向鄰域距離矩陣OD;
步驟7,使用有向鄰域距離矩陣OD取代歐式距離矩陣基于等距映射算法對數據矩陣進行降維處理。
如上所述的步驟4中,標記離群樣本包括以下步驟:
步驟4.1,按照下式計算樣本xi與近鄰樣本集合k(xi)中的樣本的共享近鄰距離均值
其中,i和p均為樣本的序號,SNNi,p表示樣本xi與樣本xp的共享近鄰距離,p∈{1~k};
步驟4.2,遍歷原始數據矩陣X中所有樣本,按照步驟4.1方法求取所有樣本的共享近鄰距離均值,如果某樣本的共享近鄰距離均值為0,則將該樣本標記為離群樣本,將其他樣本的共享近鄰距離均值構成的集合標記為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍陸軍工程大學,未經中國人民解放軍陸軍工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202011166897.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自適應炮管口徑的電動擦膛裝置
- 下一篇:一種平衡治具及固定裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





