[發明專利]數據處理方法及裝置在審
| 申請號: | 202010637851.2 | 申請日: | 2020-07-01 |
| 公開(公告)號: | CN111783999A | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 徐兵;羅剛;傅雨梅 | 申請(專利權)人: | 北京知因智慧科技有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 張萌 |
| 地址: | 100000 北京市西城區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 | ||
本發明提供了一種數據處理方法及裝置,涉及大數據技術領域,獲取用于訓練預測模型的目標數據樣本,目標數據樣本包括目標變量和多個特征變量;分別對目標數據樣本中多個特征變量對應的數據進行統計,得到多個特征變量中每個特征變量的數據指標;對多個特征變量的數據指標進行分析,確定多個特征變量中與目標變量相關的特征變量。本發明對數據樣本進行分析,探查與目標變量相關的特征變量,以便在訓練預測模型時選擇對目標變量有用的特征變量,提高模型的預測能力。
技術領域
本發明涉及大數據技術領域,尤其是涉及一種數據處理方法及裝置。
背景技術
隨著計算機科學和大數據時代的迅速發展,大數據分析在各行各業的重要性越來越凸顯。在信息化時代,有效挖掘數據中的信息并及時在實際中應用,從而對大數據進行處理是各個企業的關鍵需求。
目前,通常采用機器學習模型對數據進行處理,而機器學習模型在使用之前需要通過數據樣本進行訓練。由于將數據樣本最原始的數據信息輸入模型進行訓練,使得訓練得到的模型預測能力不強。
發明內容
本發明的目的在于提供一種數據處理方法及裝置,以緩解由于將數據樣本最原始的數據信息輸入模型進行訓練,使得訓練得到的模型預測能力不強的技術問題。
第一方面,本發明實施例提供一種數據處理方法,所述方法包括:
獲取用于訓練預測模型的目標數據樣本,所述目標數據樣本包括目標變量和多個特征變量;
分別對所述目標數據樣本中多個所述特征變量對應的數據進行統計,得到多個所述特征變量中每個特征變量的數據指標;
對多個所述特征變量的數據指標進行分析,確定多個所述特征變量中與所述目標變量相關的特征變量。
在可選的實施方式中,所述特征變量包括數值型變量和分類型變量,所述對多個所述特征變量的數據指標進行分析,確定多個所述特征變量中與所述目標變量相關的特征變量的步驟,包括:
對所述數值型變量的數據指標進行分析,確定單個所述數值型變量與所述目標變量的關系;
對所述分類型變量的數據指標進行分析,確定單個所述分類型變量與所述目標變量的關系。
在可選的實施方式中,所述對多個所述特征變量的數據指標進行分析,確定多個所述特征變量中與所述目標變量相關的特征變量的步驟,包括:
基于重要性評價指標,根據多個所述特征變量的數據指標確定多個所述特征變量中的重要特征變量,將所述重要特征變量作為與所述目標變量相關的特征變量;
其中,所述重要性評價指標包括信息增益、信息增益比、基尼不純系數、特征權重在分類中的占比、卡方檢驗和相關性快速過濾特征選擇中的一種或多種。
在可選的實施方式中,所述對多個所述特征變量的數據指標進行分析,確定多個所述特征變量中與所述目標變量相關的特征變量的步驟,包括:
對多個所述特征變量中的每兩個特征變量的數據指標進行組合分析,得到目標組合特征變量;
從所述目標組合特征變量中確定與所述目標變量相關的組合特征變量。
在可選的實施方式中,所述方法還包括:
分別對多個所述特征變量的統計指標進行異常值檢測,得到異常數據。
在可選的實施方式中,所述方法還包括:
根據多個所述特征變量的數據指標計算所述特征變量之間的線性相關關系,得到具有線性相關關系的目標特征變量。
在可選的實施方式中,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京知因智慧科技有限公司,未經北京知因智慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202010637851.2/2.html,轉載請聲明來源鉆瓜專利網。





