[發明專利]一種處理多類型數據的方法及系統在審
| 申請號: | 202011294673.4 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112328844A | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 佘璇;段少毅 | 申請(專利權)人: | 恩億科(北京)數據科技有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F16/906;G06K9/62 |
| 代理公司: | 青島清泰聯信知識產權代理有限公司 37256 | 代理人: | 趙燕 |
| 地址: | 100192 北京市海淀區西小口路66*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 處理 類型 數據 方法 系統 | ||
本申請公開了一種處理多類型數據的方法及系統,所述方法包括:對數據進行預處理,獲取訓練數據;基于DeepFM模型進行改進,獲取多類型數據處理模型;將所述訓練數據輸入到所述多類型數據處理模型進行模型訓練,獲取最優的所述多類型數據處理模型;通過最優的所述多類型數據處理模型對數據進行處理。基于本申請,能夠對不同類型不同維度數據進行有效處理,從而更充分有效地利用數據來學習模型。
技術領域
本發明涉及計算機技術領域。更具體的說,本發明涉及一種處理多類型數據的方法及系統。
背景技術
隨著互聯網技術的發展,公司往往能收集到越來越多的用戶數據,這些數據通常包含多種類型,如數值、字符和數組類型等,利用這些數據可以對用戶一些商業相關行為偏好進行建模預測。而使用何種模型充分有效的利用這些數據來進行建模則是至關重要的一步。
目前常用的模型主要有邏輯回歸模型、DeepFM模型以及Din模型。邏輯回歸模型是應用最廣泛的一個模型,在使用邏輯回歸時,先對特征進行one-hot編碼(獨熱編碼),然后輸入邏輯回歸模型;DeepFM模型最初提出是用于解決CTR(點擊率)預測的問題,但是其也可以用于其他分類任務,DeepFM模型解決了邏輯回歸中無法學習到特征組合的問題,且其不僅能學習到低階特征組合,還能學習到高階特征組合;Din模型也是最初提出用于解決CTR(點擊率)預測的模型,相較于DeepFM其引入了一個注意力機制用來處理數組模型,從而給與數組特征中的每一個特征賦予不同的權重。
然而上述模型處理數據時仍存在以下問題:
1、邏輯回歸模型由于其模型簡單,相當于一個單層的神經網絡,而且無法直接學習到特征組合,需要人為組合特征,因此其擬合能力也較差,經常作為各種分類任務的基準模型;
2、DeepFM模型無法處理序列類型特征,一個解決方法是對網絡進行改造,對于數組類型特征,將此數組類的所有特征Embedding(嵌入)向量求平均或求和,以表示此數組類型特征。但是此種方法將一個數組類的特征看作同等重要,而對于某個用戶某個目標任務來說,可能某些特征更為重要。此外,在DeepFM模型中,所有特征均直接使用相同維度的Embedding向量表示,而所有原始特征的維度常常是不同的,這會導致某些簡單特征過擬合而某些復雜特征表示欠擬合;
3、如圖1所示為Din模型網絡結構圖,Din模型通過外部候選廣告來提供注意力,網絡學習到用戶瀏覽過的哪個物品信息對于當前候選廣告來說更為重要,從而賦予更高的權重,但是這種注意力獲取方法極大的限制了其應用范圍,很多任務沒有用來提供注意力的候選廣告。此外,相較于DeepFM模型,Din模型未能學習到模型的低階特征組合,這將影響到模型的效果。
發明內容
本申請實施例提供了一種處理多類型數據的方法,以至少解決相關技術中主觀因素影響的問題。
本發明提供了一種處理多類型數據的方法,所述方法包括以下步驟:
數據獲取步驟:對數據進行預處理,獲取訓練數據;
模型改進步驟:基于DeepFM模型進行改進,獲取多類型數據處理模型;
模型訓練步驟:將所述訓練數據輸入到所述多類型數據處理模型進行模型訓練,獲取最優的所述多類型數據處理模型;
處理步驟:通過最優的所述多類型數據處理模型對數據進行處理。
作為本發明的進一步改進,所述模型訓練步驟具體包括以下步驟:
特征提取步驟:提取所述訓練數據的稀疏特征;
特征嵌入步驟:根據所述稀疏特征的維度將其自動嵌入到相適應維度向量,獲取所述稀疏特征的特征嵌入向量;
特征表示步驟:根據所述特征嵌入向量分別獲取低階特征表示和高階特征表示;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于恩億科(北京)數據科技有限公司,未經恩億科(北京)數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202011294673.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:背照式圖像傳感器及其制備方法
- 下一篇:一種腹肌鍛煉裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





