[發(fā)明專利]一種參數(shù)尋優(yōu)方法及計算設(shè)備有效
| 申請?zhí)枺?/td> | 201810043729.5 | 申請日: | 2018-01-17 |
| 公開(公告)號: | CN108229572B | 公開(公告)日: | 2021-03-02 |
| 發(fā)明(設(shè)計)人: | 王志遠;陳日涵;馮博;張夏天 | 申請(專利權(quán))人: | 北京騰云天下科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京市漢坤律師事務(wù)所 11602 | 代理人: | 張濤;魏小薇 |
| 地址: | 100027 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 參數(shù) 方法 計算 設(shè)備 | ||
本發(fā)明公開了一種參數(shù)尋優(yōu)方法,在計算設(shè)備中執(zhí)行,包括:從所有參數(shù)組中選取第一數(shù)量個參數(shù)組作為候選參數(shù)組,其他未被選中的參數(shù)組記為剩余參數(shù)組;分別確定各候選參數(shù)組的評估值;在未達到預(yù)設(shè)的終止條件時,循環(huán)執(zhí)行以下步驟:對于每一個剩余參數(shù)組:分別計算該剩余參數(shù)組與每一個候選參數(shù)組之間的相似度;根據(jù)該剩余參數(shù)組與每一個候選參數(shù)組的相似度以及各候選參數(shù)組的評估值來確定該剩余參數(shù)組的預(yù)測評估值;將預(yù)測評估值最大的第二數(shù)量個剩余參數(shù)組作為候選參數(shù)組,加入候選參數(shù)組空間;分別確定新加入的第二數(shù)量個候選參數(shù)組的評估值。最后,將候選參數(shù)組空間中評估值最大的候選參數(shù)組作為目標參數(shù)組。本發(fā)明一并公開了相應(yīng)的計算設(shè)備。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及一種參數(shù)尋優(yōu)方法及計算設(shè)備。
背景技術(shù)
隨著移動互聯(lián)網(wǎng)技術(shù)的發(fā)展,移動終端已成為人們獲取信息的重要媒介,用戶對移動終端的操作可以展示出用戶的行為偏好。根據(jù)用戶的行為偏好對用戶群體進行劃分,對同一個群體中的用戶推送相似的信息,或利用相似用戶來向目標用戶推送信息(協(xié)同過濾),可以準確地向用戶推送個性化內(nèi)容、提供個性化服務(wù)。
現(xiàn)有的方案多是提取出用戶特征,并標示用戶所屬的類別標簽,將已知的用戶特征-類別標簽的對應(yīng)關(guān)系作為訓練樣本,采用機器學習算法來訓練分類器,將待測用戶的用戶特征輸入訓練好的分類器,即可輸出該待測用戶的類別標簽。但是,現(xiàn)有的機器學習算法種類繁多,各個算法又存在多個需要手動設(shè)置的超參數(shù)(超參數(shù)即需要在訓練分類器之前預(yù)先設(shè)置其值的參數(shù),例如,對于隨機森林算法,需要手動設(shè)置樹的棵數(shù)、最大深度、每棵樹的最大特征數(shù)等超參數(shù);對于GBDT算法,需要手動設(shè)置弱學習器的數(shù)量、最大深度、內(nèi)部節(jié)點再劃分所需要的最小樣本數(shù)、弱學習器的權(quán)重縮減系數(shù)等超參數(shù);……)。超參數(shù)的取值會影響分類器的分類效果,進而影響用戶分類的準確性。但是,目前超參數(shù)的設(shè)置往往依賴于工程師的經(jīng)驗,主觀性較強,使得用戶分類的準確性難以保證。此外,若拋棄工程師的主觀經(jīng)驗因素,從客觀的角度來設(shè)置合適的超參數(shù),則需要采用各種超參數(shù)組合來訓練分類器,將用戶分類效果最好的分類器所對應(yīng)的超參數(shù)組作為最優(yōu)超參數(shù)組(或稱網(wǎng)格搜索法,Grid Search)。這種方法需要消耗大量的時間,尤其是在機器學習算法的分類器的訓練本身就很慢的情況下,嘗試多種參數(shù)組合來不斷訓練分類器的時間消耗會令人難以忍受,在用戶數(shù)據(jù)不斷累積、變化的大數(shù)據(jù)背景下,這種方法也難以保證用戶分類的準確性和時效性。
發(fā)明內(nèi)容
為此,本發(fā)明提供一種參數(shù)尋優(yōu)方法及計算設(shè)備,以解決或至少緩解上面存在的問題。
根據(jù)本發(fā)明的一個方面,提供一種參數(shù)尋優(yōu)方法,在計算設(shè)備中執(zhí)行,包括:從所有參數(shù)組中選取第一數(shù)量個參數(shù)組作為候選參數(shù)組,其他未被選中的參數(shù)組記為剩余參數(shù)組,每一個所述參數(shù)組中均包括相同數(shù)量個超參數(shù),所述第一數(shù)量個候選參數(shù)組組成候選參數(shù)組空間;分別確定每一個候選參數(shù)組的評估值;在未達到預(yù)設(shè)的終止條件時,循環(huán)執(zhí)行以下步驟:對于每一個剩余參數(shù)組:分別計算該剩余參數(shù)組與每一個候選參數(shù)組之間的相似度;根據(jù)該剩余參數(shù)組與每一個候選參數(shù)組的相似度以及各候選參數(shù)組的評估值來確定該剩余參數(shù)組的預(yù)測評估值;將預(yù)測評估值最大的第二數(shù)量個剩余參數(shù)組作為候選參數(shù)組,加入候選參數(shù)組空間;分別確定新加入的第二數(shù)量個候選參數(shù)組的評估值;以及,將候選參數(shù)組空間中評估值最大的候選參數(shù)組作為目標參數(shù)組。
可選地,在根據(jù)本發(fā)明的參數(shù)尋優(yōu)方法中,從所有參數(shù)組中選取第一數(shù)量個參數(shù)組作為候選參數(shù)組的步驟包括:從所有參數(shù)組中隨機選取第一數(shù)量個參數(shù)組作為候選參數(shù)組。
可選地,在根據(jù)本發(fā)明的參數(shù)尋優(yōu)方法中,候選參數(shù)組的評估值按照以下步驟確定:在該候選參數(shù)組下,采用多個訓練樣本基于預(yù)設(shè)的機器學習算法來訓練分類器;將多個測試樣本輸入訓練好的分類器,根據(jù)分類器的輸出來確定該候選參數(shù)組的評估值。
可選地,在根據(jù)本發(fā)明的參數(shù)尋優(yōu)方法中,相似度按照以下公式計算:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京騰云天下科技有限公司,未經(jīng)北京騰云天下科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201810043729.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗設(shè)備、驗證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





