[發明專利]一種帶負反饋的基于深度強化學習的推薦方法及系統有效
| 申請號: | 202010328640.0 | 申請日: | 2020-04-23 |
| 公開(公告)號: | CN111523940B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 李玉華;李鑫;李瑞軒;辜希武 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06Q30/0601 | 分類號: | G06Q30/0601;G06N7/01;G06N3/0442;G06N3/045;G06N3/048;G06N3/084;G06N3/092 |
| 代理公司: | 華中科技大學專利中心 42201 | 代理人: | 李智 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 負反饋 基于 深度 強化 學習 推薦 方法 系統 | ||
本發明公開了一種帶負反饋的基于深度強化學習的推薦方法及系統,收集商品特征信息,同時收集用戶行為數據得到用戶的正負反饋行為向量;對用戶的正負反饋行為向量通過特征提取網絡模型得到用戶的正負反饋特征混合狀態向量;利用用戶的正負反饋特征混合狀態向量對由策略網絡和估值網絡組成的深度確定性策略梯度模型進行訓練,直至模型收斂;根據需要進行推薦工作的用戶的歷史行為,先生成正負反饋特征混合狀態向量,通過完成訓練的深度確定性策略梯度模型生成用戶推薦商品列表供給用戶進行選擇,完成用戶推薦工作。本申請可以使得相關神經網絡的參數更新得到延遲,從而減小網絡之間的相關性,提升推薦方法的訓練速度和準確度。
技術領域
本發明屬于數據挖掘和推薦技術領域,更具體地,涉及一種帶負反饋的基于深度強化學習的推薦方法及系統。
背景技術
近幾年來,隨著電子商務的蓬勃發展,用戶推薦領域的技術也是飛速發展,如基于協同過濾、機器學習、以及深度學習等各類技術都被應用于推薦方法當中。但傳統的推薦方法有著各式各樣的問題,如基于協同過濾的方法、基于傳統的機器學習方法,或是基于深度學習的方法,他們均具有靜態的推薦算法特點,即無法對用戶動態表現做出反應,且大多數方法遵循類似于貪心的固定算法來進行推薦,這會將使得他們過分注重要求短期的獎勵最大化,并且是以用戶最終訂單為目的,從而完全忽略了推薦用戶可能會喜歡或者更適合用戶的長期的產品,即只能局部最優而無法做到全局最優。而基于傳統的強化學習算法,如基于價值的強化學習方法,在面臨大規模狀態維度和大規模行為維度的任務時,會出現需要維護更新一張過大的Q值表而導致內存和時間開銷過大的問題。而基于策略的強化學習方法也會面臨著回合更新,導致學習速率過慢的問題。
此外當前大多數商品推薦算法都過多關專注于如購買或添加到購物車等用戶的正反饋信息,這樣往往忽略了實際過程中如瀏覽商品這種數據量更大的負反饋信息。在實際中正反饋信息數據量的往往是稀疏的,這樣會導致推薦模型的訓練不充分,進而導致推薦算法的準確度無法提高等問題。
現有的解決方案主要是將深度學習融入到強化學習。由此產生了深度強化學習模型,相較于傳統的深度學習算法,深度強化學習算法將推薦過程中用戶與推薦系統的序列化的交互行為視為一個馬爾科夫的動態過程,過程滿足馬爾科夫性,并利用強化學習的特性,通過推薦產品并由此接受用戶的反饋來動態的學習最優的策略,從而實現對用戶的動態行為的學習,避免局部最優的情況發生。同時相較于傳統的強化學習,深度強化學習則同時可以通過包含神經網絡的特性,可以直接使用狀態價值函數計算出Q值,從而省去維護龐大Q值表的開銷,提高了算法的運算速度。
發明內容
針對現有技術的以上缺陷或改進需求,本發明提供了一種帶負反饋的基于深度強化學習的推薦方法及系統,旨在解決現有用戶推薦方法學習速率過慢、準確度低的問題。
為實現上述目的,本發明所采用的技術方案是:結合現有深度確定性策略梯度(Deep?Deterministic?Policy?Gradient,DDPG)模型,設計出一種針對真實用戶的商品推薦方法,首先使用帶門循環單元(Gated?Recurrent?Unit,GRU)網絡模型根據用戶正負反饋的歷史行為進行特征提取、處理和混合,得到用戶的正負反饋混合狀態向量,將正負反饋混合狀態向量輸入到Actor策略神經網絡模型中,根據策略函數對進行推薦的產品候選集進行閾值計算篩選,挑選出基于當前用戶正負反饋混合狀態向量的推薦行為向量,使用Critic估值神經網絡對推薦行為進行評測打分計算出狀態價值Q值,而后模型使用隨機梯度下降方式完成參數更新,使模型總體狀態價值Q值不斷增大直至收斂,從而完成推薦方法的訓練工作,最后使用完成訓練的策略網絡Actor神經網絡實現對用戶的推薦工作。
為實現上述目的,按照本發明的一方面,提供了一種帶負反饋的基于深度強化學習的推薦方法,包括如下步驟:
S1.收集商品特征信息得到商品特征向量數據集,同時收集用戶行為數據得到用戶的正負反饋行為向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202010328640.0/2.html,轉載請聲明來源鉆瓜專利網。





