[發(fā)明專利]使用優(yōu)勢估計強(qiáng)化學(xué)習(xí)有效
| 申請?zhí)枺?/td> | 201780015574.8 | 申請日: | 2017-02-09 |
| 公開(公告)號: | CN108701251B | 公開(公告)日: | 2022-08-12 |
| 發(fā)明(設(shè)計)人: | 顧世翔;蒂莫西·保羅·利利克拉普;伊利亞·蘇特思科韋爾;謝爾蓋·弗拉迪米爾·萊文 | 申請(專利權(quán))人: | 谷歌有限責(zé)任公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 中原信達(dá)知識產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 李佳;穆德駿 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 使用 優(yōu)勢 估計 強(qiáng)化 學(xué)習(xí) | ||
1.一種系統(tǒng),所述系統(tǒng)包括一個或多個計算機(jī)和存儲指令的一個或多個存儲設(shè)備,所述指令在被所述一個或多個計算機(jī)執(zhí)行時能夠操作,所述系統(tǒng)被配置來使得所述一個或多個計算機(jī)執(zhí)行用于訓(xùn)練強(qiáng)化學(xué)習(xí)系統(tǒng)的策略神經(jīng)網(wǎng)絡(luò)的方法,其中,所述策略神經(jīng)網(wǎng)絡(luò)被配置來選擇來自動作的連續(xù)動作空間的待由與環(huán)境交互的代理執(zhí)行的動作,所述連續(xù)動作空間包括位于連續(xù)域上的所有可能動作集,所述方法包括:
獲得經(jīng)驗元組,所述經(jīng)驗元組識別i)表征所述環(huán)境的訓(xùn)練狀態(tài)的訓(xùn)練觀察、ii)由所述代理響應(yīng)于所述訓(xùn)練觀察而執(zhí)行的訓(xùn)練動作、iii)作為所述代理響應(yīng)于所述訓(xùn)練觀察而執(zhí)行所述訓(xùn)練動作的結(jié)果而接收的獎勵以及iv)表征所述環(huán)境的后續(xù)狀態(tài)的后續(xù)觀察;
在包括所述經(jīng)驗元組的訓(xùn)練數(shù)據(jù)上訓(xùn)練所述策略神經(jīng)網(wǎng)絡(luò),所述訓(xùn)練包括:
使用值神經(jīng)網(wǎng)絡(luò)并根據(jù)所述值神經(jīng)網(wǎng)絡(luò)的參數(shù)的當(dāng)前值來處理所述訓(xùn)練觀察以生成第一值估計,所述第一值估計是在所述環(huán)境處于由所述訓(xùn)練觀察表征的所述訓(xùn)練狀態(tài)的情況下所得到的預(yù)期回報的估計,與響應(yīng)于所述訓(xùn)練觀察而執(zhí)行哪一動作無關(guān);
將所述訓(xùn)練觀察作為輸入提供給所述策略神經(jīng)網(wǎng)絡(luò);
針對所述訓(xùn)練觀察,獲得位于所述連續(xù)域上的所述所有可能動作集中的輸出動作,作為來自所述策略神經(jīng)網(wǎng)絡(luò)并且是根據(jù)所述策略神經(jīng)網(wǎng)絡(luò)的參數(shù)的當(dāng)前值而生成的輸出;
確定在所述連續(xù)域中以下二者之間的距離:i)位于所述連續(xù)域上的所述所有可能動作集中的所述輸出動作,所述輸出動作是通過處理所述訓(xùn)練觀察而作為來自所述策略神經(jīng)網(wǎng)絡(luò)的輸出來獲得的,以及ii)由所述代理響應(yīng)于所述訓(xùn)練觀察而執(zhí)行過的所述訓(xùn)練動作;
根據(jù)在所述連續(xù)域中以下二者之間的所確定的距離生成對響應(yīng)于所述訓(xùn)練觀察而執(zhí)行的所述訓(xùn)練動作的優(yōu)勢估計:i)位于所述連續(xù)域上的所述所有可能動作集中的所述輸出動作,所述輸出動作是通過處理所述訓(xùn)練觀察而作為來自所述策略神經(jīng)網(wǎng)絡(luò)的輸出所獲得的,以及ii)由所述代理響應(yīng)于所述訓(xùn)練觀察而執(zhí)行過的所述訓(xùn)練動作;以及
通過組合對響應(yīng)于所述訓(xùn)練觀察而執(zhí)行的所述訓(xùn)練動作的所述優(yōu)勢估計和所述第一值估計來生成響應(yīng)于所述訓(xùn)練觀察而執(zhí)行的所述訓(xùn)練動作的Q值,所述第一值估計是在所述環(huán)境處于由所述訓(xùn)練觀察表征的所述訓(xùn)練狀態(tài)的情況下所得到的預(yù)期回報的估計,與響應(yīng)于所述訓(xùn)練觀察而執(zhí)行哪一動作無關(guān);
使用所述值神經(jīng)網(wǎng)絡(luò)來處理所述后續(xù)觀察以生成所述后續(xù)狀態(tài)的新值估計,所述新值估計是在所述環(huán)境處于所述后續(xù)狀態(tài)的情況下所得到的預(yù)期回報的估計;
將所述獎勵和所述新值估計組合以生成所述訓(xùn)練動作的目標(biāo)Q值;
使用以下二者之間的誤差來確定對所述策略神經(jīng)網(wǎng)絡(luò)的參數(shù)的當(dāng)前值和所述值神經(jīng)網(wǎng)絡(luò)的參數(shù)的當(dāng)前值的更新:i)使用所述輸出動作與所述訓(xùn)練動作之間的距離來生成的所述訓(xùn)練動作的Q值,以及ii)所述目標(biāo)Q值;以及
在所述訓(xùn)練之后,提供所訓(xùn)練的策略神經(jīng)網(wǎng)絡(luò)以用于控制與現(xiàn)實世界環(huán)境交互的機(jī)械代理。
2.如權(quán)利要求1所述的系統(tǒng),其中根據(jù)位于所述連續(xù)域上的所述所有可能動作集中的、能夠作為來自所述策略神經(jīng)網(wǎng)絡(luò)的輸出所獲得的所述輸出動作與由所述代理響應(yīng)于所述訓(xùn)練觀察而執(zhí)行過的所述訓(xùn)練動作之間的所確定的距離生成對響應(yīng)于所述訓(xùn)練觀察而由所述代理執(zhí)行過的所述訓(xùn)練動作的所述優(yōu)勢估計包括:
將具有狀態(tài)依賴性參數(shù)的函數(shù)應(yīng)用于位于所述連續(xù)域上的所述所有可能動作集中的、能夠作為來自所述策略神經(jīng)網(wǎng)絡(luò)的輸出所獲得的所述輸出動作與由所述代理響應(yīng)于所述訓(xùn)練觀察而執(zhí)行過的所述訓(xùn)練動作之間的所述距離。
3.如權(quán)利要求2所述的系統(tǒng),其中所述方法還包括:
由所述強(qiáng)化學(xué)習(xí)系統(tǒng)的函數(shù)參數(shù)神經(jīng)網(wǎng)絡(luò)處理所述訓(xùn)練觀察以生成定義所述狀態(tài)依賴性參數(shù)的值的輸出。
4.如權(quán)利要求3所述的系統(tǒng),其中所述優(yōu)勢估計滿足:
其中,A表示所述優(yōu)勢估計,x表示所述訓(xùn)練觀察,u表示所述訓(xùn)練動作,θ表示參數(shù),
第一項是位于所述連續(xù)域上的所述所有可能動作集中的所述輸出動作與響應(yīng)于所述訓(xùn)練觀察而執(zhí)行過的所述訓(xùn)練動作之間的所述距離的轉(zhuǎn)置,μ表示所述策略神經(jīng)網(wǎng)絡(luò),
P是具有由所述狀態(tài)依賴性參數(shù)值定義的條目的狀態(tài)依賴性參數(shù)矩陣,并且
第三項是位于所述連續(xù)域上的所述所有可能動作集中的所述輸出動作與由所述代理響應(yīng)于所述訓(xùn)練觀察而執(zhí)行過的所述訓(xùn)練動作之間的所述距離。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于谷歌有限責(zé)任公司,未經(jīng)谷歌有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201780015574.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





