[發明專利]基于源問題生成相似問題的方法和裝置在審
| 申請號: | 202010410003.8 | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111309893A | 公開(公告)日: | 2020-06-19 |
| 發明(設計)人: | 彭爽;崔恒斌 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 孫欣欣;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 問題 生成 相似 方法 裝置 | ||
1.一種基于源問題生成相似問題的方法,所述方法包括:
獲取源問題;
對所述源問題進行分詞處理,得到多個分詞;
從所述多個分詞中提取至少一個關鍵詞,并獲取所述至少一個關鍵詞的同義詞和/或近義詞,作為輔助信息;
將所述輔助信息和所述源問題輸入文本生成模型,通過所述文本生成模型輸出所述源問題的相似問題。
2.如權利要求1所述的方法,其中,所述文本生成模型包括編碼器和解碼器;
所述將所述輔助信息和所述源問題輸入文本生成模型,通過所述文本生成模型輸出所述源問題的相似問題,包括:
將所述輔助信息和所述源問題輸入所述編碼器,得到語義向量;
將所述語義向量輸入所述解碼器,得到所述源問題的相似問題。
3.如權利要求1所述的方法,其中,所述文本生成模型包括第一編碼器、第二編碼器、解碼器、第一交互層和第二交互層;
所述將所述輔助信息和所述源問題輸入文本生成模型,通過所述文本生成模型輸出所述源問題的相似問題,包括:
將所述輔助信息輸入所述第一編碼器,得到所述輔助信息包括的各字符分別對應的第一字符編碼向量;
將所述源問題輸入所述第二編碼器,得到所述源問題包括的各字符分別對應的第二字符編碼向量;
將所述第一字符編碼向量和所述第二字符編碼向量輸入所述第一交互層,以使所述第一交互層得到所述第二字符編碼向量的注意力權重,并基于該注意力權重對所述第二字符編碼向量進行加權求和,得到所述源問題對應的第一語義向量;
將所述第一字符編碼向量和所述第二字符編碼向量輸入所述第二交互層,以使所述第二交互層得到所述第一字符編碼向量的注意力權重,并基于該注意力權重對所述第一字符編碼向量進行加權求和,得到所述輔助信息對應的第二語義向量;
將所述第一語義向量和所述第二語義向量輸入所述解碼器,得到所述源問題的相似問題。
4.如權利要求1所述的方法,其中,所述文本生成模型為強化學習模型;所述將所述輔助信息和所述源問題輸入文本生成模型,通過所述文本生成模型輸出所述源問題的相似問題,包括:
根據所述強化學習模型的策略參數,執行連續的多步動作,其中每個單步動作包括,將所述輔助信息、所述源問題和已經生成的字符作為當前狀態,根據當前狀態生成下一個字符;所述多步動作生成的字符序列構成所述相似問題。
5.如權利要求4所述的方法,其中,所述通過所述文本生成模型輸出所述源問題的相似問題之后,所述方法還包括:
獲取所述源問題對應的標準輸出;
根據所述相似問題與所述標準輸出之間的相似度分數,確定所述源問題和所述相似問題對應的累積獎勵分數;
根據所述累積獎勵分數,更新所述策略參數。
6.如權利要求5所述的方法,其中,所述獲取所述源問題對應的標準輸出,包括:
從預先設定的所述源問題的至少一個標準相似問題中,選擇一個所述標準相似問題作為所述源問題對應的標準輸出。
7.如權利要求5所述的方法,其中,所述根據所述累積獎勵分數,更新所述策略參數,包括:
根據所述累積獎勵分數,確定所述強化學習模型的目標函數的值;所述目標函數與所述累積獎勵分數正相關,且與各字符的生成概率正相關;
通過優化所述目標函數的值,更新所述策略參數。
8.如權利要求1所述的方法,其中,所述源問題為知識庫中的標準問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202010410003.8/1.html,轉載請聲明來源鉆瓜專利網。





