[發明專利]一種訓練文本關鍵內容提取模型的方法和系統有效
| 申請號: | 202010114332.8 | 申請日: | 2020-02-24 |
| 公開(公告)號: | CN111309887B | 公開(公告)日: | 2023-04-14 |
| 發明(設計)人: | 楊明暉;崔恒斌;陳曉軍;陳顯玲 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/35;G06Q30/015 |
| 代理公司: | 成都七星天知識產權代理有限公司 51253 | 代理人: | 楊永梅 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 文本 關鍵 內容 提取 模型 方法 系統 | ||
1.一種訓練基于文本關鍵內容提取模型提取文本關鍵內容的方法,包括:
獲取多個問題答案對,所述問題答案對包括問題和所述問題對應的答案;
從所述多個問題答案對中選取目標問題答案對,并選取其他與所述目標問題答案對不同的問題答案對中的答案作為干擾答案;
拼接所述目標問題答案對中的目標答案與所述干擾答案得到拼接答案,將所述拼接答案與所述目標問題答案對中的目標問題作為一組訓練樣本;所述目標答案為與所述目標問題對應的文本關鍵內容;所述訓練樣本的標識為所述目標答案在所述拼接答案中的起點和終點位置;
基于多組所述訓練樣本訓練得到文本關鍵內容提取模型;
獲取實體對象的詢問內容;
基于所述詢問內容從知識庫中獲取至少一個候選答案;
將所述詢問內容和所述至少一個候選答案輸入所述文本關鍵內容提取模型,得到與所述詢問內容對應的文本關鍵內容;其中,所述將所述詢問內容和所述至少一個候選答案輸入所述文本關鍵內容提取模型,得到與所述詢問內容對應的文本關鍵內容包括:
將所述至少一個候選答案中屬于所述文本關鍵內容的起點或屬于所述文本關鍵內容的終點的概率滿足第一預設條件的詞分別作為第一文本關鍵內容的起點或終點;
將所述至少一個候選答案中屬于所述文本關鍵內容的起點或屬于所述文本關鍵內容的終點的概率滿足第二預設條件的詞分別作為第二文本關鍵內容的起點或終點。
2.如權利要求1所述的方法,所述文本關鍵內容提取模型包含機器閱讀理解模型和用于分類的神經網絡;
其中,所述機器閱讀理解模型基于所述詢問內容和/或所述至少一個候選答案中詞的上下文確定所述詞的向量;
所述用于分類的神經網絡基于所述詞的向量計算所述詞屬于不同位置類別的概率,所述位置類別包括:屬于所述文本關鍵內容的起點、屬于所述文本關鍵內容的終點以及屬于所述文本關鍵內容的起點和終點以外的其他位置。
3.如權利要求2所述的方法,所述機器閱讀理解模型為BERT模型或BiDAF模型。
4.如權利要求1所述的方法,還包括:將所述第一文本關鍵內容和所述第二文本關鍵內容分別以第一方式和第二方式展示給所述實體對象。
5.如權利要求4所述的方法,所述第一方式或所述第二方式分別為單獨輸出所述文本關鍵內容或在所述至少一個候選答案中高亮展示。
6.如權利要求1所述的方法,所述基于所述詢問內容從知識庫中獲取至少一個候選答案包括:
基于所述詢問內容從所述知識庫中召回至少一個初始候選問題答案對;
基于所述詢問內容與所述至少一個初始候選問題答案對中的問題之間的相似度確定至少一個候選問題答案對;
將所述至少一個候選問題答案對中的答案作為所述至少一個候選答案。
7.如權利要求6所述的方法,基于相似度模型確定所述詢問內容與所述至少一個初始候選問題答案對中的問題之間的相似度。
8.如權利要求7所述的方法,所述相似度模型為ESIM模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202010114332.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種恒壓控制裝置
- 下一篇:一種汽車排氣管涂料及其制備方法
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





