[發明專利]語料數據的處理方法、裝置、計算機可讀介質及電子設備有效
| 申請號: | 201811388022.4 | 申請日: | 2018-11-21 |
| 公開(公告)號: | CN109597873B | 公開(公告)日: | 2022-02-08 |
| 發明(設計)人: | 周輝陽;饒孟良;曹云波 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/295 |
| 代理公司: | 深圳市隆天聯鼎知識產權代理有限公司 44232 | 代理人: | 劉抗美 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料 數據 處理 方法 裝置 計算機 可讀 介質 電子設備 | ||
1.一種語料數據的處理方法,其特征在于,包括:
獲取目標領域中的待處理語料數據;
根據所述待處理語料數據中所包含的實體名稱,生成所述待處理語料數據對應的第一語料模板;
根據所述第一語料模板和所述目標領域中已有的第二語料模板,計算所述第一語料模板和所述第二語料模板之間的相似度;
若獲取到的所述目標領域中的第一類待處理語料數據對應的第一語料模板與所述目標領域中已有的第二語料模板不相似,則從所述目標領域的待處理語料數據中過濾掉所述第一類待處理語料數據,并將從所述待處理語料數據中過濾掉所述第一類待處理語料數據后得到的語料數據作為所述目標領域中的語料數據。
2.根據權利要求1所述的語料數據的處理方法,其特征在于,根據所述待處理語料數據中所包含的實體名稱,生成所述待處理語料數據對應的第一語料模板,包括:
檢測所述待處理語料數據中所包含的預設實體名稱;
根據實體名稱與實體標簽之間的對應關系,確定與所述預設實體名稱相對應的目標實體標簽;
通過所述目標實體標簽替換所述待處理語料數據中所包含的所述預設實體名稱,以生成所述待處理語料數據對應的第一語料模板。
3.根據權利要求1所述的語料數據的處理方法,其特征在于,根據所述第一語料模板和所述目標領域中已有的第二語料模板,計算所述第一語料模板和所述第二語料模板之間的相似度,包括:
根據所述第一語料模板和所述第二語料模板,確定所述第一語料模板和所述第二語料模板中的其中一個語料模板是否是另一個語料模板的子集;
若所述第一語料模板和所述第二語料模板中的其中一個語料模板是另一個語料模板的子集,則確定所述第一語料模板和所述第二語料模板相似。
4.根據權利要求3所述的語料數據的處理方法,其特征在于,根據所述第一語料模板和所述第二語料模板,確定所述第一語料模板和所述第二語料模板中的其中一個語料模板是否是另一個語料模板的子集,包括:
若所述第一語料模板和所述第二語料模板中的其中一個語料模板所包含的字符覆蓋另一個語料模板所包含的字符,則確定所述第一語料模板和所述第二語料模板中的其中一個語料模板是另一個語料模板的子集。
5.根據權利要求1所述的語料數據的處理方法,其特征在于,根據所述第一語料模板和所述目標領域中已有的第二語料模板,計算所述第一語料模板和所述第二語料模板之間的相似度,包括:
根據所述第一語料模板和所述第二語料模板,計算所述第一語料模板所包含的字符串和所述第二語料模板所包含的字符串之間的相似度;
根據所述第一語料模板所包含的字符串和所述第二語料模板所包含的字符串之間的相似度,確定所述第一語料模板和所述第二語料模板之間的相似度。
6.根據權利要求5所述的語料數據的處理方法,其特征在于,計算所述第一語料模板所包含的字符串和所述第二語料模板所包含的字符串之間的相似度,包括:
計算所述第一語料模板所包含的字符串和所述第二語料模板所包含的字符串之間的編輯距離,以根據所述編輯距離確定所述第一語料模板和所述第二語料模板之間的相似度;或
計算所述第一語料模板所包含的字符串和所述第二語料模板所包含的字符串之間的余弦相似度,以根據所述余弦相似度確定所述第一語料模板和所述第二語料模板之間的相似度;或
通過向量空間模型將所述第一語料模板所包含的字符串和所述第二語料模板所包含的字符串分別轉換為向量空間中的第一向量和第二向量,計算所述第一向量和所述第二向量之間的相似度,以確定所述第一語料模板和所述第二語料模板之間的相似度。
7.根據權利要求1至6中任一項所述的語料數據的處理方法,其特征在于,獲取目標領域中的待處理語料數據,包括:
從用戶輸入的語句數據中篩選出與所述目標領域中的關鍵詞相關聯的目標語料數據,和/或從用戶輸入的網址中篩選出與所述目標領域相關聯的目標網址;
將篩選出的所述目標語料數據和/或所述目標網址中所包含的數據作為所述待處理語料數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201811388022.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于數字地形模型的文顯度計算方法
- 下一篇:信息推薦方法、裝置及服務器
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





