[發明專利]一種中式英語的發現方法及系統有效
| 申請號: | 201610281264.8 | 申請日: | 2016-04-27 |
| 公開(公告)號: | CN107315732B | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 盛志超;張凱波;陳志剛;魏思;胡國平;胡郁;劉慶峰 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/205 |
| 代理公司: | 北京維澳專利代理有限公司 11252 | 代理人: | 周放;江懷勤 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中式 英語 發現 方法 系統 | ||
1.一種中式英語的發現方法,其特征在于,包括:
獲取待檢測英語語句;
基于預先構建的主題抽取模型獲取所述待檢測英語語句中每一個詞的主題信息,所述主題抽取模型包括文檔主題生成模型;
基于各詞的主題信息生成所述待檢測英語語句中的搭配詞,包括將所述待檢測英語語句中主題信息相同的各詞構成一個搭配詞,所述搭配詞是指同一語句中主題相同的詞組合;
確定搭配詞中是否存在中式英語搭配詞;
如果是,則確定待檢測英語語句包含中式英語;
如果否,則確定待檢測英語語句不包含中式英語。
2.根據權利要求1所述的方法,其特征在于,構建主題抽取模型包括:
收集自然英語語料,并對所述自然英語語料中的各詞進行主題標注;
根據所述自然英語語料及其主題標注信息訓練得到主題抽取模型。
3.根據權利要求1所述的方法,其特征在于,所述方法還包括:預先構建搭配詞質量判斷模型;
所述確定搭配詞中是否存在中式英語搭配詞包括:
基于所述搭配詞質量判斷模型確定各搭配詞的質量;
如果所述搭配詞為高質量搭配詞,并且預先構建的搭配詞庫中沒有與其相匹配的搭配詞,則確定所述搭配詞為中式英語搭配詞。
4.根據權利要求3所述的方法,其特征在于,所述構建搭配詞質量判斷模型包括:
收集自然英語語料,并對所述自然英語語料中的各詞進行主題標注;
基于各詞的主題標注信息生成自然英語語料中的搭配詞;
提取搭配詞特征,并標注搭配詞質量,所述搭配詞特征包括以下任意一種或多種:搭配詞的共現頻度、搭配詞中不同詞之間的點互信息、搭配詞中每個詞的逆向文檔頻率、搭配詞中停用詞的數量、當前搭配詞的共現頻度與頻度最小的子搭配詞的頻度比;其中,所述搭配詞的共現頻度是指搭配詞所有順序的搭配出現頻度的總和;所述頻度最小的子搭配詞的頻度是指當前搭配詞的子搭配在自然語料中頻度最小的子搭配詞的頻度;
根據所述搭配詞特征及質量標注信息訓練得到搭配詞質量判斷模型。
5.根據權利要求1至4任一項所述的方法,其特征在于,所述方法還包括:
以視覺和/或聽覺的形式,展現包含中式英語的英語語句和/或中式英語搭配詞;和/或
如果所述待檢測英語語句包含中式英語,則以視覺和/或聽覺的形式進行提示。
6.一種中式英語的發現系統,其特征在于,包括:
語句獲取模塊,用于獲取待檢測英語語句;
主題獲取模塊,用于基于預先構建的主題抽取模型獲取所述待檢測英語語句中每一個詞的主題信息,所述主題抽取模型包括文檔主題生成模型;
搭配詞生成模塊,用于基于各詞的主題信息生成所述待檢測英語語句中的搭配詞,包括將所述待檢測英語語句中主題信息相同的各詞構成一個搭配詞,所述搭配詞是指同一語句中主題相同的詞組合;
確定模塊,用于確定搭配詞中是否存在中式英語搭配詞;如果是,則確定待檢測英語語句包含中式英語;如果否,則確定待檢測英語語句不包含中式英語。
7.根據權利要求6所述的系統,其特征在于,所述系統還包括:
第一模型構建模塊,用于預先構建主題抽取模型;
所述主題獲取模塊具體用于基于所述主題抽取模型獲取所述待檢測英語語句中各詞的主題信息。
8.根據權利要求7所述的系統,其特征在于,所述第一模型構建模塊包括:
第一語料收集單元,用于收集自然英語語料;
第一主題標注單元,用于對所述自然英語語料中的各詞進行主題標注;
第一模型訓練單元,用于根據所述自然英語語料及其主題標注信息訓練得到主題抽取模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201610281264.8/1.html,轉載請聲明來源鉆瓜專利網。





