[發明專利]一種中式英語的發現方法及系統有效
| 申請號: | 201610281264.8 | 申請日: | 2016-04-27 |
| 公開(公告)號: | CN107315732B | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 盛志超;張凱波;陳志剛;魏思;胡國平;胡郁;劉慶峰 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/205 |
| 代理公司: | 北京維澳專利代理有限公司 11252 | 代理人: | 周放;江懷勤 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中式 英語 發現 方法 系統 | ||
本發明公開了一種中式英語的發現方法及系統,該方法包括:獲取待檢測英語語句;獲取所述待檢測英語語句中各詞的主題信息;基于各詞的主題信息生成所述待檢測英語語句中的搭配詞;確定搭配詞中是否存在中式英語搭配詞;如果是,則確定待檢測英語語句包含中式英語;如果否,則確定待檢測英語語句不包含中式英語。本發明提供的方法由于基于搭配詞判斷待檢測英語語句是否包含中式英語搭配詞,能提高判斷待檢測英語語句是否包含中式英語的正確率。
技術領域
本發明涉及自然語言理解、文本處理技術領域,具體涉及一種中式英語的發現方法及系統。
背景技術
在國內,英語作為基礎教學科目,貫穿每個涉及英語應用者的學習生涯。隨著教育信息化技術的不斷發展,傳統的教學模式發生了較大變化,各種智能教與學系統已逐漸應用在日常教學中,如自動批改、學情診斷等。英語作文的自動批改已成為智能教學中一個重要的組成部分,而中式英語作為英語作文中常見的錯誤,其檢出的準確性直接影響整個作文批改的結果,因此中式英語的發現一直是相關領域人員研究的熱點。
現有的中式英語的發現多是基于資源的方法,如圖1所示,主要包括:預先收集網絡資源,構建中式英語集;然后判斷作文中是否存在預先構建的中式英語集中的中式英語。現有方法的可靠性、準確性完全依賴于預先構建的中式英語集是否涵蓋所有可能出現的中式英語,而在現實應用中,因資源的缺乏,以及中式英語錯誤也是因人而異、千變萬化的,想要做到構建一個涵蓋所有可能的中式英語集是不可能的,因而現有的中式英語發現方法效果不佳。
發明內容
本發明實施例提供一種中式英語的發現方法及系統,以解決現有技術基于資源發現中式英語的方法準確率低的問題。
為此,本發明實施例提供如下技術方案:
一種中式英語的發現方法,包括:
獲取待檢測英語語句;
獲取所述待檢測英語語句中各詞的主題信息;
基于各詞的主題信息生成所述待檢測英語語句中的搭配詞;
確定搭配詞中是否存在中式英語搭配詞;
如果是,則確定待檢測英語語句包含中式英語;
如果否,則確定待檢測英語語句不包含中式英語。
優選地,所述方法還包括:預先構建主題抽取模型;
所述獲取所述待檢測英語語句中各詞的主題信息包括:
基于所述主題抽取模型獲取所述待檢測英語語句中各詞的主題信息。
優選地,構建主題抽取模型包括:
收集自然英語語料,并對所述自然英語語料中的各詞進行主題標注;
根據所述自然英語語料及其主題標注信息訓練得到主題抽取模型。
優選地,所述方法還包括:預先構建搭配詞質量判斷模型;
所述確定搭配詞中是否存在中式英語搭配詞包括:
基于所述搭配詞質量判斷模型確定各搭配詞的質量;
如果所述搭配詞為高質量搭配詞,并且預先構建的搭配詞庫中沒有與其相匹配的搭配詞,則確定所述搭配詞為中式英語搭配詞。
優選地,所述構建搭配詞質量判斷模型包括:
收集自然英語語料,并對所述自然英語語料中的各詞進行主題標注;
基于各詞的主題標注信息生成自然英語語料中的搭配詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201610281264.8/2.html,轉載請聲明來源鉆瓜專利網。





