[發明專利]校正術語對的自動定位方法、裝置、電子設備及存儲介質有效
| 申請號: | 202011305060.6 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112215018B | 公開(公告)日: | 2021-08-13 |
| 發明(設計)人: | 周玉;鄧彪;李小青;劉鵬;韓延超 | 申請(專利權)人: | 北京中科凡語科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/226;G06F40/194;G06F40/189 |
| 代理公司: | 北京庚致知識產權代理事務所(特殊普通合伙) 11807 | 代理人: | 韓德凱;李偉波 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 校正 術語 自動 定位 方法 裝置 電子設備 存儲 介質 | ||
本公開提供了一種校正術語對的自動定位方法,包括:S1、獲得源語言語句的機器翻譯結果,以及對機器翻譯結果進行校正后的校正翻譯結果;S2、對機器翻譯結果和校正翻譯結果進行文本對比,獲得用于定位至少一個校正術語對中每個校正術語對的至少一個候選查詢詞,以及對源語言語句和校正翻譯結果進行詞對齊,獲得詞對齊結果;以及S3、對用于定位至少一個校正術語對中每個校正術語對的至少一個候選查詢詞和詞對齊結果進行匹配,獲得源語言語句及校正翻譯結果中的至少一個校正術語對。本公開還提供了校正術語對的自動定位裝置、電子設備及存儲介質。
技術領域
本公開屬于語言處理技術領域,本公開尤其涉及一種校正術語對的自動定位方法、裝置、電子設備及存儲介質。
背景技術
計算機輔助翻譯系統(CAT)借助計算機化工具輔助翻譯人員完成翻譯任務,核心是通過以機器翻譯為主的各種自然語言處理技術,使繁重、復雜的人工翻譯過程自動化,從而提高翻譯效率和翻譯質量。CAT系統首先通過機器翻譯模型和記憶庫將源語言翻譯為目標語言,隨后譯員針對機器翻譯結果進行人工校正,形成一篇高質量譯文。對于一些專業領域詞匯和不常見的單詞,機器翻譯結果往往存在錯漏譯情況,需要譯員對翻譯結果逐詞逐句進行校正。為避免系統對于譯員已經校正過的單詞重復錯漏譯,則需將錯漏譯的源語言單詞和經過校正的目標語言單詞的準確譯法保存為術語對存入術語記憶庫。
目前譯員使用計算機輔助翻譯系統添加術語對時,需要手動選擇或在系統特定位置輸入源語言單詞以及經過校正的目標語言單詞的準確譯法,這種方式在操作上較為復雜,與機器翻譯結果的校正工作存在重復性,使得系統的自動化程度較低、譯員翻譯的效率不高。
發明內容
為了解決上述技術問題中的至少一個,本公開提供了一種校正術語對的自動定位方法、裝置、電子設備及存儲介質。校正術語對為機器翻譯結果的校正術語對。
根據本公開的一個方面,提供一種校正術語對的自動定位方法,包括:S1、獲得源語言語句的機器翻譯結果,以及對所述機器翻譯結果進行校正后的校正翻譯結果;S2、對所述機器翻譯結果和所述校正翻譯結果進行文本對比,獲得用于定位至少一個校正術語對中每個校正術語對的至少一個候選查詢詞,以及對所述源語言語句和所述校正翻譯結果進行詞對齊,獲得詞對齊結果;以及S3、對用于定位所述至少一個校正術語對中每個校正術語對的至少一個候選查詢詞和所述詞對齊結果進行匹配,獲得所述源語言語句及校正翻譯結果中的至少一個校正術語對。
根據本公開的至少一個實施方式的校正術語對的自動定位方法,所述校正翻譯結果為譯員校正后的校正翻譯結果。
根據本公開的至少一個實施方式的校正術語對的自動定位方法,每個校正術語對的至少一個候選查詢詞通過以下方法獲得:對所述機器翻譯結果和所述校正翻譯結果進行文本對比,獲得所述校正翻譯結果中的至少一個校正字符;以及基于所述至少一個校正字符,使用滑動窗口的方法獲得用于定位至少一個校正術語對中每個校正術語對的至少一個候選查詢詞。
根據本公開的至少一個實施方式的校正術語對的自動定位方法,所述校正字符包括增加字符和/或刪除字符。
根據本公開的至少一個實施方式的校正術語對的自動定位方法,對所述源語言語句和所述校正翻譯結果進行詞對齊,獲得詞對齊結果,包括:SS1、將源語言語句和所述校正翻譯結果即目標語言語句組成句對,分別對所述源語言語句以及所述目標語言語句進行分詞;SS2、使用專業領域詞典對所述分詞后的句對中的單詞進行對齊,獲得專業領域詞典能夠對齊的單詞對,作為詞典對齊結果;SS3、對所述源語言語句中的每個詞與所述目標語言語句中的每個詞進行正向對齊,獲得正向對齊能夠對齊的單詞對,作為正向對齊結果;SS4、對于步驟SS3中未能夠正向對齊的詞進行反向對齊,獲得反向對齊能夠對齊的單詞對,作為反向對齊結果;以及SS5、將詞典對齊結果、正向對齊結果以及反向對齊結果作為初級對齊結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科凡語科技有限公司,未經北京中科凡語科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202011305060.6/2.html,轉載請聲明來源鉆瓜專利網。





