[發明專利]基于重復句檢測的翻譯校正方法與系統在審
| 申請號: | 201811199856.0 | 申請日: | 2018-10-16 |
| 公開(公告)號: | CN109359306A | 公開(公告)日: | 2019-02-19 |
| 發明(設計)人: | 鄭麗華 | 申請(專利權)人: | 傳神語聯網網絡科技股份有限公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430073 湖北省武漢市東湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 校正 校正結果 質量校正 翻譯 重復 翻譯結果 檢測 不一致 保證 | ||
本發明提供了一種基于重復句檢測的翻譯質量校正方法,該方法基于檢測到的重復句,對已經完成的翻譯成果進行多種方式的質量校正,從而保證翻譯成果中的重復句的翻譯結果的一致準確性。多種方式的翻譯結果質量校正方式可以互相配合使用,也可以選擇其中之一;還可以事先設置優先采用哪種校正方式;也可以事先設置不同校正方式的優先級,當不同的校正方式給出的校正結果不一致的,選擇優先級最高的校正方式給出的結果;當至少兩個不同校正方式給出的校正結果一致時,直接采用該一致的校正結果。
技術領域
本申請涉及翻譯技術領域,尤其涉及一種基于重復句檢測的翻譯校正方法與系統。
背景技術
在一些特定場合,翻譯人員必須保證翻譯結果的高度準確性和統一性,而不允許隨意變化。在這些場合中,相同語境中的相同句子的翻譯結果必須統一,不管是同一個人翻譯還是不同人翻譯,在最后的整體翻譯結果中,對于同一個句子的翻譯結果也應當保持相當程度上的一致性,以體現翻譯結果的嚴肅和公正。這些場合主要包括涉及法律的文書、涉外合同、政府公告/新聞稿、專業教科書等。
涉外合同中包含大量的重復模板語句、涉及法律的文書例如涉外專利由于撰寫特點也存在大量的重復語句,如果不能保持前后同一重復句子的翻譯一致性,將極大的損害其權威性。
然而,在當前的翻譯工作中,針對上述特定場合的翻譯需求,翻譯人員很難一開始就做到保證同一個句子的翻譯前后一致,因為無法預判是否存在同一個句子,更無法預知其他人對同一個句子的翻譯結果是否與自己一致。
通常情況下只能先完成各自翻譯任務,后續再進行處理。然而,目前的后續處理都是純人工進行,耗時費力;即使可以采用計算機代替人工,但是其針對的翻譯量巨大,效率極低。
發明內容
本發明的技術方案至少從以下幾個方面解決了上述問題。
在本發明的第一個方面,提供了一種基于重復句檢測的翻譯質量校正方法,該方法基于檢測到的重復句,對已經完成的翻譯成果進行校正,從而保證翻譯成果中的重復句的翻譯結果的一致準確性。
這里,已有的翻譯成果,包括翻譯前的語料和對應的翻譯后的語料。
發明人經過長期的翻譯工作意識到,對于已經完成的翻譯成果,需要校正的部分僅僅是一小部分特定的重復句子,大部分句子是不需要校正的的。因此本發明的第一個要解決的問題是如何高效快速的檢測出潛在的需要校正的重復句。
首先,本發明需要設置一個關注數據庫,所述關注數據庫是指預先設置的包含需要關注的特殊詞匯的數據庫。不同領域的翻譯材料包括不同的需要關注的特定詞匯,例如,槍械翻譯中需要關注的詞匯包括Magazine (彈匣),因為有可能存在翻譯人員將其錯誤翻譯為“雜志”的情形。這可以由相關領域的翻譯專家提供,或者事先預置;
其次,本發明需要設置一個關注閾值范圍。所述關注閾值范圍是指潛在的可能存在重復的句子的長度范圍。過短的句子,其翻譯難度較低,具備一定水平的翻譯人員通常不會出現不一致的錯誤;過長的句子,其翻譯相對慎重,翻譯人員通常需要交叉比對才會給出結果,并且其通常不會大量重復出現,因此,其不被視為潛在的需要校正的目標。
接下來,本發明需要在已有的翻譯結果中查找滿足條件的句子,檢測出重復句子。
滿足條件包括:
翻譯結果中的當前句子長度;和或;當前句子是否包含關注數據庫中的詞匯。
這里包括兩個步驟:
(1)首先查找出滿足上述條件的句子,構成滿足條件的句子集;
(2)從滿足條件的句子集合中,檢測出重復句子。
由于步驟(1)的存在,本發明檢測重復句子的工作量得到了大大降低;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于傳神語聯網網絡科技股份有限公司,未經傳神語聯網網絡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201811199856.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多語言同聲互譯的方法和設備
- 下一篇:自動識別語種的翻譯方法、裝置及設備





