[發明專利]校正術語對的自動定位方法、裝置、電子設備及存儲介質有效
| 申請號: | 202011305060.6 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112215018B | 公開(公告)日: | 2021-08-13 |
| 發明(設計)人: | 周玉;鄧彪;李小青;劉鵬;韓延超 | 申請(專利權)人: | 北京中科凡語科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/226;G06F40/194;G06F40/189 |
| 代理公司: | 北京庚致知識產權代理事務所(特殊普通合伙) 11807 | 代理人: | 韓德凱;李偉波 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 校正 術語 自動 定位 方法 裝置 電子設備 存儲 介質 | ||
1.一種校正術語對的自動定位方法,其特征在于,包括:
S1、獲得源語言語句的機器翻譯結果,以及對所述機器翻譯結果進行校正后的校正翻譯結果;
S2、對所述機器翻譯結果和所述校正翻譯結果進行文本對比,獲得用于定位至少一個校正術語對中每個校正術語對的至少一個候選查詢詞,以及對所述源語言語句和所述校正翻譯結果進行詞對齊,獲得詞對齊結果;以及
S3、對用于定位所述至少一個校正術語對中每個校正術語對的至少一個候選查詢詞和所述詞對齊結果進行匹配,獲得所述源語言語句及校正翻譯結果中的至少一個校正術語對;
其中,每個校正術語對的至少一個候選查詢詞通過以下方法獲得:對所述機器翻譯結果和所述校正翻譯結果進行文本對比,獲得所述校正翻譯結果中的至少一個校正字符,基于所述至少一個校正字符,使用滑動窗口的方法獲得用于定位至少一個校正術語對中每個校正術語對的至少一個候選查詢詞;
其中,對所述源語言語句和所述校正翻譯結果進行詞對齊,獲得詞對齊結果,包括:
SS1、將源語言語句和所述校正翻譯結果即目標語言語句組成句對,分別對所述源語言語句以及所述目標語言語句進行分詞;
SS2、使用專業領域詞典對所述分詞后的句對中的單詞進行對齊,獲得專業領域詞典能夠對齊的單詞對,作為詞典對齊結果;
SS3、對所述源語言語句中的每個詞與所述目標語言語句中的每個詞進行正向對齊,獲得正向對齊能夠對齊的單詞對,作為正向對齊結果;
SS4、對于步驟SS3中未能夠正向對齊的詞進行反向對齊,獲得反向對齊能夠對齊的單詞對,作為反向對齊結果;以及
SS5、將詞典對齊結果、正向對齊結果以及反向對齊結果作為初級對齊結果。
2.根據權利要求1所述的校正術語對的自動定位方法,其特征在于,所述校正翻譯結果為譯員校正后的校正翻譯結果。
3.根據權利要求1所述的校正術語對的自動定位方法,其特征在于,所述校正字符包括增加字符和/或刪除字符。
4.根據權利要求1所述的校正術語對的自動定位方法,其特征在于,步驟SS3中,對專業領域詞典未能夠對齊的詞進行正向對齊,獲得正向對齊能夠對齊的單詞對,作為正向對齊結果。
5.根據權利要求1或4所述的校正術語對的自動定位方法,其特征在于,對步驟SS5獲得的初級對齊結果進行補充對齊,包括:
SS61、使用源語言切分詞以及目標語言切分詞將所述句對切分成源語言語塊序列以及目標語言語塊序列;
SS62、基于所述初級對齊結果,將源語言語塊與目標語言語塊一一對應,獲得語塊對;
SS63、判斷所述初級對齊結果中的單詞對中的源語言單詞以及目標語言單詞是否同時出現在一個語塊對中,如果某個單詞對未同時出現在一個語塊對中,則將該單詞對中的源語言單詞以及目標語言單詞從語塊對中去除,獲得清洗后的語塊對;以及
SS64、將清洗后的語塊對中未對齊的單詞進行對齊,獲得所述初級對齊結果的補充對齊結果。
6.根據權利要求5所述的校正術語對的自動定位方法,其特征在于,步驟SS62中,使用以下方法獲得所述語塊對:
將源語言語塊序列表示為將目帶有下標的是未對齊的單詞;
基于所述初級對齊結果,獲得源語言單詞與目標語言單詞的對齊關系以及對齊概率,使用以下公式進行語塊對齊:
其中i,j表示語塊序號,m,n分別表示語塊序列i、j中的單詞的序號;
在進行語塊對齊時,對每個源語言語塊,計算其中的每個詞與目標語言語塊的每個詞之間的對齊概率ρ,單詞對屬于初級對齊結果的,其對齊概率為初級對齊概率,不屬于初級對齊結果的,其對齊概率為0;
將源語言語塊內的所有單詞對的對齊概率相加作為該源語言語塊相對于目標語言語塊的語塊對齊概率,選擇概率最大的為該源語言語塊對齊的目標語言語塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科凡語科技有限公司,未經北京中科凡語科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202011305060.6/1.html,轉載請聲明來源鉆瓜專利網。





