[發明專利]維吾爾語詞語對齊方法無效
| 申請號: | 201210579979.3 | 申請日: | 2012-12-28 |
| 公開(公告)號: | CN103902528A | 公開(公告)日: | 2014-07-02 |
| 發明(設計)人: | 尼加提·納吉米;買合木提·買買提;帕肉克·司地克;馬斌 | 申請(專利權)人: | 新疆電力信息通信有限責任公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30 |
| 代理公司: | 烏魯木齊新科聯知識產權代理有限公司 65107 | 代理人: | 祁磊 |
| 地址: | 830011 新疆維吾*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 維吾爾 語詞 對齊 方法 | ||
技術領域
本發明涉及語言信息處理技術,特別是維吾爾語詞語對齊方法。
背景技術
在國民經濟和社會信息化的今天,人們對各類語種信息獲取、查詢、翻譯提出了更快、更高的要求。隨之,研制開發了各類電子詞典產品和機器翻譯系統,受到廣大用戶歡迎。在進行機器翻譯時,語料庫的質量直接影響翻譯的質量,維吾爾語詞語對齊系統是機器翻譯和語料庫建設的輔助工具。
機器翻譯系統和自然語言處理系統的實用化進程中,機器詞典和機器翻譯系統已成為開發的焦點,語料庫的建設速度和質量尤為重要。詞語對齊是在互譯的文本上尋找以詞為單位的翻譯對應。詞語是雙語語料庫的自然語言處理任務都需要詞語級的對齊。目前詞語對齊的方法主要有4種:基于統計的方法、基于字符的方法、基于語言學知識的方法和混合方法。基于統計的方法是通過對大規模雙語語料庫的統計訓練,獲得雙語對譯詞的同現概率以此作為對齊的基礎。基于字符的方法是以兩種語言含有的同源詞在詞性上面的共同之處進行詞對齊。基于語言學知識的方法是以雙語詞典和同義詞詞典等語言學知識作為對齊的基礎。混合方法同時使用了包含上三種方法的多種方法。
近年來,隨著少數民族信息化領域的發展,在新疆的少數民族語言語料庫建設也有了新的發展,但大多數以維吾爾語為主,在更多少數民族語言的支持和技術水平上存在一定的缺陷。
發明內容
本發明的目的在于提供一種維吾爾語詞語對齊方法,實現了維吾爾語詞語的自動對齊,為維吾爾語電子詞典的構建和維吾爾語語料庫的建設提供了幫助;為漢維機器翻譯系統的研究提供了基礎,對烏(烏孜別克文)、哈(哈薩克)、柯(柯爾克孜)、土(土耳其文)電子詞典及輔助機器翻譯系統的開發打下了堅實的基礎。
本發明的目的是這樣實現的:一種維吾爾語詞語對齊方法,1.?實現了維吾爾語詞語的自動對齊,維吾爾語詞語和漢語詞語之間的對齊關系分為5種,分別是一對一,一對多,多對一,多對多,一對空;2.?對自動對齊出現錯誤的詞語人工對齊,提高了系統處理維吾爾語的準確率;3.?根據維吾爾語的特點實現了對維吾爾語詞語的拆分和合并。
本發明涉及維吾爾語詞語的對齊,實現了維吾爾語詞語的自動對齊和維吾爾語詞語的拆分和合并。詞語對齊是語料庫建設的基本問題之一,也是長期以來一直在研究的課題。在目前市場上,這種能對維吾爾語詞語對齊的系統尚屬首例。本發明解決了對提交的維吾爾詞語進行自動對齊;是維吾爾語電子詞典的構建,漢維機器翻譯系統很好的輔助工具;另一方面對將來漢維機器翻譯語料庫建設;對烏(烏孜別克文)、哈(哈薩克)、柯(柯爾克孜)、土(土耳其文)電子詞典及輔助機器翻譯系統的開發打下了堅實的基礎。本發明是基于計算語言學、語言學、社會學、計算機信息處理科學的維吾爾語詞語對齊系統。其特征是:根據維吾爾語的形態特點對維吾爾語詞語進行自動對齊;可以實現沒有自動對齊的詞語;根據維吾爾語的特征本系統實現了對維吾爾語詞語的拆分和合并。
本發明的有益效果是,系統實現了維吾爾語詞語的自動對齊,為維吾爾語電子詞典的構建和維吾爾語語料庫的建設提供了幫助;為漢維機器翻譯系統的研究提供了基礎,對烏(烏孜別克文)、哈(哈薩克)、柯(柯爾克孜)、土(土耳其文)電子詞典及輔助機器翻譯系統的開發打下了堅實的基礎。
附圖說明
下面將結合附圖對本發明作進一步說明。
圖1是本發明的流程圖。
具體實施方式
一種維吾爾語詞語對齊方法,1.?實現了維吾爾語詞語的自動對齊,維吾爾語詞語和漢語詞語之間的對齊關系分為5種,分別是一對一,一對多,多對一,多對多,一對空;2.?對自動對齊出現錯誤的詞語人工對齊,提高了系統處理維吾爾語的準確率;3.?根據維吾爾語的特點實現了對維吾爾語詞語的拆分和合并。
如圖1所示,首先,判斷用戶的角色,然后獲得審核通過之后的句子。根據維吾爾語詞語的特點實現詞語的拆分和合并,對自動對齊錯誤的詞語進行人工對齊,然后保存對齊結果,同時登記有錯誤的句子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新疆電力信息通信有限責任公司,未經新疆電力信息通信有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201210579979.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可旋轉的多功能筆筒
- 下一篇:粉筆灰槽自動掃灰收集裝置





