[發(fā)明專利]一種從互聯(lián)網(wǎng)上自動提取雙語翻譯詞典的方法有效
| 申請?zhí)枺?/td> | 201010147364.4 | 申請日: | 2010-04-13 |
| 公開(公告)號: | CN101833571A | 公開(公告)日: | 2010-09-15 |
| 發(fā)明(設計)人: | 周立柱;韓軍;劉娟;張崇;茹立云;佟子健 | 申請(專利權(quán))人: | 清華大學;北京搜狗科技發(fā)展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/28 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 王瑩;胡小永 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 互聯(lián)網(wǎng) 自動 提取 雙語 翻譯 詞典 方法 | ||
1.一種從互聯(lián)網(wǎng)上自動提取雙語翻譯詞典的方法,其特征在于,包括以下步驟:
S1:從中外雙語網(wǎng)頁中提取括號雙語詞匯和良結(jié)構(gòu)雙語詞匯,并記錄詞頻;所述雙語詞匯為具有翻譯關(guān)系的中外雙語出現(xiàn)在一起組成的詞匯,所述良結(jié)構(gòu)雙語詞匯為先前經(jīng)過人工整理的具有準確翻譯的雙語詞匯,所述括號雙語詞匯為詞或短語之后的括號內(nèi)跟上該詞或短語的翻譯的雙語詞匯,包括:
外中雙語詞匯,括號內(nèi)為外語、括號前為中文的括號雙語詞匯,
中外雙語詞匯,括號內(nèi)為中文、括號前為外語的括號雙語詞匯;
S2:對所述提取的括號雙語詞匯進行截取,得到翻譯準確的括號雙語詞匯;
S3:對良結(jié)構(gòu)雙語詞匯和經(jīng)過步驟S2后的括號雙語詞匯進行詞根合并和篩選;
S4:對給定的中文或外語,首先在良結(jié)構(gòu)雙語詞匯中查找對應的翻譯,如果找到則忽略括號雙語詞匯的翻譯;否則在括號雙語詞匯中尋找對應的翻譯,所有中文、外語和對應的翻譯構(gòu)成雙語翻譯詞典。
2.如權(quán)利要求1所述的從互聯(lián)網(wǎng)上自動提取雙語翻譯詞典的方法,其特征在于,所述步驟S1包括:
S101:利用搜索引擎的抓取技術(shù)抓取互聯(lián)網(wǎng)上所有的雙語網(wǎng)頁;
S102:從所述雙語網(wǎng)頁中提取括號雙語詞匯,提取雙語詞匯時在網(wǎng)頁中查找括號,然后自右向左遍歷左括號左邊的內(nèi)容,以出現(xiàn)語言屬性變化或者出現(xiàn)標點符號為界,所述語言屬性為中文或外語,括號前內(nèi)容與括號中內(nèi)容構(gòu)成雙語詞匯;
S103:按照良結(jié)構(gòu)雙語詞匯提取規(guī)則從所述雙語網(wǎng)頁中提取符合規(guī)則結(jié)構(gòu)要求的良結(jié)構(gòu)雙語詞匯,所述提取規(guī)則為網(wǎng)頁中具有“<br>...</br>”、“<tr>...</tr>”和“<td>...</td>”這種結(jié)構(gòu)之間的內(nèi)容都是結(jié)構(gòu)相同的中外文混雜內(nèi)容,那么認為這些對應中外文內(nèi)容存在翻譯關(guān)系,構(gòu)成良結(jié)構(gòu)雙語詞匯。
3.如權(quán)利要求1所述的從互聯(lián)網(wǎng)上自動提取雙語翻譯詞典的方法,其特征在于,所述步驟S2包括:
S201:根據(jù)括號左邊以及括號中內(nèi)容的語言屬性進行分類,包括外中雙語詞匯和中外雙語詞匯,提取所述括號雙語詞匯括號中的中文作為中文語料庫;
S202:對所有外中雙語詞匯中括號左邊的中文,從左括號自右向左依次利用步驟S201所得到的中文語料庫進行中文字符串匹配,得到所有可以匹配的外中雙語詞匯,將相同的外中雙語詞匯合并,詞頻相加,其中,匹配上的中文字符串稱為所述外中雙語詞匯的前綴;
S203:利用所有中外雙語詞匯對步驟S202得到的詞頻進行修正,若某外中雙語詞匯的前綴可以在中外雙語詞匯的集合中找到,則將該中外雙語詞匯的詞頻累加到外中雙語詞匯上;
S204:將每個外語對應的所有括號雙語詞匯表示為一種樹形數(shù)據(jù)結(jié)構(gòu)來表示,所述樹形數(shù)據(jù)結(jié)構(gòu)中,外中雙語詞匯的外語詞為根節(jié)點,每個前綴建立一前綴節(jié)點,每個所述前綴節(jié)點下面連接一系列子節(jié)點,每個所述前綴節(jié)點是其子節(jié)點的子串,從所述樹形數(shù)據(jù)結(jié)構(gòu)中選擇翻譯準確的括號雙語詞匯的方法如下:
(1)如果一個父節(jié)點A的所有子節(jié)點中,存在某一子節(jié)點B,B的詞頻占A節(jié)點詞頻的50%以上,那么保留B節(jié)點,同時刪除A和A的子節(jié)點以及子節(jié)點以下的所有節(jié)點;
(2)如果一個父節(jié)點A的所有子節(jié)點中,找不到任何一子節(jié)點B,B的詞頻占A節(jié)點詞頻的50%以上,則保留A節(jié)點,刪除A節(jié)點以下的所有節(jié)點,
其中,所述父節(jié)點A不包括根節(jié)點,至上而下對每個節(jié)點按(1)(2)兩步進行篩選,剩下節(jié)點對應的雙語詞匯即為翻譯準確的括號雙語詞匯。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學;北京搜狗科技發(fā)展有限公司,未經(jīng)清華大學;北京搜狗科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201010147364.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種基于粗糙集的地名信息檢索方法
- 下一篇:基于應用程序的文件緩存方法和裝置
- 基于網(wǎng)絡電視的互聯(lián)網(wǎng)業(yè)務處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務接入網(wǎng)關(guān)的實現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動攝像終端進行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護用于互聯(lián)網(wǎng)資源分配的事務
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品





