[發明專利]詞典生成裝置以及信息檢索裝置有效
| 申請號: | 200810091300.X | 申請日: | 2008-04-28 |
| 公開(公告)號: | CN101571852A | 公開(公告)日: | 2009-11-04 |
| 發明(設計)人: | 夏迎炬;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京三友知識產權代理有限公司 | 代理人: | 李 輝;孫海龍 |
| 地址: | 日本神奈*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞典 生成 裝置 以及 信息 檢索 | ||
1.一種信息檢索裝置,所述信息檢索裝置包括:
檢索條件輸入單元(400),用于輸入信息檢索的檢索條件;
搜索引擎(420),用于根據所述檢索條件輸入單元輸入的所述檢索條件進行信息檢索,返回檢索結果;
詞典生成裝置,用于生成字典用詞條,所述字典用詞條被特征向量生成用字典所采用;
特征向量生成部(416),根據所述特征向量生成用字典中的字典用詞條生成所述檢索條件的特征向量和所述檢索結果的特征向量;以及
檢索結果過濾部(413),根據所述特征向量生成部所生成的所述檢索條件的特征向量和所述檢索結果的特征向量對檢索結果進行過濾,
其中,所述詞典生成裝置包括:
詞頻統計部(11),用于統計在包括關注語言和對比語言的多語語料中,所述關注語言的關注詞條的詞頻以及所述關注詞條的對比詞條的詞頻,所述對比詞條是所述關注詞條的所述對比語言的翻譯詞;
詞頻相似度計算單元(12),用于計算所述關注詞條的詞頻和所述對比詞條的詞頻的詞頻相似度;以及
詞條選擇單元(13),根據所述詞頻相似度計算單元(12)計算出的詞頻相似度,確定所述字典用詞條。
2.根據權利要求1所述的信息檢索裝置,其特征在于,所述多語語料是多語對齊語料。
3.根據權利要求1所述的信息檢索裝置,其特征在于,所述詞頻相似度計算單元(12)依據以下方法之一計算所述詞頻相似度:
方法1:
將所述關注詞條的詞頻與所述對比詞條的詞頻之差作為所述詞頻相似度;
方法2:
將所述關注詞條的詞頻與所述對比詞條的詞頻的比值和所述比值的倒數這兩者中較大的一個作為所述詞頻相似度;
方法3:
將所述關注詞條的詞頻的對數與所述對比詞條的詞頻的對數的比值和該比值的倒數這兩者中較大的一個作為所述詞頻相似度。
4.根據權利要求1所述的信息檢索裝置,其特征在于,所述詞典生成裝置還包括:一詞多譯處理單元,用于在所述關注詞條具有兩個或更多個對比詞條時,根據預定的標準選擇預定數目的對比詞條;
詞頻調整單元,用于判斷所述關注語言中的所有所述關注詞條的詞頻在整體上是否明顯高于或低于所述對比語言中的所有所述對比詞條的詞頻,如果明顯高于或低于所述對比語言中的所有所述對比詞條的詞頻,則進行詞頻調整,使所述關注語言中的所有所述關注詞條的詞頻在整體上與所述對比語言中的所有所述對比詞條的詞頻在整體上相接近;以及
詞條選擇條件處理單元(807),用于確定所述詞條選擇單元(13)確定出的字典用詞條的多少。
5.根據權利要求1所述的信息檢索裝置,其特征在于,所述詞條選擇單元(13)根據以下標準選擇字典用詞條:
所述詞頻相似度在預定的閾值范圍內。
6.根據權利要求1所述的信息檢索裝置,其特征在于,所述詞典生成裝置還包括趨勢確定單元(15),所述趨勢確定單元根據所述關注詞條的詞頻,對所述關注詞條與所述對比詞條組成的翻譯詞對進行排序;
詞條選擇單元(13)根據以下標準選擇字典用詞條:
所述翻譯詞對的詞頻相似度在預定的閾值范圍內;并且
排序在后的翻譯詞對的詞頻相似度小于排序在前的翻譯詞對的詞頻相似度。
7.根據權利要求1所述的信息檢索裝置,其特征在于,所述多語語料涉及三種或更多種語言,所述詞典生成裝置還包括對比語言設置單元,所述對比語言設置單元將所述多語語料所涉及的語言中所述關注語言之外的語言集總地設為對比語言,所述對比詞條的詞頻是指所述關注詞條在各種對比語言中的對比詞條的詞頻的和。
8.根據權利要求1所述的信息檢索裝置,其特征在于,所述多語語料涉及三種或更多種語言,所述詞典生成裝置還包括對比語言設置單元,所述對比語言設置單元逐一將所述多語語料所涉及的語言中所述關注語言之外的語言設置為對比語言,所述詞條選擇單元將針對各對比語言選出的各關注詞條集合中所共有的關注詞條設為最終的關注詞條。
9.根據權利要求1所述的信息檢索裝置,其特征在于,所述詞典生成裝置包括一詞多譯處理單元,所述一詞多譯處理單元用于在所述關注詞條具有兩個或更多個對比詞條時,根據預定的標準選擇預定數目的對比詞條,其中,所述一詞多譯處理單元依據下列排序方法中的一種或更多種對所述關注詞條和所述對比詞條組成的翻譯詞對進行排序,并選取排序最前的翻譯詞對中的詞條作為字典用詞條:
排序方法1:根據所述對比詞條的詞頻,詞頻高的排在前面;
排序方法2:根據所述翻譯詞對的詞頻相似度,詞頻相似度高的排在前面;
排序方法3:根據所述翻譯詞對中的所述關注詞條和所述對比詞條的共現頻率,共現頻率高的排在前面;
排序方法4,根據所述對比詞條在所述多語語料中出現的先后順序,先出現的排在前面;以及
排序方法5,根據所述翻譯詞對中的所述關注詞條和所述對比詞條的詞性相同與否,詞性相同的排在前面。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/200810091300.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可自動再生濾網的過濾器
- 下一篇:三通換向閥





