[發明專利]基于本體的情境搜索方法有效
| 申請號: | 201210575284.8 | 申請日: | 2012-12-26 |
| 公開(公告)號: | CN103064945A | 公開(公告)日: | 2013-04-24 |
| 發明(設計)人: | 左萬利;赫楓齡;王俊華;王鑫;鳳麗洲;王英;彭濤;萬海旭;蘇雪陽;高寧寧;閆昭;張雪松 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 長春吉大專利代理有限責任公司 22201 | 代理人: | 齊安全;胡景陽 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 本體 情境 搜索 方法 | ||
1.一種基于本體的情境搜索方法,其特征在于,所述的基于本體的情境搜索方法包括如下步驟:
1)由網頁情境解析與表示模塊對采集到的網頁進行解析并表示網頁情境信息:
(1)使用網絡爬蟲即Crawler采集網頁并存入網頁數據庫;
(2)建立DOM樹進行網頁解析,并使用實時搜索爬蟲提取網頁最近更新時間;
(3)實現網頁情境解析;
(4)利用命名實體識別技術獲取文檔內的時間與地點信息,并將文檔表示為網頁情境形式:
PC=<{<W,C>},PG,PT>
其中:W為詞或術語,C為語境詞,PG為網頁內的地點信息,PT為網頁時間信息,包含創建時間、更新時間與網頁內時間;
2)由用戶情境挖掘與表示模塊實現用戶情境挖掘與表示并和第1)步驟同時進行:
(1)用戶興趣挖掘;
(2)查詢意圖預測;
(3)基于步驟(1)與步驟(2)中得到的處理結果,使用本體技術給出清晰、明確、可計算的用戶情境說明和描述;用戶情境包括用戶興趣、查詢意圖以及搜索時間和地點;可以將用戶情境表示為:
UC=<L,S,I,Q,UG,UT>
其中:L為用戶長期興趣,S為用戶短期興趣,I為當前查詢意圖,Q為檢索詞,UG為用戶地理位置,UT為用戶查詢時間;
3)由情境索引處理模塊設計融入網頁情境信息的索引結構:
(1)構建情境正向索引;
(2)構建情境倒排索引;
4)由情境擴展模塊實現情境擴展即形成查詢情境;
5)由情境查詢處理模塊實現情境查詢處理。
2.按照權利要求1所述的基于本體的情境搜索方法,其特征在于,所述的實現網頁情境解析包括如下步驟:
1)如果網頁是中文網頁,則對網頁進行分詞;
2)利用通用本體和自然語言處理技術構建語義關聯圖,對詞或術語進行詞義標注;
3)確定語義關聯圖中語義關系權重;語義關系權重的確定采用如下公式:
其中:maxr、minr是賦予關系r的最大權重與最小權重,nr(Sen1)是在語義關聯圖中從詞義Sen1出發的關系r的邊的個數;
4)計算歧義詞W的每個義項和上下文詞集的關聯度,公式為:
其中:WSi為歧義詞W的第i個義項,CS為滿足以下條件的義項集合:①出現在語義關聯圖中,②為上下文詞集中詞的一個義項,WCR(WSi,CSj)為基于語義關聯圖和語義關系權重計算義項WSi和CSj的關聯度函數;
5)選取關聯度最大的義項作為詞W在上下文中的釋義,并提取釋義的直接上位概念作為語境詞,獲取W的語境,從而實現文檔的情境解析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201210575284.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于由纖維加強的塑料制造復合模制件的方法和裝置
- 下一篇:一種電子設備





