[發明專利]用于處理用于在XML數據庫中存儲的非XML文檔的方法和系統無效
| 申請號: | 200810098199.0 | 申請日: | 2008-05-26 |
| 公開(公告)號: | CN101320380A | 公開(公告)日: | 2008-12-10 |
| 發明(設計)人: | 米歇爾·蓋斯曼 | 申請(專利權)人: | 軟件股份公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京東方億思知識產權代理有限責任公司 | 代理人: | 柳春雷 |
| 地址: | 德國達*** | 國省代碼: | 德國;DE |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 處理 xml 數據庫 存儲 文檔 方法 系統 | ||
技術領域
本發明涉及一種用于處理用于在XML數據庫中存儲的非XML文檔的方法和數據庫系統。
背景技術
XML數據庫是現代信息社會中最重要的技術工具之一。這種數據庫的高度靈活性允許以非常高效的方式來存儲和檢索數據。通常,XML數據庫設計用于XML文檔。然而,在現有技術中也已知擴展XML數據庫使得其能夠存儲其它類型的文檔。例如,申請人的XML數據庫Tamino適于存儲非XML文檔,例如文本文件、MS?Office文件、PDF文件、圖像和音頻文件等。為了使得能從數據庫檢索這種非XML文檔,已知分析要存儲的非XML文檔并且提取一些元數據,用于生成對應于該非XML文檔的所謂XML影子(shadow)文檔。使用XQuery,可隨后搜索影子XML文檔并且可檢索對應的非XML文檔。
通常由數據庫系統的一個軟件來執行對元數據的分析和提取,其中該軟件專用于某種類型的非XML文檔。作為候選,可為處理非XML文檔提供更通用的分析和提取軟件,該軟件包括若干組件,每個組件特定地設計為處理預定義類型的非XML文檔。類似的方法和系統從US6,549,922和已公開的US專利申請US?2005050086是已知的。
然而,現有技術用于處理用于在XML數據庫中存儲的非XML文檔的所有方法和系統使用預定義格式或模式以用于所生成的XML文檔。換言之,所有類型的非XML文檔將總是導致某種類型的影子XML文檔。例如上述的申請人的Tamino數據庫使用固定XML模式,其依照“Dubin?CoreMetadata?Initiative”(http://dublincore.org/)并且遵循OpenOffice格式(http://openoffice.org)。結果,影子XML文檔的內容有時不是非常有用,如果固定XML模式不允許用有意義的信息在影子XML文檔上存儲元數據的話。因此現有技術中已知的基于影子XML文檔搜索非XML文檔是低效和緩慢的。
上面略述的用于處理非XML文檔的方法還導致一些問題,如果要處理新類型的非XML文檔以供存儲和/或如果要使用不同供應商的軟件組件來處理不同類型的非XML文檔的話。這尤其適用于如果新類型的文檔不是標準的辦公文檔,而例如是圖像,其中要提取的元數據(例如顏色分布、分辨率、大小或圖像處理軟件的任何結果)與用于標準辦公文檔的的元數據非常不同。
因此,本發明在一個方面基于技術問題提供了更靈活的方法用于生成影子XML文檔,該方法克服了現有技術中上述缺點中的至少一些。
發明內容
在本發明的一個方面中,通過用于處理用于在XML數據庫中存儲的非XML文檔的方法來解決該問題,該方法包括以下步驟:
-根據預定XML模式生成用于非XML文檔的影子XML文檔,影子XML文檔包括從非XML文檔提取的元數據,
-在XML數據庫中存儲影子XML文檔和非XML文檔;
其中XML模式包括適于包裝至少部分未定義XML結構的XML內容的包裝元素。
因此,本發明的方法在XML數據庫中存儲兩個單獨文檔,非XML文檔本身和對應的影子文檔。如在XML模式中定義的影子XML文檔的結構,是靈活的并且可以變化。這是因為沒有完整地定義由本發明的XML模式的包裝元素所包裝的XML內容的結構。相反,任何良構的XML內容可布置在包裝元素之內。結果,所述方法為生成XML影子文檔的組件提供了更多的靈活性,因為它們不再必須嚴格地遵守不靈活的、固定的XML模式。
盡管包裝元素可包裝任何種類的良構XML內容,而不管其結構和內容,適于使用具有通配符的XQuery來搜索包裝元素的XML內容。
根據本發明的另一方面,方法還包括在影子XML文檔上創建索引的步驟,其中在一個示例中在XML模式中定義了用于索引的信息。因此,將包裝元素的XML內容的結構的靈活性與一些定義結合,這些定義適于為影子XML文檔和它們的非XML對應物的隨后搜索和檢索提供索引。在一個實施例中,影子XML文檔包括標識對應非XML文檔的唯一標識符。
根據另一方面,本發明涉及一種XML數據庫系統,其具有適于分析非XML文檔的分析器,以及適于從非XML文檔提取元數據并且根據預定義XML模式生成用于非XML文檔的影子XML文檔的至少一個提取器,其中影子XML文檔包括元數據。XML數據庫系統還包括適于包裝影子XML文檔中所提取元數據的包裝器,其中所包裝元數據的結構是在XML模式中至少部分未定義的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于軟件股份公司,未經軟件股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/200810098199.0/2.html,轉載請聲明來源鉆瓜專利網。





