[發明專利]稀疏數據的訪問方法及系統有效
| 申請號: | 201710439233.5 | 申請日: | 2017-06-06 |
| 公開(公告)號: | CN107273483B | 公開(公告)日: | 2019-11-05 |
| 發明(設計)人: | 李為沖;丁洪;傅浩;劉明 | 申請(專利權)人: | 貴州易鯨捷信息技術有限公司 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/174;G06F16/245 |
| 代理公司: | 北京酷愛智慧知識產權代理有限公司 11514 | 代理人: | 孟凡臣 |
| 地址: | 550017 貴州省貴陽市白*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 稀疏 數據 訪問 方法 系統 | ||
本發明提供了一種稀疏數據的訪問方法及系統,方法為:在數據庫中對數據建立事實表時,創建稀疏矩陣,稀疏矩陣由多個稀疏列組成;在稀疏矩陣中至少對一個稀疏列進行標記,得到被標記的稀疏列,并將被標記的稀疏列作為主鍵的第一列;獲取查詢條件,根據查詢條件在事實表中進行稀疏列的查詢:當查詢條件中對應的稀疏列為有效數據,將查詢條件中對應的稀疏列作為限定查詢條件;當查詢條件中對應的稀疏列為無效數據,重新返回步驟S1;根據查詢條件和限定查詢條件,實現查詢條件中對應的稀疏列所對應數據的訪問。本發明采用了對稀疏列進行標記的方式,并且不需要二級索引,直接使用基本表,可以在持續數據輸入的情況下,高效地對數據進行過濾讀取。
技術領域
本發明涉及數據訪問技術領域,尤其涉及稀疏數據的訪問方法及系統。
背景技術
日志文件廣泛應用于各種服務中,如網頁服務器,數據庫和應用服務器。日志用來記錄不同類型的信息,這些信息擁有不同的重要性等級。日志可以用于調試和排錯。通常情況下,日志文件集中保存在網絡文件系統中,但也可以分散保存(每個服務器包含應用程序自身運行所產生的日志)。能夠從各種日志中有效地提取有用信息對于開發/調試應用,以及確保生產環境的正確運行,都是一項十分重要的任務。然而日志通常是文本文件,因此搜索和分析日志就很困難并且要花費高昂的代價。首先要將日志文件存儲到數據庫的結構化或半結構化的表里。再通過查詢數據庫,運用復雜的算法來進行模式識別、統計分析或機器學習,從而獲取所需要的信息。
目前現有日志分析系統中,都采用反數據庫范式的設計。和傳統的數據庫系統的三范式設計不同,日志表被設計為單表,以便保證日志的加載速度。因為日志隨時隨地產生,且數據巨大,需要不間斷地加載到分析系統中,如果采用第三范式的設計方法,將影響加載數據。而采用單表則有比較好的加載性能,因為不需要更新和管理多張相互關聯的表,但這樣做的代價就是會導致表非常巨大。因此現有日志分析系統,對日志信息并沒有采用特殊的存儲和訪問方法。而日志的有用信息是相當稀疏的,導致對日志的檢索非常低效。
一般情況下,在海量的日志信息中,只有很少的日志條目含有有用信息。例如,跟蹤網頁服務器流量的日志,其中只有極小一部分含有惡意軟件行為相關的信息,或者含有其他特定網頁搜索行為的相關日志條目。相對所有的網頁流量而言,這些惡意軟件和網頁搜索行為是極少的(我們稱之為稀疏數據),但他們仍然具有重要的意義(因為這些極有可能就是客戶要對某些案例做分析或查詢所需要的信息)。第二個例子是,設想下SQL查詢數據庫的相關日志。數據庫里一張表的一列記錄了每條SQL語句的相關日志,比如SQL錯誤信息。如果這條SQL執行成功則記為null,否則存儲出錯信息。由于大多數SQL語句會執行成功,并不會有相關錯誤信息,這個列的數據就會是稀疏的(幾乎都是NULL),但SQL出現錯誤的語義價值肯定是很高的,因為這些信息正是用戶所關注的。
通過上述兩種情況,可以看到,稀疏數據列含有相當重要的語義信息,以它們作為查詢條件的語句肯定是100%存在的。目前主流數據庫均支持二級索引,但傳統上基于BTree的二級索引無法高效地支持稀疏檢索。
現有技術中,對于這個問題的對策是,在這個稀疏列上創建二級索引。然而當表非常大而且數據流入速率非常高時,索引不是一個好的解決方法,因為索引的更新會降低數據流人速率。但如果沒有索引或其它措施,以稀疏數據為過濾條件對含有日志信息的表執行的查詢,將會進行全表掃描(或僅受限于日期范圍的掃描),進而導致非常慢的訪問速度。
因此,現有技術中的缺陷是,對于稀疏數據的訪問,通過在稀疏列上創建二級索引的方式實現數據的訪問,由于索引的更新會降低數據流人速率,以稀疏數據為過濾條件對含有日志信息的表執行查詢時,將會進行全表掃描,導致訪問速度非常慢。
發明內容
針對上述技術問題,本發明提供一種稀疏數據的訪問方法及系統,采用了對稀疏列進行標記的方式,并且不需要二級索引,直接使用基本表,可以在持續數據輸入的情況下,高效地對數據進行過濾讀取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州易鯨捷信息技術有限公司,未經貴州易鯨捷信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201710439233.5/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





