[發明專利]采用向量處理的同時分割在審
| 申請號: | 201680003266.9 | 申請日: | 2016-04-19 |
| 公開(公告)號: | CN107004031A | 公開(公告)日: | 2017-08-01 |
| 發明(設計)人: | 邁克爾·赫希;亞伊爾·托弗;大衛·葉赫那坦 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 采用 向量 處理 同時 分割 | ||
背景技術
本發明的一些實施例涉及輸入數據流的分割,更具體地但不僅限于,涉及通過將輸入數據流拆分成采用向量處理并行分割的多個子數據流來分割輸入數據流。
當今是信息時代,需要在各地之間存儲和/或傳輸的數據量迅速增加。考慮到用于存儲數據的存儲空間和/或用于傳輸數據的網絡帶寬,巨大的數據量可能主要帶來成本和/或復雜性的挑戰。
常用于減少存儲和/或傳輸的數據的量的一種解決方案是重復數據刪除(通常稱為“智能壓縮”或“單實例存儲”),其是通過消除冗余數據來減少數據量的方法。雖然存在用于重復文件刪除的方法,但是考慮到數據壓縮,塊重復刪除可以呈現更好的結果。在塊重復刪除中,實際上只保留數據流的數據段(塊)的唯一一個實例,而與已經保留的數據段相同的冗余數據段替換為指向保留數據段的副本的指針。塊重復刪除處理可包括多個數據類型例如,數據文件、媒體文件、流數據等的數據流,以識別一個或多個數據段(塊)的唯一實例。使用Rabin-Karp滾動哈希和/或Buzhash等哈希算法為每個分段生成唯一的數(哈希值)。將針對每個分段生成的哈希值與針對先前分段生成的現有哈希值進行比較,并且若該哈希值等于現有哈希值,則該分段不保留,而由指向現有分段的副本的指針替代。此外,若該分段更新,可僅保留改變的數據,而不保留可能包括大量這種分段的剩余未改變數據。
主要挑戰之一是有效地分割數據流,以使對分段的數據內容的改變盡可能少地影響分段。如業內已知,滾動哈希技術可以用于對數據流進行分割。使用滾動哈希,計算在數據流中對數據序列進行移位的哈希值(在每個滾動序列中刪除結束數據項并插入新數據項)。檢查所計算的哈希值是否符合預定義的一個或多個分割標準,且若識別出符合,將各個滾動序列的起始點指定為分段邊界或切割點。
發明內容
根據本發明的第一方面,提供一種分割輸入數據流的系統,包括:處理器,用于:將輸入數據流拆分成多個子數據流,使得所述多個子數據流的每個子數據流與所述多個子數據流中與其相鄰的子數據流具有重疊部分;在所述處理器的處理管線中同時分割所述多個子數據流以創建多個分割的子數據流;根據所述多個子數據流中的每兩個連續子數據流的重疊部分的至少一個重疊分段同步所述多個分割的子數據流的每個分割的子數據流的排序,連接所述多個分割的子數據流以創建分割的數據流。
術語“同時”因此具有在持續時間中重疊的含義,還包括同時的,例如,發生在同一時間的含義。
在本發明第一方面的第一種實現方式中,所述處理器是單指令多數據(single-instruction-multiple-data,簡稱SIMD)處理器。
根據第一方面的第一種實現方式,在第一方面的第二種實現方式中,所述處理器用于:計算滾動序列的滾動哈希值;其中,所述滾動序列應用于所述多個子數據流中的每個子數據流的連續數據項的多個序列中的每個序列;當所述滾動哈希值符合至少一個分割標準時將序列指定為可變長分段以分割所述多個子數據流中的每個子數據流,其中,所述滾動序列包括序列的連續數據項的子集。
根據第一方面的第一或第二種實現方式中的任一種實現方式,在第一方面的第三種實現方式中,所述多個序列的每個序列包括預定義的最少連續數據項。
根據第一方面的第一至第三種實現方式中的任一種實現方式,在第一方面的第四種實現方式中,當在檢測所述滾動哈希值對所述至少一個分割標準的符合性之前,所述多個序列中的至少一個大序列的連續數據項的數量超過預定義最大值,所述處理器用于將所述至少一個大序列指定為可變長分段。
根據第一方面的第一至第四種實現方式中的任一種實現方式,在第一方面的第五種實現方式中,所述處理器用于當所述同步失敗時,依次分割所述輸入數據流。
根據本發明的第二方面,提供一種分割輸入數據流的方法,包括:將輸入數據流拆分成多個子數據流,使得所述多個子數據流的每個子數據流與所述多個子數據流中與其相鄰的子數據流具有重疊部分;在處理器的處理管線中同時分割所述多個子數據流以創建多個分割的子數據流;根據所述多個子數據流中的每兩個連續子數據流的重疊部分的至少一個重疊分段同步所述多個分割的子數據流的每個分割的子數據流的排序,連接所述多個分割的子數據流以創建分割的數據流。
在本發明第二方面的第一種實現方式中,計算滾動序列的滾動哈希值;其中,所述滾動序列應用于所述多個子數據流的每個子數據流的連續數據項的多個序列中的每個序列的滾動序列;當所述滾動哈希值符合至少一個分割標準時將序列指定為可變長分段以分割所述多個子數據流中的每個子數據流,其中,所述滾動序列包括序列的連續數據項的子集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201680003266.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語料生成裝置和方法
- 下一篇:用于在增材制造中定制物體的系統和方法





