[發(fā)明專利]一種基于張量鏈分解的流式數(shù)據(jù)增量處理方法及裝置在審
| 申請?zhí)枺?/td> | 202010001952.0 | 申請日: | 2020-01-02 |
| 公開(公告)號: | CN111241076A | 公開(公告)日: | 2020-06-05 |
| 發(fā)明(設(shè)計)人: | 陳彥萍;夏虹;靳曉東;王忠民;高聰;呂寧 | 申請(專利權(quán))人: | 西安郵電大學(xué) |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2455;G06F16/2458;G06F17/16 |
| 代理公司: | 西安嘉思特知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 61230 | 代理人: | 尹曉雪 |
| 地址: | 710121 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 張量 分解 數(shù)據(jù) 增量 處理 方法 裝置 | ||
本發(fā)明涉及一種基于張量鏈分解的流式數(shù)據(jù)增量處理方法及裝置,其中,處理方法包括步驟:構(gòu)建多源異構(gòu)數(shù)據(jù)的高階統(tǒng)一張量表示模型;根據(jù)高階統(tǒng)一張量表示模型將原始數(shù)據(jù)表示為原始張量,并對原始張量進(jìn)行張量鏈分解,得到第一張量鏈格式;根據(jù)高階統(tǒng)一張量表示模型將新增數(shù)據(jù)表示為新增張量,并對新增張量進(jìn)行張量鏈分解,得到第二張量鏈格式;根據(jù)第一張量鏈格式和第二張量鏈格式計算更新張量的張量鏈分解結(jié)果。該處理方法不僅利用新増數(shù)據(jù)計算結(jié)果對原始處理結(jié)果快速和準(zhǔn)確地更新,而且能系統(tǒng)地描述出新増數(shù)據(jù)與己有計算結(jié)果之間的內(nèi)在聯(lián)系,同時解決了增量式處理的中間結(jié)果爆炸和重復(fù)計算兩大問題,提高了大數(shù)據(jù)的處理效率。
技術(shù)領(lǐng)域
本發(fā)明屬于大數(shù)據(jù)處理方法,具體涉及一種基于張量鏈分解的流式數(shù)據(jù)增量處理方法及裝置。
背景技術(shù)
在傳統(tǒng)的工業(yè)云架構(gòu)中,來自物理設(shè)備的所有數(shù)據(jù)都會傳輸?shù)皆贫诉M(jìn)行存儲和高級分析。由于云平臺與網(wǎng)絡(luò)邊緣的設(shè)備相比具有更高的計算能力,因此將計算密集型任務(wù)轉(zhuǎn)移到核心云計算平臺是數(shù)據(jù)處理的有效方式。工業(yè)大數(shù)據(jù)來源多樣,數(shù)據(jù)結(jié)構(gòu)不一,具有不同的屬性和標(biāo)準(zhǔn),有生產(chǎn)周期數(shù)據(jù),也有來自企業(yè)內(nèi)部的關(guān)系型數(shù)據(jù),還有視頻監(jiān)控數(shù)據(jù)、XML日志等非結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù)。
對大數(shù)據(jù)進(jìn)行高效分析、挖掘其蘊含的內(nèi)在規(guī)律的前提基礎(chǔ)是海量、多源、異構(gòu)數(shù)據(jù)的統(tǒng)一表示方式。而非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)在編碼方法、存儲格式、數(shù)據(jù)特征等方面不盡相同。不同的數(shù)據(jù)采集平臺綁定了不同的數(shù)據(jù)格式,各個領(lǐng)域的數(shù)據(jù)在形式、語義、標(biāo)識上都存在顯著差異。這些數(shù)據(jù)形成了一個個的信息孤島,無法統(tǒng)一量化,也難以整體分析,需要一個簡潔的模型將異構(gòu)數(shù)據(jù)表示在統(tǒng)一的空間中。
大數(shù)據(jù)時代的數(shù)據(jù)類型多樣,規(guī)模巨大,內(nèi)在結(jié)構(gòu)和關(guān)聯(lián)關(guān)系復(fù)雜,大數(shù)據(jù)中往往包括大量的不一致、不完全、重復(fù)冗余以及噪音數(shù)據(jù),這些低質(zhì)量的數(shù)據(jù)在分析挖掘過程中極大地影響了算法的效率和計算結(jié)果的準(zhǔn)確性,需要研究有效的方法從低質(zhì)量的原始數(shù)據(jù)中提取高質(zhì)量核心數(shù)據(jù)。現(xiàn)有大數(shù)據(jù)規(guī)模龐大,而且不停地生成,不斷地増加,具有流式數(shù)據(jù)的特點,從而導(dǎo)致出現(xiàn)中間計算結(jié)果爆炸和重復(fù)處理的問題。
張量是一種大數(shù)據(jù)分析工具,在復(fù)雜、高階、多維數(shù)據(jù)的表示和處理方面具有突出優(yōu)勢。基于張量的大數(shù)據(jù)分析方法可有效實現(xiàn)數(shù)據(jù)表示、存儲、計算、分析、應(yīng)用等一系列功能。但是基于張量的大數(shù)據(jù)分析方法仍面臨諸多挑戰(zhàn),如高階張量引起的維度災(zāi)難問題、流式數(shù)據(jù)引起的重復(fù)計算問題、巨大規(guī)模引起的計算耗時問題、繁雜計算引起的高能耗問題、關(guān)系復(fù)雜引起的難以分析問題等。
在基于張量的大數(shù)據(jù)分析和處理方法中,張量分解是一種重要的研究手段,其中最為普遍又很重要的操作是奇異值分解。針對在低維空間的奇異值分解,已有學(xué)者提出了一些增量分解方法,如增量式奇異值分解方法。關(guān)于增量數(shù)據(jù)處理的研究方法,當(dāng)前大多研究是集中在直接通過增量數(shù)據(jù)進(jìn)行計算和推理;例如Sarwar在動態(tài)增長的數(shù)據(jù)流上,利用奇異值分解理論對數(shù)據(jù)進(jìn)行降維處理;Gorrel利用增量奇異值分解更新歷史數(shù)據(jù)從而得到實時的核心數(shù)據(jù)集合,然后針對核心數(shù)據(jù)集合進(jìn)行快速計算從而及時提供服務(wù)。此外,因為大數(shù)據(jù)中包含著大量的噪音和冗余數(shù)據(jù),應(yīng)用高階奇異值分解技術(shù)求取核心數(shù)據(jù)集Coreset的方法進(jìn)行數(shù)據(jù)快速計算也逐漸成為研究熱點。在高維空間,對增量數(shù)據(jù)進(jìn)行分解主要有基于投影的增量式高階奇異值分解方法,以及基于Jacibo旋轉(zhuǎn)實現(xiàn)增量式高階奇異值分解方法。
針對大數(shù)據(jù)在時間上延續(xù)性很強,在結(jié)構(gòu)上與歷史數(shù)據(jù)非常相似的特征,有研究人員提出增量張量流的方法,應(yīng)用高階張量分解技術(shù)或高階奇異值分解方法提取高價值數(shù)據(jù),這種方法也被應(yīng)用到社會標(biāo)簽推薦系統(tǒng)中。數(shù)據(jù)增量處理過程中可以對高維數(shù)據(jù)進(jìn)行分塊,采用Kruskal置換對張量進(jìn)行分割是經(jīng)典的處理方法,而且Khatri-Rao乘積運算能夠保證分割后的張量展開矩陣列向量秩在計算前后的不變性。但是目前這些對降維大數(shù)據(jù)増量處理的研究方法主要考慮對動態(tài)更新數(shù)據(jù)進(jìn)行快速處理,很少考慮利用新増數(shù)據(jù)計算結(jié)果對原始處理結(jié)果快速和準(zhǔn)確更新,也未能系統(tǒng)地描述出新増數(shù)據(jù)與己有計算結(jié)果之間的相互關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安郵電大學(xué),未經(jīng)西安郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202010001952.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





