[發明專利]一種海量DNA數據的傳輸方法及系統有效
| 申請號: | 201710188308.7 | 申請日: | 2017-03-27 |
| 公開(公告)號: | CN107169315B | 公開(公告)日: | 2020-08-04 |
| 發明(設計)人: | 武文博;徐文濤 | 申請(專利權)人: | 廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學 |
| 主分類號: | G16B40/00 | 分類號: | G16B40/00 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 528300 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 海量 dna 數據 傳輸 方法 系統 | ||
本發明提供的方法借助后綴數組求取DNA序列的最長重復子串,然后將最長重復子串存入數組中,并用數組下標替換DNA序列中的最長重復子串,通過不斷的替換最長重復子串而達到壓縮傳輸數據量的目的。
技術領域
本發明涉及生物信息學數據壓縮傳輸領域,更具體地,涉及一種海量DNA數據的傳輸方法及系統。
背景技術
目前實施的千人基因組計劃、國際單體型圖計劃和孟德爾遺傳疾病計劃等項目,利用下一代測序技術產生了海量的DNA測序數據,使得生物信息學數據呈現爆炸性增長。這些數據含有人類目前尚未了解的生物學知識,通過對這些數據的分析與處理,揭示其生物學內涵,提取出對人類有用的信息,可以給生物學和醫學領域的相關研究帶來更大的輔助。但是,在促進生物學和醫學發展的同時,不同研究所之間傳遞數據的成本也高的驚人。如何壓縮傳輸量,較少傳輸成本成為了當下急需解決的問題。
生物遺傳物質的自我復制操作致使在同一個體的DNA序列中存在著大量完全重復的片段,另外還存在特殊的鏡像重復、反轉重復、互補回文結構等重復片段。人類的不同個體基因的相似程度達99%,而和近親物種間基因序列的近似程度也可高達98%,植物DNA序列中重復序列含量可達80%以上。因此,DNA序列不僅數據量大且含有很多的冗余信息,這些數據冗余是DNA壓縮傳輸的基礎。后綴數組是一種為文本索引設計的數據結構,該結構由記錄了字符串的各個后綴的字典序索引的數組構成。利用后綴數組可以快速查找字符串中的最長重復子串。本發明利用后綴數組的這種用途,通過對生物基因序列查找最長重復子串,將查到的最長重復子串生成字典索引,刪減重復子串再查找最長重復子串,不斷循環該過程。從而實現了對DNA序列的編碼壓縮過程。
發明內容
本發明為解決以上現有技術在傳輸DNA數據時傳輸數據量過大導致傳輸成本高昂的缺陷,提供了一種海量DNA數據的傳輸方法,該方法通過對DNA數據進行壓縮從而達到降低傳輸數據量的目的。
為實現以上發明目的,采用的技術方案是:
一種海量DNA數據的傳輸方法,利用發送客戶端、去重服務器和接收客戶端進行數據的傳輸,傳輸方法具體包括以下步驟:
S1.在發送客戶端,讀入第一條DNA序列D1;
S2.求取DNA序列D1的后綴數組SA,使用SA[m]記錄第m位后綴對應的首字母位置,即Suffix[SA[m]]在所有后綴中是第m小的后綴;
S3.掃描后綴數組SA,通過比較相鄰后綴來找出最長的重復字符串Str[k];
S4.在去重服務器上構建數組a,將Str[k]存入數組a的第t個存儲單元a[t]中,t表示存儲單元的下標,其初始值為1;
S5.使用t替換掉DNA序列D1中出現的所有重復字符串Str[k],DNA序列D1經過替換后形成新的序列D[1];
S6.令t=t+1,然后對D[1]重復執行步驟S2~S5直至D[1]中剩余的堿基小于e個或最長重復子串小于f個,此時在D[1]中剩余的堿基段的開頭和結尾分別插入分隔符;
S7.對其余的DNA序列依次執行步驟S8~S9的處理:
S8.讀入一條DNA序列Di,對其執行步驟S2~S3的操作,求取到該DNA序列最長的重復字符串Str[h],然后掃描數組a,判斷數組a中是否存儲有與Str[h]匹配的匹配項,若是則使用匹配項所在的存儲單元的下標g替換DNA序列中出現的所有重復字符串Str[h],DNA序列Di經過替換后形成新的序列D[i];否則令t=t+1,然后將重復字符串Str[h]存入數組a的第t個存儲單元a[t]中;并使用t替換掉DNA序列Di中出現的所有重復字符串Str[h],DNA序列Di經過替換后形成新的序列D[i];
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學,未經廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201710188308.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





