[發(fā)明專利]雙向多步deBruijn圖的壓縮存儲和構(gòu)造方法有效
| 申請?zhí)枺?/td> | 201210587059.6 | 申請日: | 2012-12-28 |
| 公開(公告)號: | CN103093121A | 公開(公告)日: | 2013-05-08 |
| 發(fā)明(設(shè)計)人: | 孟金濤;魏彥杰;成杰峰;馮圣中 | 申請(專利權(quán))人: | 深圳先進(jìn)技術(shù)研究院 |
| 主分類號: | G06F19/22 | 分類號: | G06F19/22 |
| 代理公司: | 深圳市科進(jìn)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44316 | 代理人: | 宋鷹武 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 雙向 debruijn 壓縮 存儲 構(gòu)造 方法 | ||
1.一種雙向多步deBruijn圖的壓縮存儲和構(gòu)造方法,其特征在于,包括壓縮存儲步驟,具體為
S11、讀取一個序列s;
S12、將序列s用滑動窗口切割為多個片段t;
S13、對每個片段t,使用核酸編碼表進(jìn)行編碼,并表示為一個64位的整數(shù)a;
S14、將片段t進(jìn)行反轉(zhuǎn),使用對稱互補(bǔ)表將反轉(zhuǎn)的片段互補(bǔ)處理,得到互補(bǔ)片段v,并再次使用步驟S13中的核酸編碼表將互補(bǔ)片段進(jìn)行編碼,并表示為一個64位的整數(shù)b;
S15、取整數(shù)a和整數(shù)b的最大數(shù),作為片段t和互補(bǔ)片段v的k分子的標(biāo)志數(shù);
S16、重復(fù)步驟S11-S15,直至所有序列完成;
和deBruijn圖構(gòu)造步驟,具體為
S21、讀取一個序列s;
S22、將序列s用滑動窗口切割為多個片段t,選取一片段t其標(biāo)志數(shù)為cur、并標(biāo)記其前、后的片段的標(biāo)志數(shù)分別為pre、lat;
S23、若t的編碼小于其互補(bǔ)片段編碼,則交換pre,lat的值;
S24、在cur的正向位置映射表的相應(yīng)bit位置1來表示指向pre的邊;
S25、在cur的反向位置映射表的相應(yīng)bit位置1來表示指向lat的邊;
S26、重復(fù)步驟S22-S25,處理序列s的其他片段t,直至完成序列s的全部片段t,執(zhí)行步驟S27;
S27、讀取一個新的序列s,重復(fù)步驟S22-S26;直至處理完所有的序列,執(zhí)行步驟S28;
S28、完成雙向多步de?Bruijn圖的構(gòu)造。
2.根據(jù)權(quán)利要求1所述的雙向多步deBruijn圖的壓縮存儲和構(gòu)造方法,其特征在于,所述步驟S12、S22中的滑動窗口為長度為k的滑動窗口,其中0<k<32且k為奇數(shù)。
3.根據(jù)權(quán)利要求1所述的雙向多步deBruijn圖的壓縮存儲和構(gòu)造方法,其特征在于,所述步驟S13中的核酸編碼表為{A:00,C:01,G:10,T:11}。
4.根據(jù)權(quán)利要求1所述的雙向多步deBruijn圖的壓縮存儲和構(gòu)造方法,其特征在于,所述步驟S14中的對稱互補(bǔ)表為{A->T,C->G,?G->C,T->A}。
5.根據(jù)權(quán)利要求1所述的雙向多步deBruijn圖的壓縮存儲和構(gòu)造方法,其特征在于,所述步驟S14具體為,將片段t的字符串進(jìn)行反轉(zhuǎn),使用對稱互補(bǔ)表將反轉(zhuǎn)的字符串中每個字符變?yōu)槠浠パa(bǔ)字符,得到互補(bǔ)字符的字符串v,并再次使用步驟S13中的核酸編碼表將字符串v進(jìn)行編碼,并表示為一個64位的整數(shù)b;
6.根據(jù)權(quán)利要求1所述的雙向多步deBruijn圖的壓縮存儲和構(gòu)造方法,其特征在于,所述步驟S22中,若片段t沒有之前或之后的片段,則對pre或者lat值賦為空或NULL。
7.根據(jù)權(quán)利要求1所述的雙向多步deBruijn圖的壓縮存儲和構(gòu)造方法,其特征在于,步驟S24中正向位置映射表為{A:0,C:1,G:2,T:3},位置查詢字符為pre的最后一個字符。
8.根據(jù)權(quán)利要求1所述的雙向多步deBruijn圖的壓縮存儲和構(gòu)造方法,其特征在于,步驟S25中反向位置映射表為{A:4,C:5,G:6,T:7},位置查詢字符為lat的第一個字符的互補(bǔ)字符。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳先進(jìn)技術(shù)研究院,未經(jīng)深圳先進(jìn)技術(shù)研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201210587059.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用





