[發(fā)明專利]真菌基因組測序數(shù)據(jù)自動分析方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110271328.7 | 申請日: | 2021-03-12 |
| 公開(公告)號: | CN113035277A | 公開(公告)日: | 2021-06-25 |
| 發(fā)明(設(shè)計)人: | 劉健;孫嘉良;陳嬌 | 申請(專利權(quán))人: | 南開大學(xué) |
| 主分類號: | G16B30/10 | 分類號: | G16B30/10;G16B30/20;G16B40/00;G16B50/10 |
| 代理公司: | 濟(jì)南圣達(dá)知識產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 閆圣娟 |
| 地址: | 300071 天津*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 真菌 基因組 序數(shù) 自動 分析 方法 系統(tǒng) | ||
1.一種真菌基因組測序數(shù)據(jù)自動分析方法,其特征在于,包括:
獲取真菌基因組測序數(shù)據(jù),判斷測序數(shù)據(jù)類型;
根據(jù)測序數(shù)據(jù)的類型分別進(jìn)行相應(yīng)預(yù)處理;
將預(yù)處理后的測序數(shù)據(jù)進(jìn)行組裝,得到組裝后的contigs;
基于基因組序列對比對contigs的相似參考基因組進(jìn)行初步篩選,獲得候選參考基因組;
利用MinHash數(shù)據(jù)結(jié)構(gòu)從候選參考基因組中估算所述contigs的相似參考基因組,實(shí)現(xiàn)真菌基因組鑒定;并利用獲得的相似參考基因組對所述contigs進(jìn)行下游分析;實(shí)現(xiàn)真菌基因組測序數(shù)據(jù)的自動分析。
2.如權(quán)利要求1所述的一種真菌基因組測序數(shù)據(jù)自動分析方法,其特征在于,所述基因組序列對比具體包括:
構(gòu)建真菌參考基因組數(shù)據(jù)集,并建立真菌參考基因組數(shù)據(jù)集的索引;
對于組裝后的contigs,與所述真菌參考基因組數(shù)據(jù)集進(jìn)行基因組比對;
根據(jù)比對結(jié)果計算相似參考基因組的分?jǐn)?shù),根據(jù)所述分?jǐn)?shù)進(jìn)行相似參考基因組的初步篩選。
3.如權(quán)利要求1所述的一種真菌基因組測序數(shù)據(jù)自動分析方法,其特征在于,利用MinHash數(shù)據(jù)結(jié)構(gòu)從候選參考基因組中估算所述contigs的相似參考基因組,具體包括:將contigs序列片段和所有候選參考基因組中的序列片段剪切成預(yù)設(shè)長度的小片段后存入哈希表中;然后計算兩個序列片段存入的哈希表的相似度,將相似度最高的候選參考基因組作為相似的參考基因組。
4.如權(quán)利要求1所述的一種真菌基因組測序數(shù)據(jù)自動分析方法,其特征在于,所述方法還包括真菌基因組注釋,具體包括:
根據(jù)測序數(shù)據(jù)類型分別利用相應(yīng)注釋工具對真菌基因組進(jìn)行處理;
通過比對得到的對齊起止位置和相似參考基因組對應(yīng)的蛋白質(zhì)注釋文件中包含的CDS位置,自動獲得相對于相似參考基因組的CDS注釋信息。
5.如權(quán)利要求1所述的一種真菌基因組測序數(shù)據(jù)自動分析方法,其特征在于,所述預(yù)處理具體包括序列質(zhì)量評估、序列質(zhì)量控制和質(zhì)量控制后的序列質(zhì)量評估。
6.如權(quán)利要求1所述的一種真菌基因組測序數(shù)據(jù)自動分析方法,其特征在于,所述數(shù)據(jù)類型包括短讀長測序數(shù)據(jù)和長讀長測序數(shù)據(jù)。
7.一種真菌基因組測序數(shù)據(jù)自動分析系統(tǒng),其特征在于,包括:
數(shù)據(jù)獲取單元,其用于獲取真菌基因組測序數(shù)據(jù),判斷測序數(shù)據(jù)類型;
預(yù)處理單元,其用于根據(jù)測序數(shù)據(jù)的類型分別進(jìn)行相應(yīng)預(yù)處理;
相似參考基因組鑒定單元,其用于將預(yù)處理后的測序數(shù)據(jù)進(jìn)行組裝,得到組裝后的contigs,基于基因組序列對比對contigs的相似參考基因組進(jìn)行初步篩選,獲得候選參考基因組;利用MinHash數(shù)據(jù)結(jié)構(gòu)從候選參考基因組中估算所述contigs的相似參考基因組;
自動分析單元,其用于實(shí)現(xiàn)真菌基因組鑒定;并利用獲得的相似參考基因組對所述contigs進(jìn)行下游分析;實(shí)現(xiàn)真菌基因組測序數(shù)據(jù)的自動分析。
8.如權(quán)利要求7所述的一種真菌基因組測序數(shù)據(jù)自動分析系統(tǒng),其特征在于,所述真菌基因組測序數(shù)據(jù)自動分析系統(tǒng)還包括真菌基因組注釋單元,其用于根據(jù)測序數(shù)據(jù)類型分別利用相應(yīng)注釋工具對真菌基因組進(jìn)行注釋。
9.如權(quán)利要求7所述的一種真菌基因組測序數(shù)據(jù)自動分析系統(tǒng),其特征在于,所述預(yù)處理具體包括序列質(zhì)量評估、序列質(zhì)量控制和質(zhì)量控制后的序列質(zhì)量評估。
10.一種計算機(jī)可讀指令,其特征在于,該程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1-6任一項(xiàng)所述的一種真菌基因組測序數(shù)據(jù)自動分析方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南開大學(xué),未經(jīng)南開大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202110271328.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 序數(shù)鐘表
- 一種時序數(shù)據(jù)的處理方法及裝置
- 一種FPGA程序數(shù)據(jù)的加載方法及裝置
- 一種時序數(shù)據(jù)流分割方法、裝置及其存儲介質(zhì)
- 一種工業(yè)時序數(shù)據(jù)的訪問方法及系統(tǒng)
- 一種時序數(shù)據(jù)的平滑處理方法和裝置
- 時序數(shù)據(jù)多層次語義裁剪方法、裝置、電子設(shè)備及介質(zhì)
- 一種數(shù)據(jù)存儲方法、裝置、服務(wù)器及存儲介質(zhì)
- 一種時序數(shù)據(jù)異常檢測方法、裝置、設(shè)備及存儲介質(zhì)
- 一種基因測序數(shù)據(jù)排序方法、集成電路及排序設(shè)備





