[發明專利]病原微生物基因組數據庫及其建立方法有效
| 申請號: | 201910779825.0 | 申請日: | 2019-08-22 |
| 公開(公告)號: | CN110473594B | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 許騰;陳文景;李永軍;王小銳;蘇杭 | 申請(專利權)人: | 廣州微遠基因科技有限公司 |
| 主分類號: | G16B35/10 | 分類號: | G16B35/10 |
| 代理公司: | 廣州新諾專利商標事務所有限公司 44100 | 代理人: | 李海恬 |
| 地址: | 510130 廣東省廣州市高新技術產業開發*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 病原微生物 基因組 數據庫 及其 建立 方法 | ||
1.一種病原微生物基因組數據庫的建立方法,其特征在于,包括以下步驟:
數據獲取:獲取病原微生物基因組數據;
菌株基因組篩選:按照預定篩選規則選取物種菌株基因組;
去除質粒序列:去除上述菌株基因組中存在的質粒序列;
過濾:按照預定過濾規則,去除標注信息有誤、染色體組裝不完整,以及分類錯誤的菌株,得到該物種的參考菌株基因組;
構建融合基因組:將上述參考菌株基因組打斷,得到序列集,將上述序列集中的序列通過比較去除冗余,再對非冗余數據集進行組裝得到重新組裝的基因組,并過濾低質量的Contigs,根據長度將Contigs從大到小重新拼接,得到該物種的融合基因組;
組庫:重復上述步驟,得到預定物種的融合基因組,匯總,即得病原微生物基因組數據庫。
2.根據權利要求1所述的病原微生物基因組數據庫的建立方法,其特征在于,所述數據獲取步驟中,所述病原微生物基因組數據來源于PATRIC數據庫和/或NCBI的RefSeq和Genbank數據庫中分類為archaea、bacteria、fungi、protozoa和viral的基因組數據。
3.根據權利要求1所述的病原微生物基因組數據庫的建立方法,其特征在于,所述菌株基因組篩選步驟中,所述篩選規則為:
如物種具有若干個菌株基因組數據,則選取組裝完成且組裝質量高的菌株基因組數據;
如物種僅有單個菌株基因組數據,則直接選取該菌株基因組數據。
4.根據權利要求1所述的病原微生物基因組數據庫的建立方法,其特征在于,所述過濾步驟中,所述過濾規則包括勘誤過濾規則,所述勘誤過濾規則為:
如物種為多菌株基因組的物種,統計各菌株基因組的Chromosome和Contig數量,若Contig數量大于Chromosome數量,剩余Contig無信息標注的,則舍棄該菌株基因組;
如物種為單菌株基因組的物種,計算該菌株基因組的Contig數及每個Contig的長度,進而獲得該單菌株基因的N90,舍棄N90以外的Contigs;或者,舍棄長度小于設定值的Contigs。
5.根據權利要求1-4任一項所述的病原微生物基因組數據庫的建立方法,其特征在于,所述構建融合基因組步驟中,具體包括以下步驟:
基因組打斷:將所述參考菌株基因組打斷為長度為n且移步步長為k的序列集;
序列集去冗余:以上述序列集中的一條序列為參考序列集,將其余序列分別與該參考序列集比較,如100%匹配,則將該條序列舍棄,若非100%匹配則加入到參考集中,重復上述步驟,歷遍整個序列集,得到非冗余序列集;
非冗余序列集組裝:對上述非冗余序列集進行組裝,組裝完成后統計Contigs的長度,指定長度L,過濾長度小于L的Contigs,得到重新組裝的基因組;
基因組Contigs拼接:根據長度將Contigs從大到小排序,Contigs間使用m個連續N連接,融合為完整的基因組,得到的該物種的融合基因組;其中,N指在數據庫中以符號“N”表示序列間隙和不同菌株的連接。
6.根據權利要求5所述的病原微生物基因組數據庫的建立方法,其特征在于,所述n為30~10000的自然數;所述k為1~n的自然數。
7.根據權利要求6所述的病原微生物基因組數據庫的建立方法,其特征在于,所述n選自:100~500。
8.根據權利要求5所述的病原微生物基因組數據庫的建立方法,其特征在于,所述非冗余序列集組裝步驟中,所述長度L為100~10000。
9.根據權利要求5所述的病原微生物基因組數據庫的建立方法,其特征在于,所述基因組Contigs拼接步驟中,m為大于4的自然數。
10.權利要求1所述的建立方法得到的病原微生物基因組數據庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州微遠基因科技有限公司,未經廣州微遠基因科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201910779825.0/1.html,轉載請聲明來源鉆瓜專利網。





