[發明專利]一種提高單同位素峰判斷準確率的方法和系統有效
| 申請號: | 201010508217.5 | 申請日: | 2010-10-15 |
| 公開(公告)號: | CN102445544A | 公開(公告)日: | 2012-05-09 |
| 發明(設計)人: | 袁作飛;劉超;王海鵬;付巖;孫瑞祥;賀思敏 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G01N33/68 | 分類號: | G01N33/68;G01N27/62 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提高 同位素 判斷 準確率 方法 系統 | ||
技術領域
本發明涉及質譜數據預處理技術領域,特別是涉及一種提高單同位素峰判斷準確率的方法和系統。
背景技術
質譜儀在蛋白質組學中有著廣泛的應用。利用質譜儀可以鑒定和定量大規模的蛋白質。典型的蛋白質組學鑒定實驗是:未知蛋白質樣品被酶切成肽段的混合物,經液相色譜分離,進入質譜儀進行質量掃描產生一級質譜,再動態選擇一些肽段的離子作為母離子,掃描母離子碎裂后碎片離子的質荷比和強度,產生串聯質譜數據,提交給數據庫搜索引擎(比如pFind、Mascot、SEQUEST等)鑒定出該串聯質譜數據對應的肽段,再從肽段推斷出對應的蛋白質。在數據庫搜索中,依據母離子的單同位素峰質量過濾候選肽段。一個母離子對應一個肽段,每個肽段對應一個同位素峰簇,同位素峰簇中的第一個峰就是單同位素峰。如果把同位素峰的質量當作母離子單同位素峰的質量,在高質量精度下候選肽段中就沒有正確肽段,即得不到正確的鑒定結果。所以判斷母離子的單同位素峰對串聯質譜的鑒定非常重要。
同位素峰的質量被當作母離子單同位素峰的質量是很常見的現象。這個問題與質譜儀中母離子的獲取方式有關。目前常見的母離子獲取方式是DDA(數據依賴的獲取),即選擇同位素峰簇中強度高的峰作為母離子碎裂窗口的中心。但單同位素峰并不一定是同位素峰簇中強度最高的。當母離子的質量大到一定值,比如1500Da時,第二個同位素峰可能比單同位素峰高。研究表明同位素峰的質量被當作母離子單同位素峰的質量的比例高達40%。同位素峰的質量被當作母離子單同位素峰質量的問題不僅嚴重,還充滿挑戰。一方面,低強度的母離子質量精度低,而且同位素峰強度分布的變化很大,和理論同位素峰強度分布不一致,兩者的距離較大。另一方面,在復雜樣品中容易出現多個母離子共洗脫的情況,這會導致對單同位素峰的錯誤解釋。綜上所述,在DDA的過程中或者之后,需要確定母離子的單同位素峰。
目前已有一些算法和軟件來確定母離子的同位素峰簇及其單同位素峰,可以分為以下三類。第一類,基于平均氨基酸模型(averagine?model)。averaginemodel的基本方法是:從蛋白序列的數據庫中根據氨基酸的比例統計一個“平均氨基酸”(其分子式中的元素個數是小數),實驗同位素峰簇的平均質量(實驗強度分布中強度的加權平均質量)除以“平均氨基酸”的平均質量,然后用這個倍數乘以“平均氨基酸”的元素個數,并調整成整數,根據調整后的分子式計算理論同位素峰簇強度分布,計算理論同位素峰簇強度分布和實驗同位素峰簇強度分布的距離;減少或增加實驗同位素峰簇的平均質量(比如變化的間隔為1Da),再重復上面的過程計算距離;最后和實驗同位素峰簇強度分布最近的分子式對應的單同位素峰質量就是所求的質量。
第二類,基于同位素峰的強度比值。Park等人利用同位素峰簇中兩兩相鄰峰的比值和三個相鄰峰的乘積比值來判斷單同位素峰,先從數據庫中統計出前面兩種比值隨肽段質量的分布,給出這兩個分布的最大值、最小值和均值,并擬合出這三個統計值與肽段質量的關系,考慮單同位素峰簇缺失和位置不定的情況,再加上實驗同位素峰簇,這三種情況下根據實驗比值和擬合的比值的距離計算分數,距離近分數大,選擇分數最大的情況對應的質量作為單同位素峰質量。
第三類,基于色譜流出曲線(elution?profile),Cox和Mann利用同位素峰的三維信息(質荷比、強度、色譜保留時間)來判斷同位素峰簇,同位素峰簇的質荷比有相近的間隔,強度隨保留時間有相似的變化趨勢,這兩個信息可以確定候選同位素峰簇,再利用“平均氨基酸模型”判斷單同位素峰。
上述三類確定母離子的同位素峰簇及其單同位素峰的方法,分別存在如下缺陷:
第一類averagine?model的方法,前提假設是理論和實驗同位素峰簇的強度分布相似,但是理論和實驗同位素峰簇強度分布的計算都不夠準確。比如理論同位素峰簇受蛋白序列數據庫、化學標記或者翻譯后修飾的影響,而實驗同位素峰簇受儀器測量精度的影響。所以這種方法可能導致給出的單同位素峰質量和真實的質量相差幾Da。對于大質量的蛋白質,這個精度可能夠了,但對小質量的肽段這個精度遠遠不夠,也就說這個方法測量肽段的單同位素峰質量會不準;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201010508217.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種FPGA六長線及其斜向互連開關的測試方法
- 下一篇:一種燈具升降桿





