[發明專利]一種生物標志物相關性可視化方法以及裝置有效
| 申請號: | 201410853550.8 | 申請日: | 2014-12-30 |
| 公開(公告)號: | CN104573411B | 公開(公告)日: | 2018-04-17 |
| 發明(設計)人: | 周豐豐;孟慶漢 | 申請(專利權)人: | 深圳先進技術研究院 |
| 主分類號: | G06F19/26 | 分類號: | G06F19/26 |
| 代理公司: | 廣州三環專利商標代理有限公司44202 | 代理人: | 郝傳鑫,熊永強 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 標志 相關性 可視化 方法 以及 裝置 | ||
技術領域
本發明涉及生物技術領域,尤其涉及一種生物標志物相關性可視化方法以及裝置。
背景技術
基因表達譜等生物數據往往具有幾萬甚至數十萬個標志物,其中,標志物反應了生物的一方面化學、生物類物質的性質。對這些標志物進行相關性檢測分析是很多研究的基礎。在現有技術中,通常是在二維空間利用相似性矩陣來表達標志物之間的關系。其中,相似性矩陣的行坐標a和列坐標b都是標志物,而相似性矩陣中的第a行第b列的元素值,代表第a個標志物和第b個標志物之間的相似性。相似性的度量往往有很多種,比如相關系數,歐拉距離,余弦函數等。
在這種方式下,使用者每次只能觀察兩個標志物之間的相關性,例如,要觀察第a個標志物和第b個標志物之間的相似性,可以通過觀察相似性矩陣中的第a行第b列的元素值。但是,如果要求同時觀察三個或者更多的標志物之間的相關性,則無法通過二維的相似矩陣進行觀察,而必須在更高維的空間才能進行觀察。例如,要觀察三個標志物的相關性,則必須在三維空間進行觀察;要觀察四個標志物的相關性,則必須在三維空間進行觀察,等等。所以,當生物數據包含幾萬甚至數十萬個標志物,空間維數將復雜得超乎思維可以想象的程度。
發明內容
本發明實施例所要解決的技術問題在于,提供一種生物標志物相關性可視化方法以及裝置,實現了將所有標志物的相關性降維至可視化的低維度進行顯示。
本發明第一方面提供了一種生物標志物相關性可視化方法,包括:
根據第i個標志物的多個采樣樣本計算所述第i個標志物的費舍爾比率,其中,i為正整數,i小于或等于M,M為所述標志物的數量,N為所述采樣樣本的數量;
重復上一個步驟,直到求出每個的標志物的費舍爾比率;
根據第a個標志物的多個采樣樣本和第b個標志物的多個采樣樣本計算出第a個標志物和第b個標志物之間的距離,其中,a,b均為正整數,a,b均小于或等于M;
重復上一個步驟,直到求出任意兩個標志物之間的距離;
將所有的兩個標志物之間的距離和降維后的維度作為多維標度算法的輸入,從而獲得每個標志物的坐標值;
根據每個標志物的費舍爾比率獲得每個標志物在散點圖上的大小,并根據每個標志物的坐標值獲得每個標志物在散點圖上的坐標,進而使得所述標志物相關性可視化。
其中,根據第i個標志物的多個采樣樣本計算所述第i個標志物的費舍爾比率之前包括:
根據所述第i個標志物的多個采樣樣本進行歸一化計算,以得到多個歸一化后的采樣樣本;
根據第i個標志物的多個采樣樣本計算所述第i個標志物的費舍爾比率具體為:
根據第i個標志物的多個歸一化后的采樣樣本計算所述第i個標志物的費舍爾比率。
其中,根據所述第i個標志物的多個采樣樣本進行歸一化計算,以得到多個歸一化后的采樣樣本具體為:
根據進行歸一化計算,以得到多個歸一化后的采樣樣本,其中,Xi為所述第i個標志物的多個采樣樣本所組成的向量,ui為所述第i個標志物的多個采樣樣本的平均值,ρi為所述第i個標志物的多個采樣樣本的標準差,X′i為多個歸一化后的采樣樣本所組成的向量。
其中,根據第i個標志物的多個歸一化后的采樣樣本計算所述第i個標志物的費舍爾比率具體為:
根據求出第i個標志物中類別為0的采樣樣本的平均值,其中,j為第i個標志物中采樣樣本的序號,Yj為第i個標志物中第j個采樣樣本的類別,當Yj=0時,第j個采樣樣本的類別為0,當Yj=1時,第j個采樣樣本的類別為1,為第i個標志物的第j個歸一化后的采樣樣本的值,m0為第i個標志物中類別為0的采樣樣本的平均值;
根據求出第i個標志物中類別為0的采樣樣本的標準差,其中,v0為第i個標志物中類別為0的采樣樣本的標準差;
根據求出第i個標志物中類別為1的采樣樣本的平均值,其中,m1為第i個標志物中類別為1的采樣樣本的平均值;
根據求出第i個標志物中類別為1的采樣樣本的標準差,其中,v1為第i個標志物中類別為1的采樣樣本的標準差;
根據計算第i個標志物的費舍爾比率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳先進技術研究院,未經深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201410853550.8/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





