[發明專利]基于分子子網與隨機森林分類器的癌癥化療敏感性預測方法在審
| 申請號: | 201510027813.4 | 申請日: | 2015-01-20 |
| 公開(公告)號: | CN104573410A | 公開(公告)日: | 2015-04-29 |
| 發明(設計)人: | 史明光;何建民 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分子 子網 隨機 森林 分類 癌癥 化療 敏感性 預測 方法 | ||
1.基于分子子網與隨機森林分類器的癌癥化療敏感性預測方法,其特征是:
融合腫瘤基因表達譜數據、腫瘤突變基因組信息以及蛋白質相互作用組信息,基于重啟的隨機行走模型,挖掘致癌抑癌基因分子子網,實現特征提取;
以所述分子子網作為輸入特征,基于癌癥患者的生物表達譜數據,設計基于隨機森林算法的訓練模型,將所述訓練模型用于獨立測試集的測試,得到患者化療敏感性評價結果;
所述腫瘤基因表達譜數據是指:利用基因表達譜數據平臺得到的腫瘤基因表達譜數據;
所述腫瘤突變基因組信息是指:基于已知的腫瘤突變基因數據庫得到引起細胞癌變的原癌基因和抑癌基因;
所述蛋白質相互作用組信息,是指利用已知的蛋白質相互作用數據集篩選出已經被實驗證實的蛋白質相互作用對。
2.根據權利要求1所述的基于分子子網與隨機森林分類器的癌癥化療敏感性預測方法,其特征是:實現特征提取是按如下過程進行:
(1)構建蛋白質相互作用網絡
蛋白質相互作用網絡記作為隨機游走圖G,G=(V,E);所述隨機游走圖G的節點V={vi|1≤i≤n},vi是基因,n是出現在蛋白質相互作用網絡中的基因個數;隨機游走圖G的邊為E,E={(vi,vj)|1≤i≤n,1≤j≤n},當基因vi與基因vj存在相互作用關系時,(vi,vj)=1,否則(vi,vj)=0;
(2)將腫瘤突變基因組信息作為初始節點映射到隨機游走圖G;
(3)基于重啟的隨機行走模型,計算基因的概率分布
利用式(1)經過多次迭代計算獲得基因的輸出概率分布向量:
pt+1=(1-r)wpt+rp0?????(1)
式(1)中,r是跳轉發生概率,w是鄰接矩陣,p0是初始概率分布向量,pt是在時刻t發生跳轉時,跳轉到隨機游走圖G中每個節點的概率分布向量,pt+1是每次游走過程后的輸出概率分布向量;p0定義為:其中mi是指基因vi出現在不同種類癌癥中的突變次數之和;鄰接矩陣w定義為:
當時,隨機行走模型迭代計算結束;
(4)計算基因的局部評價指標pl與全局評價指標pg
所述局部評價指標pl是指每個節點的局部零分布得分,是從同一節點的所有隨機分數計算得到;所述全局評價指標pg是指每個節點的全局零分布得分,是從所有節點的隨機分數計算得到;篩選出局部評價指標pl與全局評價指標pg均小于設定的閾值的基因,將所有篩選到的基因構建分子子網,實現特征提取。
3.根據權利要求1或2所述的基于分子子網與隨機森林分類器的癌癥化療敏感性預測方法,其特征是以所述分子子網作為輸入特征,按如下方法獲得患者化療敏感性評價結果:
(1)以分子子網作為輸入特征,設計基于訓練集的隨機森林模型
隨機森林模型包括分類器個數ntree和各分離點基因的選擇個數mtry,所述分類器個數ntree的選擇范圍是{101,102,103,104},所述各分離點基因的選擇個數mtry的選擇范圍是{21,22,23,24,25,26,27},通過選擇不同的分類器個數ntree和各分離點基因的選擇個數mtry構成28種不同參數組合的待選隨機森林模型;
(2)對于所述各待選隨機森林模型,基于分層取樣方法設計五折交叉驗證算法,把訓練集分為化療敏感與化療不敏感兩類,并分別得到各待選隨機森林模型的ROC曲線,以所述各ROC曲線的面積AUC值作為評價指標;
(3)以面積AUC值最大所對應的待選隨機森林模型作為訓練模型,將所述訓練模型用于獨立測試集的測試,從而將癌癥患者分為化療敏感和化療不敏感兩類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201510027813.4/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





