[發明專利]一種基于網絡分析的群lasso特征分群方法在審
| 申請號: | 201510703382.9 | 申請日: | 2015-10-26 |
| 公開(公告)號: | CN105335626A | 公開(公告)日: | 2016-02-17 |
| 發明(設計)人: | 李鈞濤;王雅娣;丁瑩;李明;陳留院;董文朋;穆曉霞 | 申請(專利權)人: | 河南師范大學 |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 新鄉市平原專利有限責任公司 41107 | 代理人: | 路寬 |
| 地址: | 453007 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 網絡分析 lasso 特征 分群 方法 | ||
1.一種基于網絡分析的群lasso特征分群方法,其特征在于具體步驟為:
步驟(1),用基因探針探測出大鼠2/3肝切除后肝細胞樣本在2、6、12、24小時的基因表達譜數據,將其標記為正樣本數據,同樣方法可得未進行肝切除的對照組數據,將其標記為負樣本數據,將原始數據中的基因變異、異常數據和小關聯數據篩選出來去掉,從而得到分群預處理數據,其中未知變量(特征)為6995個;
步驟(2),上述分群預處理數據,其為在4個時間節點采集的正負兩類基因表達譜數據,每一類包含36個樣本,每一個樣本包含6995個變量(特征),從而構建數據網絡集
步驟(3),依據相似性測量和冪鄰接函數,將預處理數據集X+,X-轉化為鄰接網絡矩陣
步驟(4),由公式Kj=∑uaju(j=1,2,…,3600)得到一個變量與群體變量的相關度矩陣,將Kj按照從大到小進行排序,分別在兩類數據集中挑選出前3600個相關度較強的變量;
步驟(5),在上面選擇的3600個變量中將鄰接矩陣轉化為拓撲重疊矩陣,計算出每個集合中的變量之間的相異系數構建出實驗樣本和對照樣本分層聚類樹,利用動態剪切樹算法分別識別出實驗樣本中的重要模塊和對照樣本中的重要模塊,根據實際的實驗背景,利用對照樣本中的模塊來簡化實驗樣本中的模塊,識別出簡化的實驗變量模塊為12個,根據識別出的12個網絡模塊,把相應的3145個變量分為12個特征群,余下的每一個變量分別看作一個特征群,共計獲得獲得3862個特征群,進而完成特征分群任務;
步驟(6),根據上述分群策略構建稀疏群lasso模型:
計算出回歸系數,非零的回歸系數對應肝再細胞增殖相關的重要基因,且回歸系數的絕對值越大,該基因與細胞增殖的相關性也就越強。在上述模型中β為變量回歸系數,m為正負樣本總個數72,y=(1,2,…,72)T為時間響應向量,X(l)為第l群的系統矩陣,q為特征群的總個數3862,α∈[0,1]為模型正則化系數,λ為通過十重交叉檢驗方法取出的變量參數為2,pl為第l群中的變量數目。
2.根據權利要求1所述的基于網絡分析的群lasso特征分群方法,其特征在于步驟(5)的具體實施過程為:
(1)針對正、負樣本的鄰接矩陣,按照計算出網絡中第h個變量與第j個變量的節點的拓撲矩陣,其中lhj=∑uahuauj(h,j=1,2,…,3600),如果ωhj=0,則表示第h個變量和第j個變量不共同擁有相同的鄰接變量節點,進而將鄰接矩陣轉化為拓撲重疊矩陣,即
(2)依據變量之間的相異系數構建出變量分層聚類樹;
(3)利用動態剪切樹算法分別識別出實驗樣本中和對照樣本中的重要模塊;
(4)選擇出正、負樣本在分層聚類樹中顯示相同顏色的模塊,利用程序在正樣本中比較出與負樣本具有相同數據特征的變量,并篩選出來去掉;據此去掉455個特征后,得出精簡后的12個網絡模塊;
(5)根據精簡后的12個網絡模塊,把相應的3145個變量分為12個特征群,余下的每一個變量分別看作一個特征群,共計獲得3862個特征群,進而完成特征分群任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河南師范大學,未經河南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201510703382.9/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建模或仿真,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





