[發(fā)明專利]一種基于網(wǎng)絡(luò)分析的群lasso特征分群方法在審
| 申請?zhí)枺?/td> | 201510703382.9 | 申請日: | 2015-10-26 |
| 公開(公告)號: | CN105335626A | 公開(公告)日: | 2016-02-17 |
| 發(fā)明(設(shè)計)人: | 李鈞濤;王雅娣;丁瑩;李明;陳留院;董文朋;穆曉霞 | 申請(專利權(quán))人: | 河南師范大學(xué) |
| 主分類號: | G06F19/24 | 分類號: | G06F19/24 |
| 代理公司: | 新鄉(xiāng)市平原專利有限責(zé)任公司 41107 | 代理人: | 路寬 |
| 地址: | 453007 河*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 網(wǎng)絡(luò)分析 lasso 特征 分群 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于生物工程技術(shù)領(lǐng)域,主要涉及生物信息學(xué)和生物數(shù)據(jù)挖掘,具體涉及一種基于網(wǎng)絡(luò)分析的群lasso特征分群方法。
背景技術(shù)
生物工程是以生物學(xué)(主要是基因遺傳學(xué)、細胞學(xué)和生物化學(xué))的理論為基礎(chǔ),結(jié)合機械、電子計算機、化工等現(xiàn)代工程技術(shù),充分運用分子生物學(xué)的最新成就,自覺操縱遺傳物質(zhì),再對這些改造的工程細胞株進行培養(yǎng),通過細胞增殖以生產(chǎn)大量有用代謝產(chǎn)物或發(fā)揮它們獨特生理功能的一門新興技術(shù)。其廣泛的用途主要應(yīng)用于醫(yī)藥衛(wèi)生、食品輕工、農(nóng)牧漁業(yè)、能源化工、冶金工業(yè)、環(huán)境保護等諸多方面。生物工程技術(shù)的合理應(yīng)用將為解決人類面臨的糧食、健康、環(huán)境、能源等重大問題開辟廣闊的前景。
生物工程與計算器微電子技術(shù)、新材料、新能源等被列為21世紀科學(xué)技術(shù)的核心。由于生命科學(xué)和計算機科學(xué)的有機結(jié)合,從而可以通過綜合利用生物學(xué),計算機科學(xué)和信息技術(shù)而揭示大量而復(fù)雜的生物數(shù)據(jù)所賦有的生物學(xué)奧秘。
生物工程著眼于分子層面,是對基因進行改造和重組而后進行培養(yǎng)增殖。對于改造后的細胞植株要想快速培養(yǎng)應(yīng)用于生物醫(yī)藥時,首先應(yīng)從海量未知基因選擇出并找到影響細胞增殖的相關(guān)基因,這也是整個工程中至關(guān)重要的一步。另外,對于基因進行有效地分群,了解其生物意義,還可以開發(fā)出基于這些基因的價格低廉的疾病基因芯片。
目前為止基因的選擇方法可以分為:濾波法、包裝方法、內(nèi)含法。雖然這些方法成功地應(yīng)用于聯(lián)合的基因選擇和微陣列分類,但是卻不能較好的將其應(yīng)用于較多的基因分群之中,也不能揭示出基因與基因之間的相互作用。為了成群地選擇特征的同時并能夠進行精度預(yù)測,2006年Yuan和Lin提出能按照預(yù)先分好的群進行基因選擇的群lasso,Meleretal將其擴展到邏輯斯諦回歸。為了能夠同時產(chǎn)生分群的稀疏性和群內(nèi)稀疏性,Simonetal提出了稀疏群lasso而且通過增廣坐標下降算法發(fā)展了一個算法來擬合這個模型;Vincent等人將它拓展到了多項式稀疏群lasso和發(fā)展了求解算法。盡管群lasso,稀疏群lasso和它們的拓展已經(jīng)成功地應(yīng)用到微陣列分類和基因選擇,但是它們高度賴于群的劃分。傳統(tǒng)的群lasso模型及其推廣模型大多采用數(shù)據(jù)集中編寫程序進行隨機自動分群,常常出現(xiàn)分群只與數(shù)據(jù)有關(guān),與實際應(yīng)用背景無關(guān)(無生物學(xué)意義)。從生物學(xué)角度來說,很容易根據(jù)基因調(diào)控網(wǎng)絡(luò)將基因成群地劃分,然而對于復(fù)雜的生物過程卻很難探測基因通路并構(gòu)建調(diào)控網(wǎng)絡(luò)。因此,對群lasso及其推廣模型進行特征分群是生物信息學(xué)、計算生物學(xué)等領(lǐng)域的一個急需解決的挑戰(zhàn)性問題。
發(fā)明內(nèi)容
本發(fā)明的目的是克服上述方法中存在的缺陷,提出了一種具有可靠性的基于網(wǎng)絡(luò)分析的群lasso及其推廣模型的分群方法,以構(gòu)建分層聚類樹并利用動態(tài)樹剪切算法識別出影響細胞增殖的重要變量模塊,并根據(jù)精簡的網(wǎng)絡(luò)模塊對特征進行分群,進而簡化特征分群難度并提高模型進行特征選擇的可靠性。
本發(fā)明為實現(xiàn)上述目的采用如下技術(shù)方案,通過對實驗數(shù)據(jù)進行預(yù)處理將其分為兩個數(shù)據(jù)集并通過相似性測量和冪鄰接函數(shù)構(gòu)建出鄰接矩陣;然后利用差異性測量分別構(gòu)建出兩類樣本的分層聚類樹并利用動態(tài)剪切樹算法,計算出不同數(shù)據(jù)樣本中的重要模塊;而后用負樣本模塊來簡化正樣本模塊,得到精簡模塊;最后根據(jù)特征變量分群,構(gòu)建稀疏群lasso模型。其實現(xiàn)步驟如下:
(1)對于具體實驗所得到的“小樣本,超高維”數(shù)據(jù),為了降低數(shù)據(jù)運行程序的負擔(dān),依據(jù)實際實驗背景,將原始數(shù)據(jù)中的異常數(shù)據(jù),小關(guān)聯(lián)數(shù)據(jù)篩選出來去掉,從而得到分群預(yù)處理數(shù)據(jù)集X=[Xhj]m×n;
(2)根據(jù)分類任務(wù)的類別,將分群預(yù)處理數(shù)據(jù)集X分為兩類,即X+,X-;通過相似性測量和冪鄰接函數(shù),分別構(gòu)建出鄰接矩陣
(3)將鄰接矩陣轉(zhuǎn)化為拓撲重疊矩陣,利用差異性測量分別構(gòu)建正樣本和負樣本的分層聚類樹;
(4)利用動態(tài)剪切樹算法,分別計算出正樣本中的重要模塊和負樣本中的重要模塊;
(5)根據(jù)實際的實驗背景,利用負樣本中的模塊來簡化正樣本中的模塊,得到q個精簡模塊;根據(jù)精簡后的網(wǎng)絡(luò)模塊,把相應(yīng)的變量分為特征群,余下的每一個變量分別看作一個特征群,進而完成特征分群任務(wù);
(6)根據(jù)上述分群策略將特征變量分成q個群,并構(gòu)建稀疏群lasso模型:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河南師范大學(xué),未經(jīng)河南師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201510703382.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進化的,例如:進化的保存區(qū)域決定或進化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓撲,用結(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 基于SpatiaLite數(shù)據(jù)庫的電網(wǎng)設(shè)備網(wǎng)絡(luò)分析方法和系統(tǒng)
- 矢量網(wǎng)絡(luò)分析儀的不確定度分析方法
- 一種用于IDC有害信息監(jiān)測平臺的數(shù)據(jù)分析系統(tǒng)
- 一種網(wǎng)絡(luò)分析系統(tǒng)
- 一種應(yīng)用于網(wǎng)絡(luò)分析儀的測量結(jié)果存儲方法
- 一種多端口測量矢量網(wǎng)絡(luò)分析儀
- 語音交互方法、網(wǎng)絡(luò)分析端及客戶端
- 一種靈活實現(xiàn)多端口矢量網(wǎng)絡(luò)分析儀測試功能的方法及系統(tǒng)
- 一種客戶端網(wǎng)絡(luò)分析方法及裝置
- 一種傾斜度可調(diào)支撐式矢量網(wǎng)絡(luò)分析儀
- 基于路網(wǎng)空間關(guān)系約束Lasso的短時交通流預(yù)測方法
- 一種基于網(wǎng)絡(luò)分析的群lasso特征分群方法
- 一種基于圖形處理單元加速算法的壓縮感知方法
- 一種應(yīng)用于河流水位預(yù)測數(shù)據(jù)的特征選擇分解方法
- 一種基于局部加權(quán)Lasso的近紅外模型在線更新方法
- 基于LASSO回歸的土地利用變化驅(qū)動力篩選方法和裝置
- 基于LASSO模型的銅期貨價格預(yù)測方法
- 種子純度檢測方法、檢測裝置及計算機可讀存儲介質(zhì)
- 一種川崎病丙球無反應(yīng)預(yù)測方法、存儲介質(zhì)及終端設(shè)備
- 一種強噪聲下基于加窗LASSO的聲源定位方法





