[發(fā)明專利]基于概率主題模型和中藥基本屬性的方劑功能預(yù)測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201611244641.7 | 申請(qǐng)日: | 2016-12-29 |
| 公開(公告)號(hào): | CN106803012B | 公開(公告)日: | 2019-03-22 |
| 發(fā)明(設(shè)計(jì))人: | 王李冬;勾治踐;胡克用;張赟;葉霞 | 申請(qǐng)(專利權(quán))人: | 杭州師范大學(xué)錢江學(xué)院 |
| 主分類號(hào): | G16H70/40 | 分類號(hào): | G16H70/40;G16H20/10;G16H50/70 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 杜軍 |
| 地址: | 310036 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 概率 主題 模型 中藥 基本 屬性 方劑 功能 預(yù)測(cè) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及文本挖掘和中醫(yī)藥信息處理領(lǐng)域。尤其是涉及一種基于概率主題模型和中藥基本屬性的方劑功能預(yù)測(cè)方法。
背景技術(shù)
中醫(yī)是中國(guó)創(chuàng)造的以傳統(tǒng)醫(yī)學(xué)為主的醫(yī)學(xué)。上千年的積累使得中醫(yī)積累了內(nèi)容豐富的醫(yī)學(xué)典籍與記錄,這些資源蘊(yùn)含了大量未知的知識(shí)。隨著數(shù)字化技術(shù)的發(fā)展,中醫(yī)藥數(shù)字化資源越來越龐大,越來越多的學(xué)者也將數(shù)據(jù)挖掘技術(shù)應(yīng)用于中醫(yī)藥以實(shí)現(xiàn)特定目的的分析與規(guī)律發(fā)現(xiàn)。方劑學(xué)作為中醫(yī)藥學(xué)的一個(gè)研究分支,需要按照組方原則,選擇恰當(dāng)?shù)乃幬锖侠砼湮椋枚ê线m的劑量、劑型和用法。其中,一個(gè)方劑的功效往往需要通過過漫長(zhǎng)復(fù)雜的動(dòng)物或臨床實(shí)驗(yàn),但臨床或動(dòng)物實(shí)驗(yàn)耗費(fèi)大量的人力、物力及時(shí)間。如果通過計(jì)算機(jī)信息挖掘技術(shù)對(duì)新形成的方劑進(jìn)行預(yù)測(cè),獲得該方劑的部分功效信息,就可以為開展大規(guī)模臨床或動(dòng)物實(shí)驗(yàn)提供極其有價(jià)值的參考,大大提升臨床的實(shí)驗(yàn)效率。鑒于此,本案發(fā)明人的關(guān)注點(diǎn)在于如何通過計(jì)算機(jī)信息挖掘技術(shù),利用現(xiàn)有的中醫(yī)藥數(shù)字資源實(shí)現(xiàn)方劑的功效預(yù)測(cè),從而為方劑研究提供有價(jià)值的臨床證據(jù)。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于概率主題模型和中藥基本屬性的方劑功能預(yù)測(cè)方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案包括以下步驟:
步驟1、數(shù)據(jù)預(yù)處理
針對(duì)方劑大辭典數(shù)據(jù)庫,應(yīng)用中醫(yī)藥學(xué)語分詞系統(tǒng)對(duì)方劑信息進(jìn)行分詞處理,提取出方劑名、方劑功效、方劑對(duì)應(yīng)的中藥、中藥劑量和劑量單位,對(duì)劑量單位進(jìn)行統(tǒng)一化,對(duì)方劑中的中藥劑量進(jìn)行標(biāo)準(zhǔn)化;針對(duì)中藥數(shù)據(jù)庫,應(yīng)用中醫(yī)藥學(xué)分詞系統(tǒng)對(duì)中藥的功效、性味和歸經(jīng)三大屬性進(jìn)行分詞,去停用詞,對(duì)提取出來的結(jié)構(gòu)化屬性數(shù)據(jù)進(jìn)行0-1量化處理,得到每味中藥的屬性向量,存入數(shù)據(jù)庫,所述的方劑大辭典數(shù)據(jù)庫和中藥數(shù)據(jù)庫均為半結(jié)構(gòu)化數(shù)據(jù)。
步驟2、根據(jù)方劑名和方劑對(duì)應(yīng)的中藥,得到“方劑-中藥”矩陣,將方劑功效作為隱含主題,應(yīng)用LDA概率主題模型對(duì)“方劑-中藥”矩陣進(jìn)行主題建模,在模型中結(jié)合配伍數(shù)據(jù)庫得到方劑功效和中藥之間治療關(guān)系的概率屬性向量,存入數(shù)據(jù)庫。
步驟3、根據(jù)每幅方劑的中藥列表和統(tǒng)一化后的中藥劑量,計(jì)算中藥在方劑中的頻次,取頻次最高的兩味中藥作為君藥和臣藥,并根據(jù)中藥的頻次利用TFIDF模型提取中藥在方劑中的權(quán)重系數(shù),構(gòu)造方劑的權(quán)重向量,存入數(shù)據(jù)庫。
步驟4、按照中醫(yī)傳統(tǒng)理論中的組方原則,方劑中的中藥有君臣佐使之分,而方劑的功效主要由君藥和臣藥決定。針對(duì)方劑大辭典數(shù)據(jù)庫中的每副方劑,合并君藥的屬性向量、臣藥的屬性向量以及方劑的權(quán)重向量,構(gòu)成方劑的特征向量,輸入SVM分類器對(duì)模型進(jìn)行訓(xùn)練,通過one-versus-rest方法構(gòu)造多類別分類器。
步驟5、輸入需要預(yù)測(cè)的新方劑信息,新方劑信息包括中藥名和相應(yīng)的劑量;根據(jù)方劑功效和中藥之間關(guān)系的概率屬性向量,應(yīng)用貝葉斯公式計(jì)算該方劑隸屬于某個(gè)功效的概率值,根據(jù)概率值從大到小排序,選取在特定閾值范圍內(nèi)的功效,得到功效集合一U1(U1有可能為空集)。
步驟6、根據(jù)步驟4得到待預(yù)測(cè)方劑的特征向量,輸入SVM多分類器進(jìn)行方劑功效預(yù)測(cè),得到功效集合二U2。
步驟7、將功效集合一和功效集合二作并集操作,得到最終的方劑功效集合U=U1∪U2。
所述步驟1的具體實(shí)現(xiàn)內(nèi)容包括:
①將中藥的不同劑量單位按照下列規(guī)則統(tǒng)一換算成克:
一兩=31.25克
一錢=3.125克
一分=0.3125克
②按照下列公式對(duì)方劑中不同中藥的劑量繼續(xù)標(biāo)準(zhǔn)化:
其中:di表示方劑中某中藥的劑量,代表標(biāo)準(zhǔn)化后的中藥劑量,dmax表示某中藥常用劑量中的最大值;dmin表示某中藥常用劑量中的最小值;
③所述的方劑功效包括和解劑、固澀劑、安神劑、開竅劑、治燥劑、治風(fēng)劑、瀉下劑、消導(dǎo)化積劑、表里雙解劑、清熱劑、溫里劑、理氣劑、理血?jiǎng)b瘍劑、祛暑劑、祛濕劑、祛痰劑、補(bǔ)益劑、解表劑、驅(qū)蟲劑。
④所述的中草藥性味指藥物的性質(zhì)和氣味,即四氣五味,包括寒、熱、溫、涼、辛、甘、酸、苦、咸。歸經(jīng)采用十二臟腑經(jīng)絡(luò)法表述,歸心、肝、脾、肺、腎、胃、大腸、小腸、膀胱、膽、心包、三焦經(jīng)。功效以雙字詞為單位描述,如“清熱”、“解毒”、“涼血”等。其中,性味中出現(xiàn)“微寒”,“微熱”等表述,用0.5量化,其余采用0-1量化構(gòu)造向量空間。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州師范大學(xué)錢江學(xué)院,未經(jīng)杭州師范大學(xué)錢江學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201611244641.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





