[發(fā)明專利]基于五音階樂律聲譜圖和級聯(lián)神經(jīng)網(wǎng)絡(luò)的戲曲分類方法有效
| 申請?zhí)枺?/td> | 202010315772.X | 申請日: | 2020-04-21 |
| 公開(公告)號: | CN111583957B | 公開(公告)日: | 2023-04-28 |
| 發(fā)明(設(shè)計(jì))人: | 韋崗;黃勛;曹燕 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30;G10L25/51;G06F17/18;G06F18/2415;G06N3/0464;G06N3/044 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 詹麗紅 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 音階 樂律 聲譜 級聯(lián) 神經(jīng)網(wǎng)絡(luò) 戲曲 分類 方法 | ||
1.一種基于五音階樂律聲譜圖和級聯(lián)神經(jīng)網(wǎng)絡(luò)的戲曲分類方法,其特征在于,所述的戲曲分類方法包括如下步驟:
S1、對戲曲音頻文件進(jìn)行預(yù)處理;
S2、提取基于五音階樂律的聲譜圖,過程如下:
S201、對于經(jīng)過步驟S1預(yù)處理獲得的每一幀的音頻信號,通過常數(shù)Q變換得到對應(yīng)的頻譜;
S202、通過基于戲曲五聲音階設(shè)計(jì)的濾波器組,得到對應(yīng)的濾波信號的能量為每一幀音頻信號對應(yīng)的輸出向量;
S203、對每一幀音頻信號對應(yīng)的輸出向量進(jìn)行對數(shù)變換;
S204、按幀的順序進(jìn)行拼接每一幀的音頻信號對應(yīng)的輸出向量,獲得每一個(gè)戲曲片段對應(yīng)的矩陣;
S3、將提取的五音階樂律聲譜圖送入級聯(lián)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練或者預(yù)測,所述的級聯(lián)神經(jīng)網(wǎng)絡(luò)由兩級模型組成,其中,第一級模型基于T秒戲曲片段學(xué)習(xí)片段信號內(nèi)部的時(shí)頻特性,采用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)中的一種或組合;第二級模型基于整首戲曲學(xué)習(xí)各個(gè)片段之間的上下文依賴關(guān)系,采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò);
S4、對于級聯(lián)神經(jīng)網(wǎng)絡(luò)的輸出進(jìn)行分類操作,得到其在各個(gè)戲曲類別上的概率分布,選取概率最大的類別作為最終分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于五音階樂律聲譜圖和級聯(lián)神經(jīng)網(wǎng)絡(luò)的戲曲分類方法,其特征在于,所述的步驟S1、對戲曲音頻文件進(jìn)行預(yù)處理過程如下:
首先對戲曲音頻文件進(jìn)行切片,把戲曲按等長時(shí)間切成多個(gè)片段;然后對已經(jīng)切成等長片段的音頻信號進(jìn)行分幀以及加窗操作。
3.根據(jù)權(quán)利要求1所述的基于五音階樂律聲譜圖和級聯(lián)神經(jīng)網(wǎng)絡(luò)的戲曲分類方法,其特征在于,所述的基于戲曲五聲音階設(shè)計(jì)的濾波器組由50個(gè)級聯(lián)的巴特沃斯IIR濾波器組成,每個(gè)濾波器分別對應(yīng)十個(gè)五階音程的五十個(gè)樂音。
4.根據(jù)權(quán)利要求1所述的基于五音階樂律聲譜圖和級聯(lián)神經(jīng)網(wǎng)絡(luò)的戲曲分類方法,其特征在于,所述的級聯(lián)神經(jīng)網(wǎng)絡(luò)由兩級模型級聯(lián)組成,其中,第一級模型以T秒戲曲片段對應(yīng)的五音階樂律聲譜圖為輸入,由卷積神經(jīng)網(wǎng)絡(luò)組成,從第一級模型的輸入層到第一級模型的輸出層依次為:卷積層1、池化層1、卷積層2、池化層2、卷積層3、池化層3、全連接層,其中,卷積層1、池化層1、卷積層2、池化層2、卷積層3、池化層3構(gòu)成卷積神經(jīng)網(wǎng)絡(luò),全連接層輸出作為T秒戲曲片段的特征表達(dá);其中,第二級模型以同一首戲曲內(nèi)各個(gè)T秒戲曲片段的特征表達(dá)作為各個(gè)時(shí)刻的輸入序列,由雙向循環(huán)神經(jīng)網(wǎng)絡(luò)組成,從第二級模型的輸入層到第二級模型的輸出層依次為:雙向循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制層、全連接層。
5.根據(jù)權(quán)利要求4所述的基于五音階樂律聲譜圖和級聯(lián)神經(jīng)網(wǎng)絡(luò)的戲曲分類方法,其特征在于,所述的步驟S3、將提取的五音階樂律聲譜圖送入級聯(lián)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練或者預(yù)測過程如下:
S301、以T秒戲曲片段為單位,將前面提取的戲曲片段對應(yīng)的五音階樂律聲譜圖作為輸入送進(jìn)第一級模型;
S302、將卷積神經(jīng)網(wǎng)絡(luò)提取的特征經(jīng)過全連接層轉(zhuǎn)化成一維向量,進(jìn)行第一級分類計(jì)算,第一級模型輸出預(yù)測的戲曲片段分類概率,其中經(jīng)全連接層轉(zhuǎn)化的一維向量作為提取T秒戲曲片段的特征表達(dá);
S303、以整首戲曲為單位,將同一首戲曲內(nèi)各個(gè)T秒戲曲片段的特征表達(dá)作為各個(gè)時(shí)刻的輸入序列,送入第二級模型的雙向循環(huán)神經(jīng)網(wǎng)絡(luò);
S304、針對雙向循環(huán)神經(jīng)網(wǎng)絡(luò)各個(gè)時(shí)刻的輸出狀態(tài)引入注意力機(jī)制,自動學(xué)習(xí)各個(gè)時(shí)刻輸出的權(quán)重,然后對雙向循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征進(jìn)行加權(quán)平均,其中注意力分?jǐn)?shù)公式如下:
其中,αi表示注意力概率分布α中第i個(gè)注意力概率值,ei表示注意力分?jǐn)?shù)e中第i個(gè)分?jǐn)?shù)值,ej表示注意力分?jǐn)?shù)e中第j個(gè)分?jǐn)?shù)值,T表示特征中列向量的數(shù)量;
S305、將步驟S304的輸出結(jié)果送入全連接層,其中損失函數(shù)為交叉熵函數(shù),學(xué)習(xí)率為0.001,優(yōu)化器為Adam優(yōu)化器;
S306、使用第二級模型分類計(jì)算出最終輸出概率,選取最大的概率所對應(yīng)的類目標(biāo)簽作為最終戲曲的分類結(jié)果。
6.根據(jù)權(quán)利要求1所述的基于五音階樂律聲譜圖和級聯(lián)神經(jīng)網(wǎng)絡(luò)的戲曲分類方法,其特征在于,所述的步驟S4中采用softmax函數(shù)計(jì)算相對概率分布,其中,所述的softmax函數(shù)公式如下所示:
其中,m表示當(dāng)前元素的類別索引,n表示第n個(gè)元素類別索引,N表示總的類別個(gè)數(shù),vm是級聯(lián)神經(jīng)網(wǎng)絡(luò)在第i類別下的輸出,pm表示的是當(dāng)前元素的指數(shù)與所有元素指數(shù)和的比值,通過softmax函數(shù)將多分類的輸出數(shù)值轉(zhuǎn)化為相對概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202010315772.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





