[發明專利]一種基于分層循環神經網絡語言模型的語音識別方法在審
| 申請號: | 201611059843.4 | 申請日: | 2016-11-25 |
| 公開(公告)號: | CN106782518A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 夏春秋 | 申請(專利權)人: | 深圳市唯特視科技有限公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/183;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市高新技術產業園*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分層 循環 神經網絡 語言 模型 語音 識別 方法 | ||
1.一種基于分層循環神經網絡語言模型的語音識別方法,其特征在于,主要包括使用RNN的字符級語言建模(一);用外部時鐘和復位信號擴展RNN結構(二);具有分級RNN的字符級語言建模(三);進行語音識別(四)。
2.基于權利要求書1所述的基于分層循環神經網絡的語言模型,其特征在于,它結合了字符級和詞級語言模型的有利特性;循環神經網絡(RNN)由低級RNNs和高級RNNs組成;低級RNN采用字符級輸入和輸出,并且向作為詞級RNN操作的高級RNN提供短期嵌入;高級RNN不需要復雜的輸入和輸出,因為它從低級網絡接收特征信息,并且以壓縮形式將字符預測信息發送回低級;因此,當考慮輸入和輸出時,所提出的網絡是一個字符級語言模型(CLM),但它包含一個詞級模型;低級模塊使用字符輸入時鐘,而高級模塊使用分隔字的空格(<w>)運行;該分層語言模型可以被擴展,以處理更長時期的信息,例如句子,主題或其他上下文;分層語言模型可以用基于文本的字符來進行端對端訓練。
3.基于權利要求書1所述的使用RNN的字符級語言建模(一),其特征在于,對于訓練RNN CLMs,訓練數據應首先轉換為獨熱編碼字符向量序列xt,其中字符包括字邊界符號<w>,或空格,以及可選的句子邊界符號<s>;訓練RNN,通過使表示下一個字符的概率分布的softmax輸出的交叉熵損失最小化來預測下一個字符xt+1。
4.基于權利要求書1所述的用外部時鐘和復位信號擴展RNN結構(二),其特征在于,大多數類型的RNNs可以被概括為
st=f(xt,st-1) (1)
yt=g(st) (2)
其中,xt是輸入,st是狀態,yt是時間步驟t的輸出,f(·)是遞歸函數,g(·)是輸出函數;例如,Elman網絡可以表示為
st=ht=σ(Whxxt+Whhht-1+bh) (3)
yt=ht (4)
其中,ht是隱層的激活,σ(·)是激活函數,Whx和Whh是權重矩陣,bh是偏置向量;
具有遺忘門和窺視孔連接的LSTMs也可以轉換為泛化形式;LSTM層的前向方程如下:
it=σ(Wixxt+Wihht-1+Wimmt-1+bi) (5)
ft=σ(Wfxxt+Wfhht-1+Wfmmt-1+bf) (6)
ot=σ(Woxxt+Wohht-1+Wommt+bo)(8)
ht=ot tanh(mt)(9)
其中,it,ft和ot分別是輸入門,遺忘門和輸出門的值,mt是存儲器單元激活,ht是輸出激活,σ(·)是邏輯S型函數,是元素智能乘法運算符;這些方程可以通過設置st=[mt,ht]和yt=ht來概括。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市唯特視科技有限公司,未經深圳市唯特視科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201611059843.4/1.html,轉載請聲明來源鉆瓜專利網。





