[發明專利]一種基于分層循環神經網絡語言模型的語音識別方法在審

申請號：	201611059843.4	申請日：	2016-11-25
公開（公告）號：	CN106782518A	公開（公告）日：	2017-05-31
發明（設計）人：	夏春秋	申請（專利權）人：	深圳市唯特視科技有限公司
主分類號：	G10L15/16	分類號：	G10L15/16;G10L15/183;G06N3/08
代理公司：	暫無信息	代理人：	暫無信息
地址：	518057 廣東省深圳市高新技術產業園***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于分層循環神經網絡語言模型語音識別方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及語音識別領域，尤其是涉及了一種基于分層循環神經網絡語言模型的語音識別方法。

背景技術

隨著現代技術的發展，基于循環神經網絡(RNN)的字符級語言模型(CLMs)在語音識別、文本生成和機器翻譯等領域應用廣泛。它對于自然界中未見的單詞的建模非常有用。然而，它們的性能通常比詞級語言模型(WLMs)差得多。而且，統計語言模型需要大的存儲空間，通常超過1GB，因為不僅要考慮大量的詞匯，還需要考慮它們的組合。

本發明提出了一種基于分層循環神經網絡語言模型的語音識別方法，其分級RNN架構由具有不同時鐘速率的多個模塊組成。盡管是多時鐘結構，但是輸入層和輸出層都是以字符級時鐘操作，這允許現有的RNN字符級語言模型訓練方法可以直接應用而不需要任何修改。首先使用RNN的字符級語言建模，接著用外部時鐘和復位信號擴展RNN結構，具有分級RNN的字符級語言建模，最后進行語音識別。本發明用基于分層循環神經網絡語言模型替換傳統的單時鐘RNN字符級語言模型，具有更好的識別精度，降低了參數的數量；語言模型詞匯量大，需要的存儲空間更小；分層語言模型可以被擴展以處理更長時期的信息，例如句子，主題或其他上下文。

發明內容

針對識別精度不高，所占存儲空間大等問題，本發明的目的在于提供一種基于分層循環神經網絡語言模型的語音識別方法，首先使用RNN的字符級語言建模，接著用外部時鐘和復位信號擴展RNN結構，具有分級RNN的字符級語言建模，最后進行語音識別。

為解決上述問題，本發明提供一種基于分層循環神經網絡語言模型的語音識別方法，其主要內容包括：

(一)使用RNN的字符級語言建模；

(二)用外部時鐘和復位信號擴展RNN結構；

(三)具有分級RNN的字符級語言建模；

(四)進行語音識別。

其中，所述的基于分層循環神經網絡語言模型，結合了字符級和詞級語言模型的有利特性；循環神經網絡(RNN)由低級RNNs和高級RNNs組成；低級RNN采用字符級輸入和輸出，并且向作為詞級RNN操作的高級RNN提供短期嵌入；高級RNN不需要復雜的輸入和輸出，因為它從低級網絡接收特征信息，并且以壓縮形式將字符預測信息發送回低級；因此，當考慮輸入和輸出時，所提出的網絡是一個字符級語言模型(CLM)，但它包含一個詞級模型；低級模塊使用字符輸入時鐘，而高級模塊使用分隔字的空格(<w>)運行；該分層語言模型可以被擴展，以處理更長時期的信息，例如句子，主題或其他上下文；分層語言模型可以用基于文本的字符來進行端對端訓練。

其中，所述的使用RNN的字符級語言建模，對于訓練RNN CLMs，訓練數據應首先轉換為獨熱編碼字符向量序列x_t，其中字符包括字邊界符號<w>，或空格，以及可選的句子邊界符號<s>；訓練RNN，通過使表示下一個字符的概率分布的softmax輸出的交叉熵損失最小化來預測下一個字符x_t+1。

其中，所述的用外部時鐘和復位信號擴展RNN結構，大多數類型的RNNs可以被概括為

s_t＝f(x_t,s_t-1)(1)

y_t＝g(s_t)(2)

其中，x_t是輸入，s_t是狀態，y_t是時間步驟t的輸出，f(·)是遞歸函數，g(·)是輸出函數；例如，Elman網絡可以表示為

s_t＝h_t＝σ(W_hxx_t+W_hhh_t-1+b_h)(3)

y_t＝h_t(4)

其中，h_t是隱層的激活，σ(·)是激活函數，W_hx和W_hh是權重矩陣，b_h是偏置向量；

具有遺忘門和窺視孔連接的LSTMs也可以轉換為泛化形式；LSTM層的前向方程如下：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于深圳市唯特視科技有限公司，未經深圳市唯特視科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】