[發明專利]一種提取深度信念網絡中隱含節點語義的方法有效
| 申請號: | 201710506259.7 | 申請日: | 2017-06-28 |
| 公開(公告)號: | CN107330513B | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 李雙印;潘嶸 | 申請(專利權)人: | 深圳愛拼信息科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06F40/30 |
| 代理公司: | 廣州越華專利代理事務所(普通合伙) 44523 | 代理人: | 陳岑 |
| 地址: | 518057 廣東省深圳市南山區南山街道科*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提取 深度 信念 網絡 隱含 節點 語義 方法 | ||
本發明公開了一種提取深度信念網絡中隱含節點語義的方法,提出了全新的獲取深度信念網絡中隱含層內部隱含節點的語義信息的方法。該方法的關鍵點是,利用半結構化主題模型和深度信念網絡相結合,同時學習模型參數,從而能夠獲取深度信念網絡中不同隱含層的隱含節點的顯式語義信息。本發明的另一關鍵點是,本發明結合了貝葉斯網絡和深度神經網絡這兩種不同的網絡類型,通過主題模型來對深度信念網絡進行語義解析。與現有技術相比,本發明提出的技術方案中,構建了獲取深度信念網絡中隱含層內部隱含節點的語義信息的方法。這種方案能夠通過利用貝葉斯主題模型,對深度信念網絡中的隱含節點進行建模,獲取其具體的語義信息。
技術領域
本發明涉及節點語義的提取技術,更具體的,涉及一種提取深度信念網絡中隱含節點語義的方法。
背景技術
隨著深度神經網絡技術在數據挖掘,人工智能等方面的廣泛應用,越來越多的應用使用深度神經網絡技術處理文本,圖像,語音和視頻數據。在文本建模任務上,利用深度信念網絡(Deep Belief Networks)以及擴展模型,作為深度神經網絡的一種,在文檔建模方面,也成為一種有效的手段。深度信念網絡是一種深度生成網絡,包含多層受限玻爾茲曼機(restricted Boltzmann machine)。而受限玻爾茲曼機(簡稱RBM)是一種生成式隨機神經網絡,主要由一個可見層與一個隱含層構成的一種網絡映射結構。隱含層包含了若干隱含節點,每一個隱含節點都與可見層的所有節點相連。
深度信念網絡常常被用來提取文本信息的隱含特征。在對文檔進行建模時,常規的操作方式是將文檔中的單詞表示為詞袋模型,然后輸入到深度信念網絡的可見層,經過多層的網絡映射,使用最高的隱含層的表達作為文本的向量。利用這種向量,我們可以進行文本檢索,文檔分類,文檔聚類等數據挖掘任務。
在文檔映射過程中,單詞信息通過深度信念網絡,被表示成隱含層的向量。這個向量是由該隱含層的所有隱含節點表示。文檔的語義信息被融合在這些隱含節點中。由于單層神經網絡的強大表達能力,每一層的隱含節點能夠獲取文檔不同層次的語義信息,并最終提取有效的文檔向量。
然而,上述現有的技術存在以下缺點:在對文檔進行建模時,我們無法獲得隱含層中每一個隱含節點的語義信息。也就是說,在文檔映射過程中,雖然我們能夠獲得每一個隱含節點的數值,但是我們無法確定每一層隱含層中的每一個隱含節點所代表的具體語義是什么。因此,深度信念網絡在對文本數據進行映射時,隱含層的向量表達屬于黑箱操作,不能顯式的表達具體的語義信息。然而,探究每一個節點的具體語義能夠為我們揭示深度神經網絡在文本建模時的過程,獲取更接近人類能夠理解的語義信息。
發明內容
本發明旨在至少解決現有技術中存在的技術問題之一。
本發明提出了全新的獲取深度信念網絡中隱含層內部隱含節點的語義信息的方法。該方法的關鍵點是,利用半結構化主題模型和深度信念網絡相結合,同時學習模型參數,從而能夠獲取深度信念網絡中不同隱含層的隱含節點的顯式語義信息。本發明的另一關鍵點是,本發明結合了貝葉斯網絡和深度神經網絡這兩種不同的網絡類型,通過主題模型來對深度信念網絡進行語義解析。
為實現上述目的,本發明提出一種提取深度信念網絡中隱含節點語義的方法,包括步驟:
步驟1,對于一個文檔,首先對所述文檔通過深度信念網絡進行特征映射,獲得深度信念網絡的最高層的向量表示;
步驟2,對于最高層的隱含層,通過gibbs采樣得到對應隱含節點的二值樣本點;
步驟3,對于某一個隱含節點,利用二值樣本點,在中獲取對用隱含節點的主題分布,是文本集合中所有的結構化信息在主題空間上的分布,也代表了這些結構化信息的語義分布;
步驟4,對該隱含節點中的主題分布進行排序,選擇前面N個主要的主題;
步驟5,在中獲得上述主題的主要代表單詞,是主題在單詞空間上的分布矩陣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳愛拼信息科技有限公司,未經深圳愛拼信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201710506259.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:預測蛋白質序列的遠同源性關系的系統及方法
- 下一篇:一種管道的快速接頭





