[發明專利]一種基于改進skip-gram模型的電網調度日志詞向量提取方法在審
| 申請號: | 201911263772.3 | 申請日: | 2019-12-10 |
| 公開(公告)號: | CN111160022A | 公開(公告)日: | 2020-05-15 |
| 發明(設計)人: | 閻博;曹宇;藍海波;張鵬;屈中山;韓鍇;曹良晶;李膨源;徐忱;劉慧勇;張敬偉 | 申請(專利權)人: | 國網冀北電力有限公司;國家電網有限公司;北京科東電力控制系統有限責任公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/151;G06N3/04;G06N3/08 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 100045 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 skip gram 模型 電網 調度 日志 向量 提取 方法 | ||
本發明公開了一種基于改進skip?gram模型的電網調度日志詞向量提取方法,所述方法包括:獲取電網調度日志;對所述電網調度日志進行清洗處理;對所述清洗后的電網調度日志進行分詞操作;通過改進skip?gram模型將分詞操作后的電網調度日志轉換為詞向量并提取。本發明根據電網調度日志的特點,對傳統的skip?gram模型進行改進,可以得到更為合理的詞向量,使用所生成的詞向量對電網調度日志進行分類可以提高分類的準確率。
技術領域
本發明涉及電力系統技術領域,尤其涉及一種基于改進skip-gram模型的電網調度日志詞向量提取方法。
背景技術
隨著我國經濟的快速發展,用電需求持續增長,發電裝機逐年增長,電力網絡規格不斷擴大,網絡結構也日趨復雜。電網調度工作是保證電網安全、穩定運行的關鍵,如何加強對電網調度運行的監控,提高電力調度的管理水平,是電力企業當前亟需解決的問題。
電網調度日志是反映電網運行情況的重要數據來源,是監控電網日常運行的重要手段。電網在運行過程中,時刻都會產生大量的調度日志。通過對這些日志進行內容分析與數據挖掘,電網調度人員可以獲取大量有價值的、反映電網運行狀態的信息。電網調度日志分類是對日志文本分析挖掘的一個重要應用,當前電網調度日志分類方法繁多,包括樸素貝葉斯方法、支持向量機、神經網絡模型等。但是不論是何種分類方法,在進行模型的訓練與分類之前,都需要對調度日志文本進行預處理,將其轉換為向量的形式。
詞向量可以直接對詞之間的相似度進行刻畫,與傳統的獨熱向量相比,詞向量可以緩解維數災難的問題,并且由于詞向量的學習是通過對上下文以及上下文與目標詞之間的關系進行建模的,因此詞向量保留了更豐富的上下文語義信息。目前使用詞向量進行日志分析任務中取得了較好的效果,但主要集中在互聯網領域,針對于電網調度日志的特征提取和詞向量生成的工作較少。并且相較于傳統的互聯網系統日志,電網調度日志記錄情況復雜多樣,包含信息豐富,且來源廣泛,現有技術無法對電網調度日志進行準確詞向量提取,傳統的詞向量提取方法并不能很好的適應電網調度日志的特點。
發明內容
針對現有技術的不足,本發明的目的在于提供一種基于改進skip-gram模型的電網調度日志詞向量提取方法,以解決現有技術中存在的詞向量提取方法準確性較低的問題。
為解決上述技術問題,本發明所采用的技術方案是:
一種基于改進skip-gram模型的電網調度日志詞向量提取方法,所述方法包括:
獲取電網調度日志;
對所述電網調度日志進行清洗處理;
對所述清洗后的電網調度日志進行分詞操作;
通過改進skip-gram模型將分詞操作后的電網調度日志轉換為詞向量。
進一步的,通過LSTM模型和專家系統的結合對調度日志進行分詞操作。
進一步的,所述改進skip-gram模型的訓練過程如下:
將分詞結果中的所有詞語轉換為one-hot詞向量,構建訓練樣本;
建立改進skip-gram模型的輸入層、隱藏層和輸出層;
通過輸入訓練樣本,對改進skip-gram模型進行訓練;
根據訓練結果,獲取訓練完成后改進skip-gram模型的隱層權重,即為最后所需要的詞向量。
進一步的,將傳統skip-gram模型的輸出層函數由softmax改進為分層softmax,以滿足電網調度日志分類的實際業務需求。
進一步的,所述隱藏層每個輸出的詞匯單獨創建一個輸出矩陣。
進一步的,所述電網調度日志轉換的方法包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網冀北電力有限公司;國家電網有限公司;北京科東電力控制系統有限責任公司,未經國網冀北電力有限公司;國家電網有限公司;北京科東電力控制系統有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201911263772.3/2.html,轉載請聲明來源鉆瓜專利網。





