[發(fā)明專利]一種基于數(shù)據(jù)分級模型的電力數(shù)據(jù)分析方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011051534.9 | 申請日: | 2020-09-29 |
| 公開(公告)號: | CN112257425A | 公開(公告)日: | 2021-01-22 |
| 發(fā)明(設(shè)計(jì))人: | 董陽;張倩宜;鄭陽;張馳;趙迪 | 申請(專利權(quán))人: | 國網(wǎng)天津市電力公司;國家電網(wǎng)有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F16/35;G06N20/00;G06Q50/06;G06Q50/18 |
| 代理公司: | 天津創(chuàng)智天誠知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 12214 | 代理人: | 張茜 |
| 地址: | 300010*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù) 分級 模型 電力 分析 方法 系統(tǒng) | ||
1.一種基于數(shù)據(jù)分級模型的電力數(shù)據(jù)分析方法,其特征在于,包括:
S1.建立詞根數(shù)據(jù)庫;
S2.導(dǎo)入電力文檔,對電力文檔進(jìn)行預(yù)處理,獲取電力文檔的目標(biāo)語句,所述目標(biāo)語句為需要進(jìn)行分詞處理的語句信息;
S3.識別所述目標(biāo)語句,調(diào)用所述詞根數(shù)據(jù)庫對目標(biāo)語句進(jìn)行匹配,并判斷所述目標(biāo)語句中是否包含歧義詞庫中的關(guān)鍵詞,若包含歧義詞庫中的關(guān)鍵詞時(shí),根據(jù)分詞規(guī)則生成特征識別結(jié)果,并得到多分級標(biāo)簽;
S4.根據(jù)所述特征識別結(jié)果進(jìn)行分字處理形成字符,通過TF-IDF算法將所述字符轉(zhuǎn)換成特征向量矩陣;
S5.將所述特征向量矩陣輸入到文本分類器中,生成數(shù)據(jù)分級模型,并輸出電力文檔的分級結(jié)果。
2.根據(jù)權(quán)利要求1所述的電力數(shù)據(jù)分析方法,其特征在于,所述S1中建立詞根數(shù)據(jù)庫,包括:
S10.以人工方式,根據(jù)電力系統(tǒng)的相關(guān)法律法規(guī)規(guī)定,獲取大量文本數(shù)據(jù)作為語料,形成初始的訓(xùn)練樣本;
S11.將訓(xùn)練樣本導(dǎo)入訓(xùn)練模型,逐步形成詞根分類模型;
S12.在形成分類后,通過分類實(shí)戰(zhàn)模擬,進(jìn)一步訓(xùn)練詞根分類模型,增加決策數(shù)據(jù),提高詞根分類模型應(yīng)對異常的能力;
S13.有異議的分類結(jié)果,人工參與輔助判斷,人工決策后,將結(jié)果數(shù)據(jù)再次輸入詞根分類模型進(jìn)行詞根分類模型訓(xùn)練,作為訓(xùn)練樣本,重新學(xué)習(xí);
S14.將結(jié)果數(shù)據(jù)集合,建立詞根數(shù)據(jù)庫。
3.根據(jù)權(quán)利要求2所述的電力數(shù)據(jù)分析方法,其特征在于:所述S10中,從電力系統(tǒng)的相關(guān)法律法規(guī)總獲取大量文本數(shù)據(jù)作為語料,并采用預(yù)設(shè)N值清除語料中的同質(zhì)化數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的電力數(shù)據(jù)分析方法,其特征在于:在所述S2中,對電力文檔進(jìn)行預(yù)處理包括去除敏感詞、亂碼、標(biāo)點(diǎn)符號,用來去除電力文檔中的冗余部分,實(shí)現(xiàn)對電力文檔的進(jìn)一步過濾。
5.根據(jù)權(quán)利要求4所述的電力數(shù)據(jù)分析方法,其特征在于:所述S3中對目標(biāo)語句進(jìn)行匹配包括模糊匹配和正則匹配。
6.根據(jù)權(quán)利要求5所述的電力數(shù)據(jù)分析方法,其特征在于:所述S3中的歧義詞庫包括預(yù)設(shè)的帶有歧義性質(zhì)的關(guān)鍵詞集合。
7.根據(jù)權(quán)利要求6所述的電力數(shù)據(jù)分析方法,其特征在于:所述S4中的分詞方法對文電力文檔中的句子進(jìn)行全切分,通過建立TF-IDF結(jié)構(gòu),讀取電力文檔中每一行的字符,并計(jì)算出每一個(gè)字符出現(xiàn)的頻數(shù),建立特征向量矩陣。
8.根據(jù)權(quán)利要求7所述的電力數(shù)據(jù)分析方法,其特征在于:所述S5中,將特征向量矩陣轉(zhuǎn)換為文本分類器中的一個(gè)輸入向量,并將多分級標(biāo)簽轉(zhuǎn)換為文本分類器的另一個(gè)輸入向量,通過調(diào)用文本分類器訓(xùn)練算法,生成數(shù)據(jù)分級模型,并輸入電力文檔的分級結(jié)果。
9.一種基于數(shù)據(jù)分級模型的電力數(shù)據(jù)分析系統(tǒng),其特征在于,包括:
預(yù)處理模塊,用于接收電力文檔,并獲取電力文檔的目標(biāo)語句;
分詞模塊,用于通過詞根數(shù)據(jù)庫與目標(biāo)語句匹配,生成特征識別結(jié)果,并得到多個(gè)分級標(biāo)簽;
分字模塊,用于根據(jù)特征識別結(jié)果進(jìn)行分字處理形成字符,并生成特征向量矩陣;
輸出模塊,用于通過文本分類器,將特征向量矩陣輸入后生成電力文檔的分級結(jié)果。
10.根據(jù)權(quán)利要求9所述的電力數(shù)據(jù)分析系統(tǒng),其特征在于:所述分詞模塊還包括:
判斷模塊,用于根據(jù)歧義詞庫中的關(guān)鍵詞判斷目標(biāo)語句中是否帶有歧義性質(zhì)的關(guān)鍵詞;
標(biāo)識模塊,用于在對目標(biāo)語句判斷歧義性質(zhì)的關(guān)鍵詞后,對目標(biāo)語句進(jìn)行特征識別,生成特征識別結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)天津市電力公司;國家電網(wǎng)有限公司,未經(jīng)國網(wǎng)天津市電力公司;國家電網(wǎng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202011051534.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





