[發明專利]基于中文NLP與主題模型的職業教育動態的分析方法在審
| 申請號: | 202110286247.4 | 申請日: | 2021-03-17 |
| 公開(公告)號: | CN113010630A | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 陳冬麗;呂娜;鐘大成;李敏;朱令嫻;陳鴿;候彬彬 | 申請(專利權)人: | 鄭州鐵路職業技術學院 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/335;G06F16/34;G06F16/33 |
| 代理公司: | 鄭州芝麻知識產權代理事務所(普通合伙) 41173 | 代理人: | 張海青 |
| 地址: | 451460 河南*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 中文 nlp 主題 模型 職業教育 動態 分析 方法 | ||
1.基于中文NLP與主題模型的職業教育動態的分析方法,其特征在于,包括如下步驟:
步驟一:設置檢索時間段、關鍵詞組和主題集合,其中關鍵詞組包括多個與職業規劃相關的詞匯,主題集合中包括多個與職業相關的主題,每個主題對應設置有一個主題詞組,其中設置有多個與相應主題相關的主題詞匯;
步驟二:對設定數據庫進行檢索,獲取其在檢索時間段內公布的所有文獻,建立包含這些文獻的第一文獻集合;
步驟三:將第一文獻集合中各文獻的題目與關鍵詞組中的詞匯進行匹配,得到其中題目包含至少一個關鍵詞組中的詞匯的文獻,建立包括這些文獻的第二文獻集合;
步驟四:將第二文獻集合中各文獻的摘要部分與主題集合中的主題進行匹配,得到其中摘要部分包含至少一個主題集合中主題的文獻,建立包括這些文獻的第三文獻集合;
步驟五:獲取主題集合中各主題分別在第三文獻集合中各文獻的熱度貢獻量,然后得到主題集合中各主題在第三文獻集合中的熱度貢獻量,計算方法為:
設主題集合中共有J個主題,第j個主題在第三文獻集合中第i篇文獻的熱度貢獻量為
對第三文獻集合的熱度貢獻量為Hotj,則
其中Peri為第三文獻集合中第i篇文獻作者的數量,ti為第三文獻集合中第i篇文獻發表時間與當前時間的所間隔的月份,Ti為第三文獻集合中第i篇文獻的質量,為第三文獻集合中第i篇文獻對主題集合中第j個主題的情感評分。
2.根據權利要求1所述的基于中文NLP與主題模型的職業教育動態的分析方法,其特征在于,文獻質量的獲取方法為:
步驟1.1:獲取文獻摘要部分所包含的主題集合中的主題,建立包含這些主題的集合,將該集合作為該文獻的初始主題集合;獲取文獻正文部分所包含的主題集合中的主題,建立包含這些主題的集合,將該集合作為該文獻的正文主題集合;
步驟1.2:判斷文獻的初始主題集合是否為其正文主題集的子集,如果是則設ε1=1,否則設ε1=0;獲取文獻所在數據庫的權重,設其為ε2;設文獻的初始主題集合中共有N個主題,其中第n個主題對應的主題詞匯庫中共有M個主題詞匯,其中第m個主題詞匯在文獻的正文部分中的數量為Numm,該文獻正文部分的詞匯量為Num總,則該主題詞匯在該文獻正文部分中出現的頻率為
文獻的初始主題集合中第n個主題在該文獻正文部分出現的頻率為
該文獻初始主題集合與其正文部分之間的相關系數為
步驟1.3:根據如下公式計算文獻的質量T:
T=ε1ε2H。
3.根據權利要求2所述的基于中文NLP與主題模型的職業教育動態的分析方法,其特征在于,文獻對主題情感得分的計算方法為:
步驟2.1:計算文獻正文主題集合與文獻正文部分之間的關系系數,計算方法為:
設文獻的正文主題集合中共有X個主題,其中第x個主題對應的主題詞匯庫中共有Y個主題詞匯,其中第y個主題詞匯在文獻的正文中的數量為Sumy,則該主題詞匯在該文獻正文部分中出現的頻率為
文獻的正文主題集合中第x個主題在該文獻正文部分中出現的頻率為
該正文主題與文獻正文部分之間的相關系數為
步驟2.2:獲取文獻對正文主題集合中目標主題的情感系數R;
步驟2.3:根據文獻正文部分與正文主題集合中各主題的感情系數、相關系數,計算出主題在文獻中的情感得分,計算公式為
L=R×kx。
4.根據權利要求3所述的基于中文NLP與主題模型的職業教育動態的分析方法,其特征在于,獲取文獻對目標主題的情感系數的方法包括如下步驟:
步驟3.1:建立積極詞匯庫、中性詞匯庫和消極詞匯庫;
步驟3.2:獲得目標主題對應主題詞匯集合中各主題詞匯在文獻正文部分中所處的語句,將這些作為目標語句,得到目標語句的數量A總;
步驟3.3:對各目標語句的感情色彩進行識別:當目標語句中包含積極詞匯庫中的詞匯時標記該語句為積極語句,當目標語句中包含中性詞匯庫中的詞匯時標記該語句為中性語句,當目標語句中包含消極詞匯庫中的詞匯時標記該語句為消極語句;獲取到積極語句的數量A1,中性語句的數量A2,消極語句的數量A3;
步驟3.4:計算文獻對目標主題的情感系數,計算公式為
其中a、b、c分別為積極語句、中性語句和消極語句的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州鐵路職業技術學院,未經鄭州鐵路職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202110286247.4/1.html,轉載請聲明來源鉆瓜專利網。





