[發明專利]針對特定領域的新詞發現方法有效
| 申請號: | 201610150038.6 | 申請日: | 2016-03-16 |
| 公開(公告)號: | CN105760366B | 公開(公告)日: | 2018-06-29 |
| 發明(設計)人: | 王卿;吳瓊;程工;杜漫;龐琳;李雄;劉春陽;張旭 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京市盛峰律師事務所 11337 | 代理人: | 席小東 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 新詞發現 詞語 關聯規則挖掘 文檔預處理 表達方式 關聯規則 距離向量 數據挖掘 靈活的 構建 文檔 詞匯 挖掘 引入 | ||
1.一種針對特定領域的新詞發現方法,其特征在于,包括以下步驟:
步驟1,文檔預處理:基于中文詞庫,采用中文分詞算法對原始文檔集進行中文分詞處理,將所述原始文檔集轉化為詞語序列;
步驟2,構建候選新詞集,包括:
步驟2.1,指定所述詞語序列中的某個詞語作為中心詞語,并設定掃描窗口區間;其中,設所述掃描窗口區間為[-a,+b];a和b為正整數或0,并且,a等于或不等于b;
步驟2.2,對于步驟1得到的所述詞語序列,以所述中心詞語為中心,并從所述中心詞語開始,分別向前逆向掃描和向后正向掃描;
其中,向前逆向掃描方法為:在逆向掃描過程中,只要掃描到文檔開始位置,即停止掃描;否則,向前逆向逐個掃描每個詞語,并判斷掃描到的詞語距離所述中心詞語的距離是否大于a,如果不大于,則記錄掃描到的每個詞語以及該詞語距離所述中心詞語的距離向量值;如果大于,則停止掃描;
向后正向掃描方法為:在正向掃描過程中,只要掃描到文檔結束位置,即停止掃描;否則,向后正向逐個掃描每個詞語,并判斷掃描到的詞語距離所述中心詞語的距離是否大于b,如果不大于,則記錄掃描到的每個詞語以及該詞語距離所述中心詞語的距離向量值;如果大于,則停止掃描;
由此得到掃描窗口內的每個詞語以及該詞語距離所述中心詞語的距離向量值;
步驟2.3,步驟2.2掃描得到的每個詞語、將其與該詞語距離所述中心詞語的距離向量值組合,連同所述中心詞語形成候選新詞;將所有的候選新詞所構成的集合,稱為候選新詞集;
步驟3,候選新詞挖掘:對所述候選新詞集中的每個所述候選新詞進行進一步的挖掘分析,判斷每個所述候選新詞是否滿足新詞構成要求,如果滿足,則該候選新詞即作為最終挖掘到的新詞,并輸出所述挖掘到的新詞;否則,丟棄該候選新詞。
2.根據權利要求1所述的針對特定領域的新詞發現方法,其特征在于,步驟1中,所述中文分詞算法為中國科學院計算技術研究所的ICT-CLAS中文分詞算法。
3.根據權利要求1所述的針對特定領域的新詞發現方法,其特征在于,步驟1中,還包括:
在采用中文分詞算法對所述原始文檔集進行中文分詞處理,得到詞語序列后,去除所述詞語序列中包括的停用詞,得到處理后的詞語序列。
4.根據權利要求1所述的針對特定領域的新詞發現方法,其特征在于,步驟3具體為:
設定置信度,并采用關聯規則挖掘算法,對所述候選新詞集中的每個所述候選新詞進行進一步的挖掘分析,得到滿足置信度的新詞。
5.根據權利要求4所述的針對特定領域的新詞發現方法,其特征在于,所述關聯規則挖掘算法為Apriori算法。
6.根據權利要求1所述的針對特定領域的新詞發現方法,其特征在于,步驟3之后,還包括:
步驟4,對于步驟3挖掘到的新詞,將該新詞錄入步驟1所使用的所述中文詞庫,進而可優化后續中文分詞效果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心,未經國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201610150038.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多功能網頁圖書館
- 下一篇:一種化學放熱反應的分布式主元分析神經網絡建模方法





