[發明專利]針對特定領域的新詞發現方法有效
| 申請號: | 201610150038.6 | 申請日: | 2016-03-16 |
| 公開(公告)號: | CN105760366B | 公開(公告)日: | 2018-06-29 |
| 發明(設計)人: | 王卿;吳瓊;程工;杜漫;龐琳;李雄;劉春陽;張旭 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京市盛峰律師事務所 11337 | 代理人: | 席小東 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 新詞發現 詞語 關聯規則挖掘 文檔預處理 表達方式 關聯規則 距離向量 數據挖掘 靈活的 構建 文檔 詞匯 挖掘 引入 | ||
本發明提供一種針對特定領域的新詞發現方法,包括以下步驟:步驟1,文檔預處理;步驟2,構建候選新詞集;其中,每個候選新詞由詞語、該詞語距離所述中心詞語的距離向量值以及所述中心詞語均采用新詞表述方式表達。步驟3,候選新詞挖掘;優點為:針對特定領域的新詞發現方法,采用更靈活的新詞表達方式,將數據挖掘領域的關聯規則方法引入新詞發現過程,并創新地提出將詞匯與指定關鍵詞的距離向量作為關聯規則挖掘的重要特征,由此可快速準確全面的識別出文檔包含的所有新詞。
技術領域
本發明屬于新詞發現以及文本挖掘技術領域,具體涉及一種針對特定領域的新詞發現方法。
背景技術
隨著信息技術和互聯網技術的飛速發展,網絡上充斥著各種各樣的信息,并呈現出指數增長的趨勢。在各個專業領域,互聯網信息也爆炸式地產生和增長。
在上述網絡信息增長過程中,新詞不斷涌現,對于中文新詞的發現,尤其是特定領域的中文新詞發現,具有重要意義:一方面,新詞的大量而快速地涌現,嚴重影響中文分詞結果的質量,致使分詞結果中出現較多的不可識別的“單字”,大大降低了分詞結果的準確率,最近的研究還顯示,60%的分詞錯誤是由新詞導致的,因此,有效地識別新詞,將為觀察研究分析語言現象的動態變化、規范語言文字以及提高中文自動分詞的總體效果起到重要的作用。另一方面,新詞發現對于輿情監控、話題檢測等挖掘技術的應用也十分關鍵,可以說,新詞發現是這些應用的基礎和前提。
由此可見,準確高效的發現新詞,具有重要意義。現有技術中雖然出現了少量的新詞發現算法,但是,現有的新詞發現算法,普遍具有算法復雜度高的問題,難以快速準確的識別出新詞;還具有新詞識別不全面的問題,難以全面識別出被分析文檔包含的所有新詞。
發明內容
針對現有技術存在的缺陷,本發明提供一種針對特定領域的新詞發現方法,可有效解決上述問題。
本發明采用的技術方案如下:
本發明提供一種針對特定領域的新詞發現方法,包括以下步驟:
步驟1,文檔預處理:基于中文詞庫,采用中文分詞算法對所述原始文檔集進行中文分詞處理,將所述原始文檔集轉化為詞語序列;
步驟2,構建候選新詞集,包括:
步驟2.1,指定所述詞語序列中的某個詞語作為中心詞語,并設定掃描窗口區間;其中,設所述掃描窗口區間為[-a,+b];a和b為正整數或0,并且,a等于或不等于b;
步驟2.2,對于步驟1得到的所述詞語序列,以所述中心詞語為中心,并從所述中心詞語開始,分別向前逆向掃描和向后正向掃描;
其中,向前逆向掃描方法為:在逆向掃描過程中,只要掃描到文檔開始位置,即停止掃描;否則,向前逆向逐個掃描每個詞語,并判斷掃描到的詞語距離所述中心詞語的距離是否大于a,如果不大于,則記錄掃描到的每個詞語以及該詞語距離所述中心詞語的距離向量值;如果大于,則停止掃描;
向后正向掃描方法為:在正向掃描過程中,只要掃描到文檔結束位置,即停止掃描;否則,向后正向逐個掃描每個詞語,并判斷掃描到的詞語距離所述中心詞語的距離是否大于b,如果不大于,則記錄掃描到的每個詞語以及該詞語距離所述中心詞語的距離向量值;如果大于,則停止掃描;
由此得到掃描窗口內的每個詞語以及該詞語距離所述中心詞語的距離向量值;
步驟2.3,步驟2.2掃描得到的每個詞語、該詞語距離所述中心詞語的距離向量值以及所述中心詞語均采用新詞表述方式表達,形成候選新詞;將所有的候選新詞所構成的集合,稱為候選新詞集;
步驟3,候選新詞挖掘:對所述候選新詞集中的每個所述候選新詞進行進一步的挖掘分析,判斷每個所述候選新詞是否滿足新詞構成要求,如果滿足,則該候選新詞即作為最終挖掘到的新詞,并輸出所述挖掘到的新詞;否則,丟棄該候選新詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心,未經國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201610150038.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多功能網頁圖書館
- 下一篇:一種化學放熱反應的分布式主元分析神經網絡建模方法





