[發明專利]基于詞頻的文本特征加權及短文本相似性計算方法、系統和介質有效
| 申請號: | 201910864611.3 | 申請日: | 2019-09-12 |
| 公開(公告)號: | CN110489759B | 公開(公告)日: | 2023-02-28 |
| 發明(設計)人: | 蔣艷凰;賀依依;宋卓;李根;余碩軍;趙強利;張少偉;雷鵬 | 申請(專利權)人: | 人和未來生物科技(長沙)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/205 |
| 代理公司: | 湖南兆弘專利事務所(普通合伙) 43008 | 代理人: | 譚武藝 |
| 地址: | 410000 湖南省長沙市長沙高*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 詞頻 文本 特征 加權 短文 相似性 計算方法 系統 介質 | ||
本發明公開了一種基于詞頻的文本特征加權及短文本相似性計算方法、系統和介質,本發明基于語料庫進行詞頻統計實現基于詞頻的文本特征加權,可以用于自然語言處理領域中多個任務。比如文本分類,關鍵詞提取,相似度計算等任務;本發明基于詞頻的文本特征加權進一步提供文本相似度的計算方法,通過給予文本中的詞不同的權重,實現信息的非線性分布,能夠提高文本的相似度計算的準確率,這種權重設計能夠降低詞頻低的詞的權重,同時也能夠賦予詞頻高的詞的較低的權重,增加中間段詞頻的詞的權重,減少詞頻低的詞和詞頻高的詞對整個文本向量的影響,提高文本間的相似度計算的準確率。
技術領域
本發明涉及自然語言處理技術領域,具體涉及一種基于詞頻的文本特征加權及短文本相似性計算方法、系統和介質。
背景技術
在自然語言處理領域中,文本特征加權的方法可以廣泛的使用在各項文本相關任務中。比如在文本的預處理中,一般都會采用TF-IDF(term frequence-inverse documentfrequency),用于對文本進行加權。基于TF-IDF的文本加權,可以直接用于后續的文本分類,文本相似度,關鍵詞提取等任務中。但是TF-IDF這種方法本身過度放大了低頻詞和生僻詞的作用。另一種統計學中的加權方式是CHI(Chi-square)卡方檢驗法,這種方法利用了統計學中“假設檢驗”的基本思想,需要數據集有標簽。而本文重點在于無標簽的文本處理。
文本相似度計算是自然語言處理領域中多數任務的基礎,對后續的文本相關任務起著非常關鍵的作用。比如在文本聚類方面,相似度閾值可以作為聚類的標準。主流的文本相似度計算分為三類:基于字符串的方法、基于統計的經驗主義方法與基于規則的理性主義方法。基于字符串的方法通過計算兩個字符串的字面差異來定義字符串之間的距離。但是基于字符串的方法沒有考慮到文本蘊含的特征信息,現階段主流的文本相似度算法從統計和規則兩個方面進行考慮。
基于統計的經驗主義方法主要是利用統計方法,通過構建文本向量,來計算文本間的相似度。其中一類方法是基于語料庫,對文本中出現的詞進行加權,構建得到對應的向量。比如TF-IDF通過耦合語料庫中出現的各個詞頻率(TF)與逆向文本頻率(IDF)來生成單個詞的權重。其中權重越小的詞,在TF-IDF詞表述中對全文文本特征表述的影響越大。而平滑倒詞頻(smooth inverse frequency SIF)方法是一種計算每個詞加權系數的方法。對于每個詞ω的權重為a/(a+p(ω)),其中a為平滑參數,p(ω)為詞頻,SIF方法是對TF-IDF的一種改進。但是這類加權的方法,都高估了低詞頻的作用。另一類基于統計的方法是利用深度學習的方法,構建相關向量進行相似度計算。這類方法最大的問題在于需要數據集提供標簽,而實際工程中,給數據集打標簽是一項繁瑣的工作?;谝巹t的方法,一般是采用人工構建的知識庫,定義知識庫中的規則來進行文本相似度的計算。
采用基于語料庫的文本加權的方法,比如TF-IDF,以及SIF算法,都存在將低詞頻權重設置過高的問題。對于詞頻低的詞,比如生僻詞,給予權重過高,會誤認為文本的關鍵詞。而對于詞頻高的詞,不具備文本間的區分度,應給給予低權重。因此,如何實現新的權重計算規則,則仍然是一項亟待解決的技術問題。
發明內容
本發明要解決的技術問題:針對現有技術的上述問題,提出了一種基于詞頻的文本特征加權及短文本相似性計算方法、系統和介質,其中基于詞頻的文本特征加權方法為本發明的核心內容,短文本相似性計算方法為基于詞頻的文本特征加權方法的應用。本發明基于語料庫進行詞頻統計提出了一種新的基于詞頻的文本加權的方式,這種文本加權的方式可以用于自然語言處理領域中多個任務。比如文本分類,關鍵詞提取,相似度計算等任務。同時本發明中提供了一種文本相似度的計算方式,通過文本的加權,給予文本中的詞不同的權重,實現信息的非線性分布,能夠提高文本的相似度計算的準確率,這種權重設計能夠降低詞頻低的詞的權重,同時也能夠賦予詞頻高的詞的較低的權重,增加中間段詞頻的詞的權重,減少詞頻低的詞和詞頻高的詞對整個文本向量的影響,提高文本間的相似度計算的準確率。
為了解決上述技術問題,本發明采用的技術方案為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于人和未來生物科技(長沙)有限公司,未經人和未來生物科技(長沙)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201910864611.3/2.html,轉載請聲明來源鉆瓜專利網。





