[發(fā)明專利]一種領(lǐng)域術(shù)語(yǔ)抽取的方法有效
| 申請(qǐng)?zhí)枺?/td> | 201410831590.2 | 申請(qǐng)日: | 2014-12-26 |
| 公開(公告)號(hào): | CN104598530B | 公開(公告)日: | 2018-06-05 |
| 發(fā)明(設(shè)計(jì))人: | 江潮;張芃 | 申請(qǐng)(專利權(quán))人: | 語(yǔ)聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 北京康盛知識(shí)產(chǎn)權(quán)代理有限公司 11331 | 代理人: | 張宇峰 |
| 地址: | 430070 湖北省武漢市東湖開發(fā)區(qū)光谷軟件*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 領(lǐng)域術(shù)語(yǔ) 詞頻 抽取 特征參數(shù) 互信息 語(yǔ)素 獨(dú)立性 原始語(yǔ)料 維度 分析 保證 | ||
一種領(lǐng)域術(shù)語(yǔ)抽取的方法,包括:對(duì)原始語(yǔ)料以語(yǔ)素為單位進(jìn)行任意長(zhǎng)度的切分,獲得若干候選術(shù)語(yǔ),其中,每個(gè)所述候選術(shù)語(yǔ)由至少二個(gè)語(yǔ)素組成;從詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語(yǔ)進(jìn)行分析,確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù);利用確定的所述多個(gè)特征參數(shù),計(jì)算出該候選術(shù)語(yǔ)的領(lǐng)域術(shù)語(yǔ)度;抽取所述領(lǐng)域術(shù)語(yǔ)度高于閾值的候選術(shù)語(yǔ)作為新的領(lǐng)域術(shù)語(yǔ)。本發(fā)明通過詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)上對(duì)候選術(shù)語(yǔ)進(jìn)行充分的分析,保證提取的術(shù)語(yǔ)可靠性和準(zhǔn)確性較高。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其是一種領(lǐng)域術(shù)語(yǔ)抽取的方法。
背景技術(shù)
領(lǐng)域術(shù)語(yǔ)或?qū)I(yè)術(shù)語(yǔ)是以語(yǔ)音或文字為載體來(lái)表達(dá)或限定專業(yè)概念的約定性符號(hào)。隨著科學(xué)技術(shù)的蓬勃發(fā)展、新技術(shù)的不斷涌現(xiàn)以及互聯(lián)網(wǎng)技術(shù)的日新月異,一些特定領(lǐng)域的專業(yè)術(shù)語(yǔ)不斷擴(kuò)大與更新,因此按照傳統(tǒng)的人工搜集領(lǐng)域術(shù)語(yǔ)的方式已無(wú)法滿足實(shí)際需求,自動(dòng)抽取領(lǐng)域術(shù)語(yǔ)(ATE,Automatic Term Extraction)已成為了必然。實(shí)際應(yīng)用中,領(lǐng)域術(shù)語(yǔ)抽取在構(gòu)建領(lǐng)域本體、中文分詞、信息抽取、詞典編纂、信息檢索、機(jī)器翻譯、文本分類、自動(dòng)文摘等方面均具有重要意義。
目前,業(yè)內(nèi)所采用的領(lǐng)域術(shù)語(yǔ)抽取方法僅僅是基于單一方面對(duì)詞匯進(jìn)行分析以及判定,領(lǐng)域術(shù)語(yǔ)提取效果比較差。
發(fā)明內(nèi)容
本發(fā)明的目的之一是提供一種領(lǐng)域術(shù)語(yǔ)抽取的方法,以解決現(xiàn)有技術(shù)中對(duì)于領(lǐng)域術(shù)語(yǔ)提取效果比較差的問題。
在一些說(shuō)明性實(shí)施例中,所述領(lǐng)域術(shù)語(yǔ)抽取的方法,包括:對(duì)原始語(yǔ)料以語(yǔ)素為單位進(jìn)行任意長(zhǎng)度的切分,獲得若干候選術(shù)語(yǔ),其中,每個(gè)所述候選術(shù)語(yǔ)由至少二個(gè)語(yǔ)素組成;從詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語(yǔ)進(jìn)行分析,確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù);利用確定的所述多個(gè)特征參數(shù),計(jì)算出該候選術(shù)語(yǔ)的領(lǐng)域術(shù)語(yǔ)度;抽取所述領(lǐng)域術(shù)語(yǔ)度高于閾值的候選術(shù)語(yǔ)作為新的領(lǐng)域術(shù)語(yǔ)。
與現(xiàn)有技術(shù)相比,本發(fā)明的說(shuō)明性實(shí)施例包括以下優(yōu)點(diǎn):
本發(fā)明通過詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)上對(duì)候選術(shù)語(yǔ)進(jìn)行多個(gè)維度的充分的分析,保證提取的術(shù)語(yǔ)可靠性和準(zhǔn)確性較高。
附圖說(shuō)明
此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
圖1是按照本發(fā)明的說(shuō)明性實(shí)施例的流程圖。
具體實(shí)施方式
在以下詳細(xì)描述中,提出大量特定細(xì)節(jié),以便于提供對(duì)本發(fā)明的透徹理解。但是,本領(lǐng)域的技術(shù)人員會(huì)理解,即使沒有這些特定細(xì)節(jié)也可實(shí)施本發(fā)明。在其它情況下,沒有詳細(xì)描述眾所周知的方法、過程、組件和電路,以免影響對(duì)本發(fā)明的理解。
本發(fā)明中所采用的術(shù)語(yǔ)“語(yǔ)素”是指語(yǔ)言數(shù)據(jù)中的不可拆分的最小單位,對(duì)應(yīng)為一個(gè)字或一個(gè)單詞。
如圖1所示,公開了一種領(lǐng)域術(shù)語(yǔ)抽取的方法,包括:
S11、對(duì)原始語(yǔ)料以語(yǔ)素為單位進(jìn)行任意長(zhǎng)度的切分,獲得若干候選術(shù)語(yǔ),其中,每個(gè)所述候選術(shù)語(yǔ)由至少二個(gè)語(yǔ)素組成;
S12、從詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語(yǔ)進(jìn)行分析,確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù);
S13、利用確定的所述多個(gè)特征參數(shù),計(jì)算出該候選術(shù)語(yǔ)的領(lǐng)域術(shù)語(yǔ)度;
S14、抽取所述領(lǐng)域術(shù)語(yǔ)度高于閾值的候選術(shù)語(yǔ)作為新的領(lǐng)域術(shù)語(yǔ)。
本發(fā)明通過詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)上對(duì)候選術(shù)語(yǔ)進(jìn)行多個(gè)維度的充分的分析,保證提取的術(shù)語(yǔ)可靠性和準(zhǔn)確性較高。
以下對(duì)上述方法進(jìn)行詳細(xì)說(shuō)明:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于語(yǔ)聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司,未經(jīng)語(yǔ)聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201410831590.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 中文術(shù)語(yǔ)自動(dòng)提取系統(tǒng)及方法
- 一種構(gòu)建領(lǐng)域本體的方法
- 一種領(lǐng)域術(shù)語(yǔ)抽取方法
- 一種領(lǐng)域術(shù)語(yǔ)抽取的方法
- 融合語(yǔ)境信息的領(lǐng)域術(shù)語(yǔ)識(shí)別方法
- 一種用于電力95598工單的領(lǐng)域術(shù)語(yǔ)識(shí)別系統(tǒng)及方法
- 一種醫(yī)學(xué)標(biāo)準(zhǔn)術(shù)語(yǔ)本體管理系統(tǒng)及方法、設(shè)備和存儲(chǔ)介質(zhì)
- 關(guān)鍵術(shù)語(yǔ)抽取方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種領(lǐng)域概念語(yǔ)義漂移探究方法
- 一種構(gòu)建制造領(lǐng)域術(shù)語(yǔ)庫(kù)的方法及系統(tǒng)
- 基于互聯(lián)網(wǎng)信息的輸入法詞頻庫(kù)的生成方法和系統(tǒng)
- 基于用戶特性的詞頻庫(kù)的生成方法
- 詞典生成裝置以及信息檢索裝置
- 一種數(shù)字出版物詞匯抽取、顯示方法和系統(tǒng)
- 一種基于互聯(lián)網(wǎng)詞頻的城市認(rèn)知地圖生成方法
- 熱詞詞組提取方法和系統(tǒng)
- 文本相似度確定方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 基于詞頻的文本特征加權(quán)及短文本相似性計(jì)算方法、系統(tǒng)和介質(zhì)
- 一種輸入的方法及相關(guān)裝置
- 自動(dòng)回復(fù)生成方法、裝置及智能設(shè)備
- 一種視頻數(shù)據(jù)快速特征檢索的方法及系統(tǒng)
- 用于評(píng)估對(duì)象的整體特征狀態(tài)的方法和裝置
- 一種特征參數(shù)的調(diào)整方法、裝置和電子設(shè)備
- 廣告投放方法和系統(tǒng)
- 一種信息提示的方法及裝置
- 點(diǎn)讀對(duì)象處理方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種用于對(duì)發(fā)票變票虛開行為進(jìn)行監(jiān)控的方法及系統(tǒng)
- 一種將語(yǔ)音轉(zhuǎn)換為文字的方法、裝置及系統(tǒng)
- 檢測(cè)數(shù)據(jù)處理方法
- 面向家居多特征參數(shù)融合的聲紋識(shí)別方法





