[發(fā)明專利]一種實(shí)體識(shí)別模型的建立方法、系統(tǒng)、電子設(shè)備及介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202110669805.5 | 申請(qǐng)日: | 2021-06-17 |
| 公開(公告)號(hào): | CN113128234B | 公開(公告)日: | 2021-11-02 |
| 發(fā)明(設(shè)計(jì))人: | 姚娟娟 | 申請(qǐng)(專利權(quán))人: | 明品云(北京)數(shù)據(jù)科技有限公司 |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06F40/284;G06F40/247;G06F16/33;G06F16/35 |
| 代理公司: | 上海漢之律師事務(wù)所 31378 | 代理人: | 馮華 |
| 地址: | 102400 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 實(shí)體 識(shí)別 模型 建立 方法 系統(tǒng) 電子設(shè)備 介質(zhì) | ||
本發(fā)明適用于數(shù)據(jù)處理技術(shù)領(lǐng)域,提供了一種實(shí)體識(shí)別模型的建立方法、系統(tǒng)、電子設(shè)備及介質(zhì),其中,所述方法包括獲取目標(biāo)領(lǐng)域的文本數(shù)據(jù),得到實(shí)體數(shù)據(jù)集,并將實(shí)體數(shù)據(jù)集劃分為待標(biāo)注數(shù)據(jù)集和待處理數(shù)據(jù)集;對(duì)待處理數(shù)據(jù)集進(jìn)行同義詞替換,得到處理數(shù)據(jù)集;根據(jù)待標(biāo)注數(shù)據(jù)集和處理數(shù)據(jù)集的詞義相似度確定處理數(shù)據(jù)集中的新詞數(shù)據(jù)集,對(duì)待標(biāo)注數(shù)據(jù)集和新詞數(shù)據(jù)集進(jìn)行標(biāo)注,得到標(biāo)注數(shù)據(jù)集;基于標(biāo)注數(shù)據(jù)集采用信息抽取方法對(duì)待處理數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練數(shù)據(jù)集;采用預(yù)訓(xùn)練數(shù)據(jù)集訓(xùn)練初始實(shí)體識(shí)別模型,輸出目標(biāo)實(shí)體識(shí)別模型,解決了現(xiàn)有技術(shù)中高質(zhì)量標(biāo)注語料規(guī)模小等問題。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種實(shí)體識(shí)別模型的建立方法、系統(tǒng)、電子設(shè)備及介質(zhì)。
背景技術(shù)
實(shí)體識(shí)別是自然語言處理領(lǐng)域的核心基礎(chǔ)任務(wù)之一,其任務(wù)是從文本中提取特定類型的實(shí)體。在信息檢索、問答系統(tǒng)、信息抽取、文本挖掘等下游自然語言處理任務(wù)中具有重要的科學(xué)意義和廣泛的應(yīng)用價(jià)值。從目前已有的研究成果來看,命名實(shí)體識(shí)別研究在某些領(lǐng)域識(shí)別的結(jié)果,受困于高質(zhì)量標(biāo)注語料規(guī)模小、識(shí)別速度慢和識(shí)別準(zhǔn)確度低的現(xiàn)狀,對(duì)比傳統(tǒng)領(lǐng)域性能更差。
發(fā)明內(nèi)容
本發(fā)明提供一種實(shí)體識(shí)別模型的建立方法、系統(tǒng)、電子設(shè)備及介質(zhì),以解決現(xiàn)有技術(shù)中高質(zhì)量標(biāo)注語料規(guī)模小和識(shí)別速度慢等問題。
本發(fā)明提供的實(shí)體識(shí)別模型的建立方法,包括:獲取目標(biāo)領(lǐng)域的文本數(shù)據(jù),得到實(shí)體數(shù)據(jù)集,并將所述實(shí)體數(shù)據(jù)集劃分為待標(biāo)注數(shù)據(jù)集和待處理數(shù)據(jù)集;
對(duì)所述待處理數(shù)據(jù)集進(jìn)行分詞處理和詞性標(biāo)注,根據(jù)詞性和詞共現(xiàn)度對(duì)所述待處理數(shù)據(jù)集進(jìn)行同義詞替換,得到處理數(shù)據(jù)集;
根據(jù)所述待標(biāo)注數(shù)據(jù)集和所述處理數(shù)據(jù)集的詞義相似度確定所述處理數(shù)據(jù)集中的新詞數(shù)據(jù)集,對(duì)所述待標(biāo)注數(shù)據(jù)集和所述新詞數(shù)據(jù)集進(jìn)行標(biāo)注,得到標(biāo)注數(shù)據(jù)集;
基于所述標(biāo)注數(shù)據(jù)集采用信息抽取方法對(duì)所述待處理數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,得到預(yù)訓(xùn)練數(shù)據(jù)集;
采用所述預(yù)訓(xùn)練數(shù)據(jù)集訓(xùn)練初始實(shí)體識(shí)別模型,輸出目標(biāo)實(shí)體識(shí)別模型。
可選的,所述根據(jù)詞性和詞共現(xiàn)度對(duì)所述待處理數(shù)據(jù)集進(jìn)行同義詞替換,得到處理數(shù)據(jù)集,具體包括:
對(duì)經(jīng)過分詞處理和詞性標(biāo)注的待處理數(shù)據(jù)集進(jìn)行去停用詞,得到待分類數(shù)據(jù)集;
根據(jù)語義相似度對(duì)所述待分類數(shù)據(jù)集進(jìn)行聚類處理,得到若干個(gè)分類數(shù)據(jù)集;
根據(jù)詞性和詞共現(xiàn)度對(duì)所述分類數(shù)據(jù)集進(jìn)行同義詞替換,得到分類處理集,合并所述分類處理集生成處理數(shù)據(jù)集。
可選的,所述根據(jù)詞性和詞共現(xiàn)度對(duì)所述分類數(shù)據(jù)集進(jìn)行同義詞替換,得到分類處理集,具體包括:
根據(jù)所述分類數(shù)據(jù)集中詞所處的位置和預(yù)設(shè)位置權(quán)重確定詞的位置評(píng)價(jià)參數(shù);
獲取所述分類數(shù)據(jù)集中同一詞性的詞,得到詞性數(shù)據(jù)集,獲取詞性數(shù)據(jù)集中位置評(píng)價(jià)參數(shù)相同的詞,根據(jù)所述位置評(píng)價(jià)參數(shù)相同的詞之間的上下文語義相似度確定詞共現(xiàn)度;
根據(jù)詞共現(xiàn)度對(duì)所述詞性數(shù)據(jù)集進(jìn)行同義詞替換,得到分類處理集。
可選的,所述根據(jù)所述待標(biāo)注數(shù)據(jù)集和所述處理數(shù)據(jù)集的詞義相似度確定所述處理數(shù)據(jù)集中的新詞數(shù)據(jù)集,具體包括:
根據(jù)同義關(guān)系和反義關(guān)系確定所述待標(biāo)注數(shù)據(jù)集和所述處理數(shù)據(jù)集的詞義相似度;
若所述待標(biāo)注數(shù)據(jù)集和所述處理數(shù)據(jù)集的詞義相似度小于相似度閾值,則得到新詞數(shù)據(jù)集。
可選的,所述根據(jù)同義關(guān)系和反義關(guān)系確定所述待標(biāo)注數(shù)據(jù)集和所述處理數(shù)據(jù)集的詞義相似度,具體包括:
根據(jù)所述待標(biāo)注數(shù)據(jù)集與所述處理數(shù)據(jù)集的同義關(guān)系和預(yù)設(shè)同義關(guān)系權(quán)重確定同義評(píng)價(jià)參數(shù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于明品云(北京)數(shù)據(jù)科技有限公司,未經(jīng)明品云(北京)數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/202110669805.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





