[發(fā)明專利]待標(biāo)注語料的分配方法、裝置、可讀存儲介質(zhì)及電子設(shè)備在審
| 申請?zhí)枺?/td> | 201711297674.2 | 申請日: | 2017-12-08 |
| 公開(公告)號: | CN108170670A | 公開(公告)日: | 2018-06-15 |
| 發(fā)明(設(shè)計(jì))人: | 李玉信;崔朝輝;趙立軍;張霞 | 申請(專利權(quán))人: | 東軟集團(tuán)股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京英創(chuàng)嘉友知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11447 | 代理人: | 魏嘉熹;南毅寧 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語料 標(biāo)注 可讀存儲介質(zhì) 電子設(shè)備 集合 結(jié)束條件 人工標(biāo)注 訓(xùn)練模型 輸出 分配 預(yù)設(shè) 工作量 返回 | ||
1.一種待標(biāo)注語料的分配方法,其特征在于,所述方法包括:
獲取一初始待標(biāo)注語料集合;
輸出一目標(biāo)待標(biāo)注語料,以對所述目標(biāo)待標(biāo)注語料進(jìn)行語料標(biāo)注,其中,所述目標(biāo)待標(biāo)注語料初始為所述初始待標(biāo)注語料集合中的任一待標(biāo)注語料;
在對所述目標(biāo)待標(biāo)注語料完成語料標(biāo)注后,從所述初始待標(biāo)注語料集合中未進(jìn)行語料標(biāo)注的待標(biāo)注語料中,確定與所述目標(biāo)待標(biāo)注語料相關(guān)性最小的待標(biāo)注語料,并將該待標(biāo)注語料確定為新的目標(biāo)待標(biāo)注語料;
返回所述輸出一目標(biāo)待標(biāo)注語料,以對所述目標(biāo)待標(biāo)注語料進(jìn)行語料標(biāo)注的步驟,直到滿足預(yù)設(shè)的標(biāo)注結(jié)束條件為止。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述初始待標(biāo)注語料集合中未進(jìn)行語料標(biāo)注的待標(biāo)注語料中,確定與所述目標(biāo)待標(biāo)注語料相關(guān)性最小的待標(biāo)注語料,包括:
獲取所述目標(biāo)待標(biāo)注語料的分詞集合;
針對所述初始待標(biāo)注語料集合中未進(jìn)行語料標(biāo)注的每個待標(biāo)注語料,通過以下公式計(jì)算該待標(biāo)注語料與所述目標(biāo)待標(biāo)注語料的相關(guān)性:
其中,ir表示所述初始待標(biāo)注語料集合中第r個未進(jìn)行語料標(biāo)注的待標(biāo)注語料與所述目標(biāo)待標(biāo)注語料的相關(guān)性;
TFj表示所述分詞集合中第j個分詞在所述第r個未進(jìn)行語料標(biāo)注的待標(biāo)注語料中的詞頻;
IDFj表示所述分詞集合中第j個分詞在所述初始待標(biāo)注語料集合中的逆向文件頻率;
q表示所述分詞集合中的分詞總數(shù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取所述目標(biāo)待標(biāo)注語料的分詞集合,包括:
對所述目標(biāo)待標(biāo)注語料的分詞進(jìn)行去重操作以及去停用詞操作后,獲得所述目標(biāo)待標(biāo)注語料的分詞集合。
4.根據(jù)權(quán)利要求1-3中任一項(xiàng)所述的方法,其特征在于,在所述獲取初始待標(biāo)注語料集合的步驟之前,所述方法還包括:
獲取原始待標(biāo)注語料庫;
將所述原始待標(biāo)注語料庫中的各篇原始語料按照預(yù)設(shè)條件進(jìn)行拆分,以獲得各篇原始語料對應(yīng)的拆分語料集合;
對全部所述拆分語料集合中的各個拆分語料進(jìn)行降維處理,并計(jì)算所述各個拆分語料之間的距離;
基于所述距離,對所述各個拆分語料進(jìn)行聚類,聚類后獲得的各個集合分別作為各個所述初始待標(biāo)注語料集合。
5.一種待標(biāo)注語料的分配裝置,其特征在于,所述裝置包括:
第一獲取模塊,用于獲取一初始待標(biāo)注語料集合;
輸出模塊,用于輸出一目標(biāo)待標(biāo)注語料,以對所述目標(biāo)待標(biāo)注語料進(jìn)行語料標(biāo)注,其中,所述目標(biāo)待標(biāo)注語料初始為所述初始待標(biāo)注語料集合中的任一待標(biāo)注語料;
確定模塊,用于在對所述目標(biāo)待標(biāo)注語料完成語料標(biāo)注后,從所述初始待標(biāo)注語料集合中未進(jìn)行語料標(biāo)注的待標(biāo)注語料中,確定與所述目標(biāo)待標(biāo)注語料相關(guān)性最小的待標(biāo)注語料,并將該待標(biāo)注語料確定為新的目標(biāo)待標(biāo)注語料,并觸發(fā)所述輸出模塊輸出一目標(biāo)待標(biāo)注語料,以對所述目標(biāo)待標(biāo)注語料進(jìn)行語料標(biāo)注,直到滿足預(yù)設(shè)的標(biāo)注結(jié)束條件為止。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述確定模塊包括:
獲取子模塊,用于獲取所述目標(biāo)待標(biāo)注語料的分詞集合;
計(jì)算子模塊,用于針對所述初始待標(biāo)注語料集合中未進(jìn)行語料標(biāo)注的每個待標(biāo)注語料,通過以下公式計(jì)算該待標(biāo)注語料與所述目標(biāo)待標(biāo)注語料的相關(guān)性:
其中,ir表示所述初始待標(biāo)注語料集合中第r個未進(jìn)行語料標(biāo)注的待標(biāo)注語料與所述目標(biāo)待標(biāo)注語料的相關(guān)性;
TFj表示所述分詞集合中第j個分詞在所述第r個未進(jìn)行語料標(biāo)注的待標(biāo)注語料中的詞頻;
IDFj表示所述分詞集合中第j個分詞在所述初始待標(biāo)注語料集合中的逆向文件頻率;
q表示所述分詞集合中的分詞總數(shù)。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述獲取子模塊用于:
對所述目標(biāo)待標(biāo)注語料的分詞進(jìn)行去重操作以及去停用詞操作后,獲得所述目標(biāo)待標(biāo)注語料的分詞集合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東軟集團(tuán)股份有限公司,未經(jīng)東軟集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201711297674.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語料庫數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺的方法、裝置、電子設(shè)備和存儲介質(zhì)
- 具有中間反應(yīng)層的有限次播放光學(xué)設(shè)備以及制造該設(shè)備的方法
- 用于有限播放光學(xué)設(shè)備的反應(yīng)性物質(zhì)及其制法
- 存儲裝置和信息處理系統(tǒng)
- 用于興趣點(diǎn)識別的系統(tǒng)和方法
- 網(wǎng)絡(luò)配置方法、配置文件集生成方法、裝置及網(wǎng)絡(luò)設(shè)備
- 電子裝置及其操作方法
- 用于將操作系統(tǒng)存儲在計(jì)算機(jī)可讀介質(zhì)上的BIOS代碼
- 多存儲介質(zhì)并存的配置方法、裝置和系統(tǒng)
- 相機(jī)組同步曝光控制方法及系統(tǒng)、計(jì)算機(jī)可讀存儲介質(zhì)、相機(jī)組控制系統(tǒng)
- 炒鍋翻炒方法、計(jì)算機(jī)可讀存儲介質(zhì)及智能炒菜機(jī)





