[發明專利]一種基于社團劃分的無監督復合短語識別方法在審
| 申請號: | 201710018100.0 | 申請日: | 2017-01-10 |
| 公開(公告)號: | CN106897264A | 公開(公告)日: | 2017-06-27 |
| 發明(設計)人: | 柳廳文;閆旸;李全剛;亞靜;王玉斌;時金橋;郭莉 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙)11200 | 代理人: | 邱曉鋒 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 社團 劃分 監督 復合 短語 識別 方法 | ||
技術領域
本發明屬于信息技術領域,具體涉及一種基于社團劃分的無監督復合短語識別方法。
背景技術
隨著多科學研究的逐步深入,現今學術界和研究者發表大量的研究成果呈海量爆炸性增長。如何自動化收集、整合、分析這些工作成為了學術界和工業界關注的問題。包括論文、書籍、技術報告、專利的題目、科技項目名稱等,這一類短語在這里統稱為復合短語。如何高效的從各類網絡語料中抽取需要的科技復合名詞實體,是自動化進行學術信息抽取、知識產權保護、科技資源數據庫在線建設與維護等諸多應用的基礎。
傳統意義上的命名實體作為是自然語言處理的基本任務抽取的對象,主要包括人名、地名、組織機構名、數字、計量單位等專有名詞。這些命名實體具有長度相對穩定、結構規范、命名規則同意的有利特點,這使得傳統的命名實體識別系統的F1-measure往往能達到90%以上,幾乎接近人類正常識別水平。而科技類名詞短語不同于人名和地名。科技類名詞往往內部結構復雜,內部包含嵌套的科技名詞實體。而且科技類名詞短語紛繁復雜,詞語的出現與否本身具有極大的稀疏性,內部實體之間相互組合的冗余度低。這類詞法結構導致識別該類命名實體的難度較大。這使得通過詞語本身隱式馬爾科夫輸入的方法不可行。由于復合短語相對于普通的命名實體(人名、地名、機構名)詞語本身詞法組成更加復雜,傳統的純手工角色標注容易導致標注錯誤,而且傳統方法依賴于手工標注數據,費事費力。
發明內容
本發明的目的在于提供無監督的復合短語自動識別方法,為解決科技類短語手工標注數據費時費力的困難以及傳統的有監督方法效果較差的問題,針對科技類名詞短語數據稀疏、冗余度低的特點,本發明提出了一種基于社團劃分的無監督復合短語的高效識別方法。
本發明采用的技術方案如下:
一種基于社團劃分的無監督復合短語識別方法,其步驟包括:
1)采用詞性標注工具對輸入的語料進行詞性標注和分詞;
2)生成科技復合短語的上下文模板,并通過所述上下文模板對分詞后的語料進行科技復合短語的預提??;
3)將預提取后的文本中的分詞序列映射到有序的社團圖結構,然后按照分詞之間的權重將前后具有緊密聯系的詞語劃分到一個社團分段中;
4)計算各個社團分段的模塊度,并求解不同社團分段的組合的模塊度,將整個輸入文本的模塊度之和最大化;
5)驗證各社團分段是否包含科技復合短語的特征詞,以實現科技復合短語的最終識別。
進一步地,步驟2)根據科技復合短語的頻繁上下文特性,采用基于LDA自動生成模板的方法來生成所述上下文模板。
進一步地,步驟3)所述分詞之間的權重包括特殊符號權重、維基百科權重以及詞性權重。
進一步地,步驟4)通過動態規劃求解不同社團分段的組合的模塊度。
進一步地,步驟5)采用最小集合覆蓋的方法來產生特征詞集合,進而利用特征詞集合進行所述驗證。
本發明的關鍵點包括兩個方面:
(1)針對設置對科技類復合名詞短語自身的特點,通過將輸入序列映射到有序的社團圖模型的,并通過模塊度最大化的切分,將候選科技復合短語切分出來。
(2)根據復合短語特征詞中富含特征詞這一重要特性,采用了前一階段的分段是否包含特征詞來實現候選科技復合短語的最終識別。本發明采用了最小集合覆蓋的思想,來產生特征詞集合。
本發明的有益效果如下:
本發明提供了一種基于社團劃分的無監督復合短語的識別方法,相比于傳統的有監督方法,只需少量標注語料,便可以自動識別科技類復合短語。本發明便于在線部署應用,是一種高效的科技類復合短語識別方法。
附圖說明
圖1是命名實體識別處理流程圖。
圖2是單詞圖分割例子圖。
圖3是二元運算計算示意圖。
圖4是參數u在NSTPA語料上對查準率、查全率、F1測度的影響曲線。
圖5是參數u在WPATENT語料上對查準率、查全率、F1測度的影響曲線。
圖6是參數v在NSTPA語料上對查準率、查全率、F1測度的影響曲線。
圖7是參數v在WPATENT語料上對查準率、查全率、F1測度的影響曲線。
圖8是滑動窗口大小在NSTPA語料上對查準率、查全率、F1測度的影響曲線。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201710018100.0/2.html,轉載請聲明來源鉆瓜專利網。





