[發明專利]一種基于社團劃分的無監督復合短語識別方法在審
| 申請號: | 201710018100.0 | 申請日: | 2017-01-10 |
| 公開(公告)號: | CN106897264A | 公開(公告)日: | 2017-06-27 |
| 發明(設計)人: | 柳廳文;閆旸;李全剛;亞靜;王玉斌;時金橋;郭莉 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙)11200 | 代理人: | 邱曉鋒 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 社團 劃分 監督 復合 短語 識別 方法 | ||
1.一種基于社團劃分的無監督復合短語識別方法,其步驟包括:
1)采用詞性標注工具對輸入的語料進行詞性標注和分詞;
2)生成科技復合短語的上下文模板,并通過所述上下文模板對分詞后的語料進行科技復合短語的預提取;
3)將預提取后的文本中的分詞序列映射到有序的社團圖結構,然后按照分詞之間的權重將前后具有緊密聯系的詞語劃分到一個社團分段中;
4)計算各個社團分段的模塊度,并求解不同社團分段的組合的模塊度,將整個輸入文本的模塊度之和最大化;
5)驗證各社團分段是否包含科技復合短語的特征詞,以實現科技復合短語的最終識別。
2.如權利要求1所述的方法,其特征在于:步驟2)根據科技復合短語的頻繁上下文特性,采用基于LDA自動生成模板的方法來生成所述上下文模板。
3.如權利要求1所述的方法,其特征在于:步驟3)所述分詞之間的權重包括特殊符號權重、維基百科權重以及詞性權重。
4.如權利要求3所述的方法,其特征在于,所述特殊符號權重為:
其中,Ds(w1,w2)代表分詞w1與w2之間間隔的分詞個數,為表征w1與w2之間是否位于同一對特殊符號的布爾函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201710018100.0/1.html,轉載請聲明來源鉆瓜專利網。





