[發明專利]一種針對短文本的傾向性分析的系統與方法有效
| 申請號: | 201110438138.6 | 申請日: | 2011-12-23 |
| 公開(公告)號: | CN102541840B | 公開(公告)日: | 2018-08-10 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 中科鼎富(北京)科技發展有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 江崇玉 |
| 地址: | 100101 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 文本 傾向性 分析 系統 方法 | ||
1.一種利用中文信息語義處理技術,分析短文本中的傾向性的系統,其特征在于,其包含3個模塊:用戶輸入模塊101、傾向性識別模塊102、傾向性輸出模塊103;
用戶通過所述用戶輸入模塊101輸入關注的一個或多個對象,用戶輸入的對象為用戶關注的商品或事件;
所述傾向性識別模塊102,在短文本內容中檢索用戶關注的對象,及所有的傾向性特征詞語;
對所述短文本內容進行句子拆分,針對每一個句子,根據句子中包含的用戶關注的對象及傾向性特征詞語,計算每個對象的傾向性值;每個對象有對應傾向性集合,其中,若傾向性特征在動詞上,則根據該動詞與用戶指定的對象是否在同一逗號范圍內確定當前句子對檢索到的對象的傾向性權值,若傾向性特征詞不在動詞上,則根據傾向性特征與用戶指定對象是否跨越動詞來確定當前句子的傾向性權值;
將所有句子的計算結果,即各對象的傾向性集合里的值,進行累加,得到文本內容針對該對象的最后的傾向性值。
2.如權利要求1所述的系統,用戶輸入模塊101采用xml格式輸入用戶指定對象和指定領域,輸入的XML格式如下:
3.如權利要求1所述的系統,傾向性輸出模塊采用XML格式針對用戶輸入的一個或多個對象,給出一個或多個結果,輸出的XML格式如下:
4.如權利要求1所述的系統,傾向性識別模塊102包括2個知識庫:詞語傾向性庫122和領域傾向性模式庫123。
5.如權利要求4所述的系統,領域傾向性模式庫123以領域為單位,給出整個領域的傾向性表達的語義模式,語義模式表達采用的格式為“語義屬性+屬性值=>傾向性”的格式。
6.如權利要求1所述的系統,傾向性識別模塊102包括4個步驟:對象檢索111、傾向性特征識別112、句子傾向性識別113、文本傾向性識別114。
7.如權利要求6所述的系統,其中句子傾向性識別113包括以下步驟:
步驟201:對輸入的句子進行語義結構分析,分析出句子的語義結構;結構中給出句子的主謂賓,以及每個成分所對應的詞語;
步驟202:對象檢索,在當前句子中檢索對象,如果有,則進行下一步,否則直接輸出無關;
步驟203:傾向性特征識別,在當前句子中檢索傾向性特征詞語,如果有,則進行下一步;否則,在當前句子中,識別是否有傾向性模式出現;如果有,則進入下一步,否則直接輸出中性。
8.如權利要求6所述的系統,其中句子傾向性識別113進一步包括以下步驟:
步驟204:判斷傾向性特征是否在動詞上,如果是,則轉步驟211,否則轉步驟221;
步驟211:判斷動詞是否和檢索到的對象在同一個逗號,如果是,則轉步驟214,否則轉212;
步驟212:逗號間關系的識別,識別逗號間是否有轉折關系,動詞的管轄范圍是否跨逗號;
步驟213:判斷動詞是否管轄對象所在的逗號,如果是,則轉步驟214,否則轉205;
步驟214:設置傾向性權值為4;
步驟221:傾向性特征和用戶指定對象是否跨越動詞,這里的跨越動詞是出現在動詞兩邊;如果是,則轉222,否則轉223;
步驟222:動詞和其限定語是否具有否定極性作用;如果是,則轉225,否則,轉223;
步驟223:設置傾向性權值為2;
步驟225:設置傾向性權值為1;
步驟205:判斷是否還有其他的傾向性特征,如果是,則轉步驟204識別。
9.如權利要求6所述的系統,其中文本傾向性識別114包括以下步驟:
步驟501:輸入文本中每個句子的傾向性值和權值的集合;
步驟502:判斷集合中是否有傾向性值,如果有,則轉步驟504,否則轉步驟503;
步驟503:輸出文本傾向性值為中性;
步驟504:傾向性值數值化,傾向性值數值化如下:
正面數值化為1;
負面數值化為-1;
中性數值化為0;
步驟505:傾向性值和權值加權累加;對每個數值化后的傾向性乘以其權值累加;
步驟506:累加值判斷,如果累加值大于0,則轉步驟507,如果累加值小于0,則轉步驟509,如果等于0,則轉步驟508;
步驟507:輸出文本對此對象的傾向性為正面;
步驟508:輸出文本對此對象的傾向性為中性;
步驟509:輸出文本對此對象的傾向性為負面;
步驟510:是否還有其他對象,如果是,則轉504,否則,轉511;
步驟511:針對每個對象,輸出文本的傾向性值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科鼎富(北京)科技發展有限公司,未經中科鼎富(北京)科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201110438138.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:物體轉動慣量測量裝置
- 下一篇:一種自鎖壓力信號器





