[發(fā)明專利]面向產(chǎn)品評論的跨領(lǐng)域?qū)ε记楦蟹治龇椒?/span>有效
| 申請?zhí)枺?/td> | 201710229726.6 | 申請日: | 2017-04-10 |
| 公開(公告)號: | CN108694165B | 公開(公告)日: | 2021-11-09 |
| 發(fā)明(設(shè)計)人: | 夏睿;王樂義 | 申請(專利權(quán))人: | 南京理工大學(xué) |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35 |
| 代理公司: | 南京理工大學(xué)專利中心 32203 | 代理人: | 陳鵬 |
| 地址: | 210094 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 產(chǎn)品 評論 領(lǐng)域 對偶 情感 分析 方法 | ||
1.一種面向產(chǎn)品評論的跨領(lǐng)域?qū)ε记楦蟹治龇椒ǎ涮卣髟谟冢ㄒ韵虏襟E:
步驟1,對于給定目標(biāo)領(lǐng)域的產(chǎn)品評論數(shù)據(jù),首先為其選定情感標(biāo)注語料規(guī)模不低于目標(biāo)領(lǐng)域四倍的領(lǐng)域作為源領(lǐng)域,獲取源領(lǐng)域標(biāo)注語料資源;隨后對源領(lǐng)域和目標(biāo)領(lǐng)域的樣本數(shù)據(jù)預(yù)處理,包括分詞、詞性標(biāo)注和停用詞過濾;
步驟2,借助英文本體庫通過迭代查詢的方式遍歷源領(lǐng)域及目標(biāo)領(lǐng)域語料中所有特征詞的反義詞,并根據(jù)反義詞在數(shù)據(jù)集中的詞頻信息,為每個特征詞的多個反義詞分別設(shè)置權(quán)重,構(gòu)建具備一對多關(guān)系的帶權(quán)反義詞典;
步驟3,使用步驟2構(gòu)建的帶權(quán)反義詞典,結(jié)合跨領(lǐng)域翻轉(zhuǎn)樣本構(gòu)造規(guī)則構(gòu)造翻轉(zhuǎn)樣本,從而擴(kuò)充源領(lǐng)域和目標(biāo)領(lǐng)域的樣本數(shù)據(jù);
步驟4,采用“詞袋”模型對數(shù)據(jù)集中的原樣本及翻轉(zhuǎn)樣本進(jìn)行文本表示,并對翻轉(zhuǎn)樣本中引入的帶權(quán)情感詞進(jìn)行加權(quán)表示;
步驟5,采用Logistic模型或Navie Bayes算法學(xué)習(xí)基分類器,具體為:
A)對偶學(xué)習(xí)階段:使用源領(lǐng)域的原樣本和翻轉(zhuǎn)樣本作為訓(xùn)練集訓(xùn)練基分類器clsa;僅使用源領(lǐng)域的原樣本訓(xùn)練基分類器clsb;
B)對偶預(yù)測階段:使用基分類器clsa分別預(yù)測目標(biāo)領(lǐng)域原樣本和翻轉(zhuǎn)樣本;使用基分類器clsb預(yù)測目標(biāo)領(lǐng)域原樣本;
C)分類器集成階段:
(1)基于權(quán)重的集成:如式(2)中所示,其中權(quán)重參數(shù)α(0≤α≤1),po(+|x)為基分類器clsa預(yù)測目標(biāo)領(lǐng)域原樣本為正類的概率,為基分類器clsa預(yù)測目標(biāo)領(lǐng)域翻轉(zhuǎn)樣本預(yù)測為負(fù)類的概率;為采用(2)中加權(quán)的方式集成目標(biāo)領(lǐng)域原樣本、翻轉(zhuǎn)樣本關(guān)于類別y的預(yù)測概率;
(2)基于置信度的集成:采用置信度平滑概率,如式(3)所示,其中為樣本最終預(yù)測的標(biāo)簽,p(y|x)為基分類器clsb預(yù)測目標(biāo)領(lǐng)域原樣本的概率,Δp為c為置信度,其中,當(dāng)c0時,系統(tǒng)更信任基于權(quán)重的集成
2.根據(jù)權(quán)利要求1所述的面向產(chǎn)品評論的跨領(lǐng)域?qū)ε记楦蟹治龇椒ǎ涮卣髟谟冢霾襟E1具體為:
A)對于給定目標(biāo)領(lǐng)域的產(chǎn)品評論數(shù)據(jù),首先為其選定情感標(biāo)注語料規(guī)模不低于目標(biāo)領(lǐng)域四倍的領(lǐng)域作為源領(lǐng)域,獲取源領(lǐng)域標(biāo)注語料資源;
B)使用現(xiàn)有的開源分詞和詞性標(biāo)注工具對源領(lǐng)域及目標(biāo)領(lǐng)域的語料進(jìn)行分詞、詞性標(biāo)注,并過濾語料中的停用詞。
3.根據(jù)權(quán)利要求2所述的面向產(chǎn)品評論的跨領(lǐng)域?qū)ε记楦蟹治龇椒ǎ涮卣髟谟冢褂玫姆衷~和詞性標(biāo)注工具包括NLTK,Stanford-PosTagger。
4.根據(jù)權(quán)利要求1所述的面向產(chǎn)品評論的跨領(lǐng)域?qū)ε记楦蟹治龇椒ǎ涮卣髟谟冢襟E2所述具備 一對多關(guān)系的帶權(quán)反義詞典的構(gòu)建方法具體為:
借助英文本體庫通過迭代查詢的方式遍歷源領(lǐng)域和目標(biāo)領(lǐng)域中所有形容詞、動詞、副詞的反義詞,并根據(jù)各反義詞在數(shù)據(jù)集的詞頻信息,為每個特征擇的多個反義詞分別設(shè)置權(quán)重,構(gòu)建具備一對多關(guān)系的帶權(quán)反義詞典;
特征詞的反義詞權(quán)重計算策略如下:
A)BOOL權(quán)重策略,即將每個特征詞的多個反義詞的權(quán)重均設(shè)置為1;
B)詞頻權(quán)重策略,采用一種基于詞頻與權(quán)重映射關(guān)系的表示方法;
首先,定義一種詞頻和權(quán)重信息的映射關(guān)系,表示為:
其中為權(quán)重向量,維度為詞表大小,為詞頻權(quán)重,為詞表,#V為詞表大小。
5.根據(jù)權(quán)利要求4所述的面向產(chǎn)品評論的跨領(lǐng)域?qū)ε记楦蟹治龇椒ǎ涮卣髟谟冢褂玫挠⑽谋倔w庫為WordNet。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京理工大學(xué),未經(jīng)南京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201710229726.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





