[發(fā)明專利]基于社交網(wǎng)絡(luò)大數(shù)據(jù)的人物畫像模型構(gòu)建方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810628230.0 | 申請(qǐng)日: | 2018-06-19 |
| 公開(公告)號(hào): | CN108804701A | 公開(公告)日: | 2018-11-13 |
| 發(fā)明(設(shè)計(jì))人: | 韓月輝;周逸鳴;趙雷 | 申請(qǐng)(專利權(quán))人: | 蘇州大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06Q50/00 |
| 代理公司: | 蘇州市中南偉業(yè)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32257 | 代理人: | 楊慧林 |
| 地址: | 215131 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 社交網(wǎng)絡(luò)信息 人物畫像 社交網(wǎng)絡(luò) 關(guān)系信息 基礎(chǔ)信息 模型構(gòu)建 大數(shù)據(jù) 導(dǎo)出 構(gòu)建 數(shù)據(jù)預(yù)處理 朋友信息 挖掘 替換 畫像 清洗 采集 篩選 優(yōu)化 | ||
1.一種基于社交網(wǎng)絡(luò)大數(shù)據(jù)的人物畫像模型構(gòu)建方法,作用于人物社交網(wǎng)絡(luò)信息,所述人物社交網(wǎng)絡(luò)信息包括人物的基礎(chǔ)信息、推文信息、朋友信息,其特征在于,還包括以下步驟:
-步驟1:數(shù)據(jù)預(yù)處理,用于對(duì)采集的人物社交網(wǎng)絡(luò)信息進(jìn)行清洗、篩選或替換;
-步驟2:人物的隱性屬性的挖掘,基于所述人物社交網(wǎng)絡(luò)信息,對(duì)人物的隱性屬性進(jìn)行挖掘,所述人物的隱性屬性包括職業(yè)領(lǐng)域、興趣愛好、心理狀態(tài)變化、活躍度、社交網(wǎng)絡(luò)影響力;
-步驟3:人物社交關(guān)系網(wǎng)的構(gòu)建,根據(jù)社交網(wǎng)絡(luò)人物的關(guān)系信息,構(gòu)建社交關(guān)系網(wǎng);
-步驟4:導(dǎo)出人物畫像結(jié)果,根據(jù)所述人物社交關(guān)系網(wǎng)優(yōu)化所述人物的隱性屬性的計(jì)算結(jié)果,并將所述人物的基礎(chǔ)信息、隱性屬性和關(guān)系信息導(dǎo)出形成人物畫像。
2.如權(quán)利要求1所述的基于社交網(wǎng)絡(luò)大數(shù)據(jù)的人物畫像模型構(gòu)建方法,其特征在于,所述數(shù)據(jù)預(yù)處理依次包括大小寫轉(zhuǎn)換、分詞、詞性打標(biāo)、停用詞的刪除、俚語(yǔ)的刪除或替換、鏈接的刪除、表情詞的刪除或替換;所述大小寫轉(zhuǎn)換包括:統(tǒng)一將所述社交網(wǎng)絡(luò)信息轉(zhuǎn)換成小寫;所述分詞包括:將轉(zhuǎn)換成小寫的所述社交網(wǎng)絡(luò)信息分隔成多個(gè)單詞;所述詞性打標(biāo)包括:對(duì)每個(gè)所述單詞進(jìn)行詞性標(biāo)注;所述停用詞包括:沒有實(shí)際含義的詞;所述俚語(yǔ)包括:非正式、較口語(yǔ)的語(yǔ)句。
3.如權(quán)利要求2所述的基于社交網(wǎng)絡(luò)大數(shù)據(jù)的人物畫像模型構(gòu)建方法,其特征在于,計(jì)算所述人物的隱性屬性時(shí):當(dāng)所述人物的隱性屬性為職業(yè)領(lǐng)域時(shí),所述數(shù)據(jù)預(yù)處理中直接將所述俚語(yǔ)和表情詞進(jìn)行刪除,當(dāng)所述人物的隱性屬性為心理狀態(tài)時(shí),所述數(shù)據(jù)預(yù)處理中將所述俚語(yǔ)和表情詞進(jìn)行替換成相應(yīng)的單詞或詞組。
4.如權(quán)利要求1所述的基于社交網(wǎng)絡(luò)大數(shù)據(jù)的人物畫像模型構(gòu)建方法,其特征在于,所述職業(yè)領(lǐng)域包括政治、宗教、軍事、經(jīng)濟(jì)、科技、教育、農(nóng)業(yè)、娛樂、體育;所述職業(yè)領(lǐng)域的挖掘包括:根據(jù)已采集的人物社交網(wǎng)絡(luò)信息通過分類方法分析確定所述職業(yè)領(lǐng)域標(biāo)簽,所述分類方法包括集成學(xué)習(xí),所述集成學(xué)習(xí)的基分類器包括多項(xiàng)式葉貝斯分類器,具體包括以下步驟:
步驟301:整體數(shù)據(jù)集的確定:所述整體數(shù)據(jù)集包括所述人物社交網(wǎng)絡(luò)信息和訓(xùn)練集,所述訓(xùn)練集包括:基于BCC、CNN、維基詞條文章,對(duì)所述人物社交網(wǎng)絡(luò)信息的關(guān)鍵詞進(jìn)行搜索獲得的不同類別的文本數(shù)據(jù);
步驟302:抽樣形成數(shù)據(jù)集:利用bootstrap方法從所述訓(xùn)練集中采取有放回抽樣得到N個(gè)數(shù)據(jù)集;
步驟303:分類器的確定和導(dǎo)出:計(jì)算每個(gè)所述數(shù)據(jù)集的TF-IDF特征矩陣,在每個(gè)所述訓(xùn)練集上根據(jù)特征矩陣訓(xùn)練得到一個(gè)分類器;將得到的N個(gè)所述分類器作為結(jié)果分類器導(dǎo)出形成pickle文件;
步驟304:分類器打分并確定職業(yè)領(lǐng)域分類標(biāo)簽:讀入所述人物社交網(wǎng)絡(luò)信息并計(jì)算所述人物社交網(wǎng)絡(luò)信息的TF-IDF特征矩陣;將所述人物社交網(wǎng)絡(luò)信息的TF-IDF特征矩陣導(dǎo)入所述結(jié)果分類器計(jì)算出所述職業(yè)領(lǐng)域包括的各分類的得分;將得分最高的分類作為職業(yè)領(lǐng)域標(biāo)簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州大學(xué),未經(jīng)蘇州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201810628230.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 跨社交網(wǎng)絡(luò)的通信方法、網(wǎng)元及系統(tǒng)
- 一種傳播社交網(wǎng)絡(luò)信息的方法、裝置及通訊終端
- 使用社交網(wǎng)絡(luò)賬號(hào)為游戲網(wǎng)絡(luò)賬號(hào)提供附加功能
- 一種發(fā)送、接收社交網(wǎng)絡(luò)信息的方法、裝置和系統(tǒng)
- 一種顯示社交網(wǎng)友信息的方法及裝置
- 一種網(wǎng)絡(luò)社交方法及網(wǎng)絡(luò)社交裝置
- 一種社交網(wǎng)絡(luò)平臺(tái)介入系統(tǒng)
- 基于人工神經(jīng)網(wǎng)絡(luò)的在線社交網(wǎng)絡(luò)信息傳播與輿情演化正向構(gòu)建方法和系統(tǒng)
- 基于人工神經(jīng)網(wǎng)絡(luò)的在線社交網(wǎng)絡(luò)信息傳播與輿情演化綜合分析方法
- 一種基于傳播屬性相似性的社交網(wǎng)絡(luò)信息可信度評(píng)估方法
- 新型歷史教學(xué)用教具
- 一種人物畫像與職位匹配的方法及系統(tǒng)
- 信息查找的方法、裝置及系統(tǒng)
- 基于社交網(wǎng)絡(luò)大數(shù)據(jù)的人物畫像模型構(gòu)建方法
- 一種虛擬人物畫像構(gòu)建方法及系統(tǒng)、存儲(chǔ)介質(zhì)及終端
- 人物圖像生成方法、交互方法、裝置及終端設(shè)備
- 畫像展示特效的調(diào)整方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于人物畫像的服務(wù)方法
- 基于人物畫像數(shù)據(jù)的廣告投放系統(tǒng)及投放方法
- 一種基于深度學(xué)習(xí)的多數(shù)據(jù)源人物畫像構(gòu)建方法
- 對(duì)社交網(wǎng)絡(luò)對(duì)象進(jìn)行排名
- 一種社交網(wǎng)絡(luò)的管理方法、系統(tǒng)和服務(wù)器
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 使用社交網(wǎng)絡(luò)賬號(hào)為游戲網(wǎng)絡(luò)賬號(hào)提供附加功能
- 一種獲取網(wǎng)絡(luò)主體社交關(guān)系類型的方法及裝置
- 預(yù)測(cè)社交網(wǎng)絡(luò)賬戶是否惡意的設(shè)備、方法及系統(tǒng)
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 動(dòng)態(tài)社交圈確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種面向隱私保護(hù)的網(wǎng)絡(luò)結(jié)構(gòu)去匿名化系統(tǒng)及方法
- 社交網(wǎng)絡(luò)異常用戶檢測(cè)方法、系統(tǒng)、介質(zhì)、設(shè)備、終端
- 記錄工作控制裝置、集成電路、光盤記錄再現(xiàn)裝置及記錄工作控制方法
- 關(guān)系信息擴(kuò)展裝置、關(guān)系信息擴(kuò)展方法以及程序
- 鄰居關(guān)系信息管理
- 鄰居關(guān)系信息管理
- 鄰居關(guān)系信息管理
- 數(shù)據(jù)庫(kù)轉(zhuǎn)換服務(wù)器及其數(shù)據(jù)庫(kù)轉(zhuǎn)換方法
- 一種基于人房關(guān)系數(shù)據(jù)的人員關(guān)系挖掘方法
- 用戶信息處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 資產(chǎn)特征信息處理方法及裝置
- 一種支持增量實(shí)體關(guān)聯(lián)的關(guān)系圖譜計(jì)算方法





