[發明專利]基于社交網絡大數據的人物畫像模型構建方法在審
| 申請號: | 201810628230.0 | 申請日: | 2018-06-19 |
| 公開(公告)號: | CN108804701A | 公開(公告)日: | 2018-11-13 |
| 發明(設計)人: | 韓月輝;周逸鳴;趙雷 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/00 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 楊慧林 |
| 地址: | 215131 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 社交網絡信息 人物畫像 社交網絡 關系信息 基礎信息 模型構建 大數據 導出 構建 數據預處理 朋友信息 挖掘 替換 畫像 清洗 采集 篩選 優化 | ||
本發明公開了一種基于社交網絡大數據的人物畫像模型構建方法,作用于人物社交網絡信息,所述人物社交網絡信息包括人物的基礎信息、推文信息、朋友信息,包括以下步驟:步驟1:數據預處理,對采集的人物社交網絡信息進行清洗、篩選或替換;步驟2:人物的隱性屬性的挖掘,基于人物社交網絡信息,對人物的隱性屬性進行挖掘,步驟3:人物社交關系網的構建,根據社交網絡人物的關系信息,構建社交關系網;步驟4:導出人物畫像結果,根據人物社交關系網優化所述人物的隱性屬性的計算結果,并將人物的基礎信息、人物的隱性屬性和人物的關系信息導出形成人物畫像。本發明至少具有以下優點:能夠準確全面地對用戶進行畫像。
技術領域
本發明涉及人物畫像模型構建技術領域,尤其涉及一種基于社交網絡大數據的人物畫像模型構建方法。
背景技術
社交網絡以及以社交網絡為基礎的互聯網應用的迅猛發展帶來數據的爆炸式增長,每個人都可以在互聯網上發布數據,人們越來越依賴網絡進行信息的交流與共享。然而,海量的網絡數據使得人物信息表現為零亂、碎片化,用戶迫切希望能夠方便快捷地獲取人物的全方位信息,而人物畫像的提取是全方位獲取用戶信息的關鍵。目前,人物畫像技術取得了非常廣泛的應用,例如:精準營銷、分析產品的潛在用戶;用戶數據統計;數據挖掘、構建智能推薦系統;進行效果評估、完善產品運營、提升服務質量;對服務或產品進行私人定值,即個性化的服務某類群體甚至每一位用戶;業務經營分析以及競爭分析、影響企業發展戰略。
目前,常用的人物畫像模型構建方法主要包括基于本體/概念的畫像方法、基于主題/話題的畫像方法、基于興趣/偏好的畫像方法以及基于行為習慣的畫像方法等,以上方法大多是針對某特定的屬性對人物進行畫像,例如人物的行為習慣、興趣愛好等,并不能全方位刻畫人物,畫像結果不夠準確全面。另外,現有的算法大多沒有考慮人物在社交關系網中的作用,忽略了社交網絡中該用戶與其它人的相互作用。
發明內容
本發明要解決的技術問題是提供一種基于社交網絡大數據的人物畫像模型構建方法,能夠準確全面地對用戶進行畫像。
為了解決上述技術問題,本發明提供了一種社交網絡大數據的人物畫像模型構建方法,作用于人物社交網絡信息,所述人物社交網絡信息包括人物的基礎信息、推文信息、朋友信息,還包括以下步驟:步驟1:數據預處理,用于對采集的人物社交網絡信息進行清洗、篩選或替換;步驟2:人物的隱性屬性的挖掘,基于所述人物社交網絡信息,對人物的隱性屬性進行挖掘,所述人物的隱性屬性包括職業領域、興趣愛好、心理狀態變化、活躍度、社交網絡影響力;步驟3:人物社交關系網的構建,根據社交網絡人物的關系信息,構建社交關系網;步驟4:導出人物畫像結果,根據所述人物社交關系網優化所述人物的隱性屬性的計算結果,并將所述人物的基礎信息、人物的隱性屬性和人物的關系信息導出形成人物畫像。
進一步地,所述數據預處理依次包括大小寫轉換、分詞、詞性打標、停用詞的刪除、俚語的刪除或替換、鏈接的刪除、表情詞的刪除或替換;所述大小寫轉換包括:統一將所述社交網絡信息轉換成小寫;所述分詞包括:將轉換成小寫的所述社交網絡信息分隔成多個單詞;所述詞性打標包括:對每個所述單詞進行詞性標注;所述停用詞包括:沒有實際含義的詞;所述俚語包括:非正式、較口語的語句。
進一步地,計算所述人物的隱性屬性時:當所述人物的隱性屬性為職業領域時,所述數據預處理中直接將所述俚語和表情詞進行刪除,當所述人物的隱性屬性為心理狀態時,所述數據預處理中將所述俚語和表情詞進行替換成相應的單詞或詞組。
進一步地,所述職業領域包括政治、宗教、軍事、經濟、科技、教育、農業、娛樂、體育;所述職業領域的挖掘包括:根據已采集的人物社交網絡信息通過分類方法分析確定所述職業領域標簽,所述分類方法包括集成學習,所述集成學習的基分類器包括多項式葉貝斯分類器,具體包括以下步驟:
步驟301:整體數據集的確定:所述整體數據集包括所述人物社交網絡信息和訓練集,所述訓練集包括:基于BCC、CNN、維基詞條文章,對所述人物社交網絡信息的關鍵詞進行搜索獲得的不同類別的文本數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201810628230.0/2.html,轉載請聲明來源鉆瓜專利網。





