[發明專利]一種基于社交媒體文本的大五人格預測方法在審
| 申請號: | 201810067066.0 | 申請日: | 2018-01-24 |
| 公開(公告)號: | CN108399575A | 公開(公告)日: | 2018-08-14 |
| 發明(設計)人: | 林鴻飛;徐博;彭朝亮 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06Q50/00 | 分類號: | G06Q50/00;G06N3/04 |
| 代理公司: | 大連星海專利事務所有限公司 21208 | 代理人: | 徐雪蓮 |
| 地址: | 116023 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 媒體文本 預測 預處理 文本信息挖掘 個性化搜索 基于機器 技術基礎 媒體發布 用戶特征 預測模型 偏好 抽取 畫像 學習 | ||
1.一種基于社交媒體文本的大五人格預測方法,其特征在于,包括以下步驟:
A、預處理:采集社交媒體用戶發布的微博文本內容、微博發布時間、微博總條數、原創微博個數并保存為社交媒體用戶數據集;所述社交媒體用戶數據集中分別將每個社交媒體用戶所發布的微博文本內容、微博發布時間、微博總條數、原創微博個數作為一組數據保存,以使每組數據對應一個社交媒體用戶;在社交媒體用戶數據集中隨機抽取80%組數據作為訓練數據集,并將訓練數據集中所對應的社交媒體用戶作為訓練用戶;余下組數據作為待預測數據集,并將待預測數據集中對應的社交媒體用戶作為測試用戶;對訓練用戶分發大五人格心理量表,采集并將訓練用戶給出的大五人格得分值保存為大五人格得分值向量以作為訓練目標值;提取社交媒體用戶數據集中的微博文本內容,對微博文本內容做分詞處理并去除停用詞,得到對應于每個社交媒體用戶的微博語料集;
B、用戶特征抽取:
B1、計算每個社交媒體用戶的原創微博占該用戶所發微博總條數的比例微博發布頻率和微博TF-IDF向量,每個社交媒體用戶uj的微博TF-IDF向量由社交媒體用戶uj所對應的微博語料集中各個詞語的TF-IDF值TFIDFi組成:
計算方法如下:
其中,為社交媒體用戶uj的原創微博占用戶uj所發微博總條數的比例,1≤j≤N,N為社交媒體用戶的總數量;為社交媒體用戶uj的原創微博個數,為社交媒體用戶uj所發微博總條數;為社交媒體用戶uj的微博發布頻率,為社交媒體用戶uj的最后一條微博發布時間與第一條微博發布時間之間的時間間隔;
其中,表示社交媒體用戶uj所發布的微博總條數,num(i)表示包含微博語料集中第i個詞的微博個數,tfk(i)表示社交媒體用戶uj所對應的微博語料集中的第i個詞在第k條微博中出現的次數,length(k)表示社交媒體用戶uj所對應的微博語料集中的詞語在第k條微博出現的總數;
B2、提取步驟B1中得到的每個社交媒體用戶uj的微博總條數、原創微博個數、和每個社交媒體用戶uj的微博TF-IDF向量,組成社交媒體用戶的特征向量;并將所述訓練用戶的特征向量組成訓練用戶特征矩陣;將所述測試用戶的特征向量組成待預測用戶的特征矩陣;
C、大五人格預測模型建立及訓練:采用基于自編碼器預訓練的回歸方法,該回歸方法采用自編碼器擴充社交媒體用戶特征向量,進而基于線性回歸模型,訓練得到擴充后的社交媒體用戶特征向量中各特征的權重值,所述特征包括每個社交媒體用戶uj的微博總條數、原創微博個數、和每個社交媒體用戶uj的微博TF-IDF向量:
包括以下步驟:
C1、建立自編碼器:
y=f(W1x+b1)
x′=g(W2y+b2)
其中,x為輸入層向量,y為隱藏層向量,x’為輸出層向量,W1和W2分別為輸入層到隱藏層和隱藏層到輸出層的權重矩陣,b1和b2分別為輸入層到隱藏層和隱藏層到輸出層的權重偏置向量;
C2、獲取擴展訓練用戶特征向量:將步驟B2得到訓練用戶特征矩陣中每個訓練用戶的特征向量作為自編碼器的輸入層向量x輸入自編碼器中,初始化權重矩陣W1、W2,并使初始化后的W1、W2中各元素值相同,得到的隱藏層向量作為擴展訓練用戶特征向量;
C3、構建特征權重向量的訓練回歸模型及模型訓練:特征權重向量θ采用通用回歸模型訓練得到:構建特征權重向量θ的訓練目標函數為:
其中,yu是訓練用戶u的大五人格得分值,xu為訓練用戶u的特征向量;
將全部訓練用戶的特征向量輸入特征權重向量θ的訓練目標函數中,訓練得到特征權重向量θ;
C4、獲得損失值:構建自編碼器訓練的損失函數為:
其中,xk表示自編碼器輸入的第k個社交媒體用戶的特征向量,xk′表示自編碼器輸出的第k個用戶特征向量;n表示訓練集合中樣本的個數;θ為特征權重向量;
C5、構建大五人格預測模型及模型訓練:
目標函數如下:
其中,yu是訓練用戶u的大五人格得分值,xu是社交媒體用戶u的特征向量,xe,u是社交媒體用戶u的擴展訓練用戶特征向量,β1和β2是模型參數,λ是懲罰項系數,懲罰項是模型參數的二階范數;
根據損失函數所獲得的損失值,采用梯度下降策略更新目標函數循環迭代上述過程,直到達到指定迭代次數訓練完成,得到確定的特征權重向量β1和β2獲得最優的模型參數β1和β2;得到大五人格預測模型;
D、預測用戶大五人格:對于待預測數據集中對應的社交媒體用戶,基于步驟C得到的大五人格預測模型,通過如下公式對特征向量線性加權預測用戶的大五人格:
其中,為待預測數據集中社交媒體用戶的特征矩陣,是經自編碼器擴展得到的擴展測試用戶特征矩陣,β1和β2是經步驟C的訓練模型參數訓練得到的最優的模型參數;是社交媒體用戶的大五人格得分預測值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.17sss.com.cn/pat/books/201810067066.0/1.html,轉載請聲明來源鉆瓜專利網。





