新浪微博的用戶畫像是怎樣構建的?


          Warning: Invalid argument supplied for foreach() in /data/cxweb/www/gupowang.com/public/article/view.html on line 71
          8年前

           

          新浪微博的用戶畫像是怎樣構建的?

          用戶畫像一般是指將用戶信息標簽化的過程,在分析用戶屬性這種靜態維度時,通過平臺自身的合理引導便能獲取到精準的用戶信息,那么關于”用戶興趣“這種可變動態的屬性該怎么去構建用戶畫像呢?這個新浪微博的案例或許能告訴你正確答案。

          1.jpg

           

          1.概述

           

          從上一篇《認識每一個“你”:微博中的用戶模型》里面對用戶模型維度的劃分可以看出,屬性和興趣維度的用戶模型都可以歸入用戶畫像(User Profile)的范疇。而所謂用戶畫像,簡單來說就是對用戶的信息進行標簽化。如圖1所示。一方面,標簽化是對用戶信息進行結構化,方便計算機的識別和處理;另一方面,標簽本身也具有準確性和非二義性,也有利于人工的整理、分析和統計。

           

          2.jpg

           

          用戶屬性指相對靜態和穩定的人口屬性,例如:性別、年齡區間、地域、受教育程度、學校、公司……這些信息的收集和建立主要依靠產品本身的引導、調查、第三方提供等。微博本身就有比較完整的用戶注冊引導、用戶信息完善任務、認證用戶審核、以及大量的合作對象等,在收集和清洗用戶屬性的過程中,需要注意的主要是標簽的規范化以及不同來源信息的交叉驗證。

           

          用戶興趣則是更加動態和易變化的特征,首先興趣受到人群、環境、熱點事件、行業……等方面的影響,一旦這些因素發生變化,用戶的興趣容易產生遷移;其次,用戶的行為(特指在互聯網上的行為)多樣且碎片化,不同行為反映出來的興趣差異較大。接下來主要介紹一下微博畫像中興趣維度的構建方法。

           

          2.微博用戶興趣分析

          (1)標簽來源

           

          用戶自標簽、達人或認證標簽、公司、學校、微群標簽、星座、微博關鍵詞……這些來源都可能成為用戶的標簽。而針對每個特定的用戶收集標簽除了其自身以外,他關注用戶的標簽也會傳遞到該用戶身上。如圖2所示(藍色實線代表關注關系,橙色虛線代表興趣標簽來源)。

          3.jpg

           

                (2)權重計算

           

          在收集到一個用戶可能存在的標簽后,還需要給標簽賦一定的權重,用來區分不同標簽對于該用戶的重要程度。不同標簽的來源用戶質量,標簽的傳遞路徑,轉發關系,標簽的本身,以及標簽與用戶之間的共現關系都會考慮在內。

           

          不同質量的用戶自身產生的標簽權重不一樣,質量越高,認為該標簽的可信度越高,無論是將該標簽賦給自己還是傳遞出去的時候其權重值越高。

           

          標簽的傳遞路徑主要是針對基于關注關系的標簽傳遞,親密度比較高的關注用戶傳遞過來的標簽權重值會比較高。

           

          標簽是來自于用戶的原創還是其轉發的微博,權重值會有區別,一般來說原創的權重會高于轉發權重。

           

          如果標簽本身是一個非常常見的詞,那么它用于刻畫用戶的興趣的區分性是比較差的,相反如果是一個長尾詞,則區分性較強。出于這樣的考慮,越是長尾詞,標簽的權重值會越高。

           

          標簽與用戶的共現關系是指用戶和該標簽是否經常共同出現,評價的是兩者的關聯性。關聯性越高,則標簽的權重值越高。

           

          綜合上述的因素,一個標簽對于特定用戶的權重值可以大致表示為:標簽權重 = (來源因子 + 親密度因子 + 轉發因子 + 長尾因子) × 共現因子。

           

          (3)時效性

           

          隨著時間的變化,用戶的興趣會發生轉移,時間越久遠,標簽的權重應該相應的下降,距離當前時間越近的興趣標簽應該得到適當突出。出于這樣的考慮,一般會在標簽權重值上疊加一個時間衰減函數,這個時間衰減函數被設計成如圖3所示的指數衰減的形式,通過定義衰減幅度和半衰期,調節衰減的程度,體現不同的時效性。

          4.jpg

           

          此外,針對用戶的興趣,還會設定一個較小的時間窗口來獲取用戶的短期興趣。通過用戶在短時間內的原創、轉發和關注行為收集興趣標簽,并計算標簽的權重。短期興趣更新周期會較長期興趣更短,興趣更集中,但是能夠比較及時地反應用戶興趣的變化。

           

          (4)從興趣到能力

           

          然而,用戶具有某方面的興趣,只代表了他愿意接受這方面的信息,并不能代表他具有產生相關內容的能力。因此,在挖掘了用戶興趣標簽的基礎上,還需要發掘哪些用戶能夠針對特定的標簽具有一定的內容生產能力。

           

          微博中的關注關系可以認為是一種認證,具有相同興趣的用戶之間的關注則有可能是興趣相投(當然也可能不是,但畢竟有一定的指導性),那么將具有相同興趣標簽的用戶提出來,通過關注關系構成一個圖,被認證得最多的用戶(被關注邊指向得最多)被認為在這個興趣標簽上具有最強能力。如圖4所示中的帶紅色邊框的用戶。

          5.jpg

           

          3.小結

           

          用戶畫像的目的是將用戶信息標簽化,本文中介紹針對微博本身的特點介紹微博用戶畫像的構建,該用戶畫像主要還是從微博的業務出發,完善用戶信息和發掘用戶興趣,區分興趣和能力,并形式化結構化表達出來。數據的來源也主要是微博平臺本身,并沒有采用更多的邊緣數據。

           

             本文轉自人人都是運營經理

           

          大家都愛搜:互聯網資訊 類類有話說 App推廣 運營經驗 線下推廣 活動推薦 微信營銷 姑婆專題 姑婆圈 ASO校園推廣 地推 ASO100 渠道刷量 校園運營團隊

          姑婆那些事兒(www.3377on.com)是互聯網推廣運營知識分享平臺,關注移動推廣(android,ios)運營,網站推廣運營、校園推廣及互聯網領域最新動態 。歡迎關注我們的微信(gupo520),新浪微博(姑婆那些事兒)。

          收藏

          {{favCount}}

          個人收藏

          投稿請戳這里!投稿
          0

          次分享

          文章評論(0)

          {{ user.nickname }}
          發表評論
          登錄 進行評論
          加載更多 正在加載中... 沒有更多了