久久天天躁狠狠躁夜夜躁2020,无遮掩60分钟从头啪到尾,www亚洲成人

深度|從零搭建推薦體系：如何搭建標簽體系？

Warning: Invalid argument supplied for foreach() in /data/cxweb/www/gupowang.com/public/article/view.html on line 71

7年前

4932 0 0

t010281a5c6c8fb0890_副本.jpg

來源|PMCAFF ID:pmcaff

概述

隨著信息技術的迅速發展和信息內容的日益增長，“信息過載”問題愈來愈嚴重，愈發帶來很大的信息負擔。推薦系統可以有效緩解此難題，從而得到推崇并加以廣泛應用。

簡單來說：推薦系統是通過挖掘用戶與項目之間的二元關系，幫助用戶從大量數據中發現其可能感興趣的項目如網頁、服務、商品、人等，并生成個性化推薦以滿足個性化需求。目前市場上對于電子商務的推薦系統有亞馬遜、阿里巴巴、豆瓣網、當當網等，信息檢索的有谷歌、雅虎、百度等，以及在其它周邊領域廣泛運用如移動應用、電子旅游、互聯網廣告等。本文只闡述網頁內容，特制新聞方面的項目體系搭建。

研究者認為根據施拉姆信息選擇公式，人們對媒體的注意或選擇的可能性（然率）與它能夠提供的報償（價值）程度成正比，與人們獲得它的代價（費力）程度成反比。也就是說：人們愿意用最小的代價獲取價值最大的新聞信息。由此，媒體要從認知接收方面，減輕受眾的“費力”程度，提升信息或傳媒的價值，樹立品牌意識，形成規模效應；擁有與眾不同的品味和特色，將自己在受眾眼中的“可讀”形象轉變成“必讀”形象，從而使用戶對媒介產品形成強烈的信賴感和依賴感，在受眾心中形成穩定的獨特風格。

下圖是一般情況下的推薦系統基本框架（圖片取自網絡）：

從最初的數據收集，到最末端的展示階段，中間還經過數據處理以及生成環節，處理大多數所指提取特征初處理，生成一般是指利用特征來選取相應算法進行匹配計算。數據的整個生命周期如下：

也就是從數據獲取，一直到最后的加工輸出，經歷的整個環節，最終給我們提供相應的有效信息，采取相應的有效手段，才是數據價值的最終體現。

在正式開始前，對于數據收集的要求也是很高，如果數據不準確或有偏差，很可能之后做的都是徒勞無功，下表為目前常見的數據收集時常見的問題：

對于新聞內容的推薦系統，讓人們最順暢獲取到人們想看到的內容，從而形成核心競爭力。推薦系統的常規推薦系統，一共分為兩條線，第一條線是用戶，第二條線是項目，計算兩者間的相關近似值，從而完成推薦。計算近似值一定有所媒介，這個媒介就是標簽（Tag）系統，所以在建設整個體系之前，最優先需要建設的就是標簽系統，其次是用戶體系，也就是用戶模型，我們在感知用戶唯一的途徑就是通過用戶操作，換言之既用戶行為，所以相對用戶行為微妙的變化，要求我們的用戶體系是十分敏感的，而最后是項目體系，這里特指新聞內容。

下面將從產品層面盡量描述如何搭建推薦體系相關流程及細節，整體搭建思路流程如下：

整體相對比較復雜，下面將逐一闡述其中細節。

1. 標簽體系

1.1 搭建流程

要做標簽體系，我們要先確定的就是系統結構，常規來看一般都是講標簽隨內容或用戶建設（但是我覺得那樣是不完整的，在之后獲取不到更加有效有幫助的信息，這也就是為什么我認為一定要將標簽體系一定要單獨拎出來的原因）。

在確定系統結構之后，我們要進行相關的算法選擇，并且大致選定學習的范圍和地點，以供機器學習，至此整個標簽體系的搭建流程就此完畢。隨著不斷的內容填充進來，要有相應的標簽不斷補充進來。這是一個長期的過程，并且也需要及時依據用戶反饋修正算法，實時調整，并非一日之功。

1.2 二維化結構

常規網絡的標簽是隨用戶和內容添加的，但是會有局限性，也就是標簽體系較難或無法透徹追查其它相關聯內容。實際上標簽體系的核心價值，體現在相應建立起信息和人、人與人之間的關聯。所以我在思考：如何能夠進行最深入的追查最深處的關聯？有一個常規方案就是單獨建立標簽體系，將標簽平鋪于系統中，也就是二維化。通過機器學習，建立標簽的基本聯系網絡，之后貼合于用戶與內容中即可。無立體結構的上下層級展示，好處是可以避免了一維化的后果。換句話說如果有層級，那么不可避免的就會變成一級、二級。

簡單來說：與某標簽周遭相關聯的一切標簽均展示；那周遭的標簽還會又有標簽，再展示；也就變成無窮盡的立體結構化的標簽網絡，也就是價值基礎。最終價值的輸出還要結合其它的相關行為、操作、用戶物理屬性、內容載體以及效果評定等因素綜合考量。

1.3 機器學習

常規機器訓練流程是：先確定方法→訓練集→特征選取→訓練→分類器；分類：新樣本→特征選取→分類→判決。

所以最開始我們就要確定機器學習的方法。方法有許多種，需要具體根據情況來具體確定。下面僅以產品角度羅列常見經典的機器學習方法、特點、利弊等。以供數據工程師進行選擇、對比，輔助做出最優選擇，以供參考。

方法當中，首先分為兩個大類別：監督學習和非監督學習。監督學習又稱為分類或者歸納學習。幾乎適用于所有領域，包括內容處理。常見算法有決策樹、貝葉斯模型、KNN、SVM等。

與這一方式相對的是非監督學習，在這種方式中，所有的類屬性都是未知的，從零開始摸索，算法需要根據數據集的特征自動產生類屬性。其中算法中用于進行學習的數據集叫做訓練數據集：當使用學習算法用訓練數據集學習得到一個模型以后，我們使用測試數據集來評測這個模型的精準度。常見的有聚類、特征矩陣。下表為常規推薦算法的分類，一共是三類：分類算法、關聯規則和聚類，依據不同場景選擇不同算法進行調整即可。表格后面列出最常用算法的利弊以及用人話描述的算法原理，以供產品同事參考。

樸素貝葉斯：

對于給出的待分類項，求解在此項出現的條件下各個類別出現的概率；哪個最大，就認為此待分類項屬于哪個類別。非常好理解，單純的概率問題。

優點：算法十分穩定，并且對數據參數無要求；運用較為簡單。

缺點：在屬性個數比較多或者屬性之間相關性較大時效率不理想，并且重前期數據格式，需要知道先驗概率，存在一定錯誤率。但是結合聚類算法，可以一定程度解決屬性個數問題。

使用場景：常見于垃圾郵件分類場景。

決策樹：

哈利波特中的分院帽應用的是個非常典型的決策樹模型：帽子往學生頭上一扣，讀取學生的顯著特征，然后分到某個類別里。所以你看，哈利波特一開始表現出來的特征都是格蘭芬多的特征，分院帽讀取數據時候發現這個人有兩類顯著特征，于是猶豫不決，最后還是波特自己提出了要求，這就證明應用模型時的人工干預必不可少。

優點：決策樹較為通俗易懂，并且對數據格式不敏感，較為聰明；易于通過靜態測試測量模型可信度，善于短時間處理大量數據源，對屬性數量兼容性好，有很好的擴展性。

缺點：對樣本數量不一致的數據，結果有偏向，處理缺失數據時候會有困難，并且有過度擬合現象，容易忽略數據集中屬性之間的相關性。

使用場景：可結合隨機森林算法，減少相應過度擬合現象。常見于用戶行為分析場景。

KNN：

說白了就是我們要尋找鄰居，但是為什么要尋找鄰居？如何選取鄰居，選取多少鄰居？怎么樣去尋找我們想要的鄰居，以及如何利用鄰居來解決分類問題這是KNN算法需要解決的幾大問題。

為什么我們要尋找鄰居？古話說的好：人以類聚，物以群分。要想知道一個人怎

么樣，去看看他的朋友就知道了。我們如果要判斷一個樣本點的類別，去看看和它相似的樣本點的類別就行了。

優點：該算法簡單有效，重新訓練代價較低，對于類域有較差或重疊較多的樣本較為適合。同樣適用于樣本量較大的情況。

缺點：樣本量較小時反而有誤差。而且該算法是懶散學習方法，不主動，類別評分不規格且輸出可解釋性不高。當樣本量不平衡時，有可能導致當輸入一個新樣本時，該樣本的K個鄰居中大容量類的樣本占多數，并且計算量較大。可以采用權值的方法，和該樣本距離小的鄰居權值大，來改進問題，對于計算量較大，可以事先對已知樣本點進行剪輯，去除對分類作用不大的樣本來優化。

使用場景：常見于預測價格場景。

SVM：

說到這個算法之前，先得配一張圖：

這圖啥意思呢？不用管。但是這兩種分法哪種更好呢？從直觀上來說，顯然右側好。也就是分割的間隙越大越好，把兩個類別的點分得越開越好。就像我們平時判斷一個人是男還是女，就是很難出現分錯的情況，這就是男、女兩個類別之間的間隙非常的大導致的，讓我們可以更準確的進行分類。從實踐的角度來說，這樣的效果非常好，錯誤率低。

優點：該算法適用于樣本量較小的情況，可提高泛化性能，可解決高維度問題。并且對線性和非線性問題均可解決，可避免神經網絡結構選擇和局部極小點問題。

缺點：對缺失數據較敏感，對非線性問題沒有通用解決方案，需要選擇核函數來處理，算法使用并且極其復雜。

使用場景：常見于社交網站用戶分類場景。

Ad boosting：

這個算法說實話我也解釋不清，沒真正運用過，憑自己查資料的理解試著說一下。這個算法核心的思想是整合多個弱分類器，成為一個強大的分類器。這時候，集合分類器出現了。用人話說就是三個臭皮匠賽過諸葛亮，好理解了吧？識別一組條件特征概念判斷的正確率比隨機猜測略好，但是還不夠，這就是弱分類器；多個弱分類器的效果疊加起來，就變成一個強分類器，識別率就會很高了。

優點：該算法精度較高，可用任意方法構建子分類器；使用簡單分類器時結果容易理解，且弱分類器構造極其簡單，而且不用做特征篩選，不用擔心過度擬合情況。

缺點：對離群值比較敏感。

使用場景：常見于人臉檢測、目標識別場景。

K-means：

給你一萬個人，分成四群，需要能夠解釋每一群人的突出特征，如果有兩群人的特征很相似，那就要重新分群了；或者有一群人的特征不明顯，那就要增加分群了。好處在于樣本量大的時候，可以快速分群，但需要在分群后注意每個群體的可解釋性。

優點：這個算法屬于經典算法，簡單快速，對處理大數據集可伸縮，高效。并且在簇密集度高、球狀或團狀時，且有明顯于其他簇區別時，聚類效果好。

缺點：但是只有簇平均值被定義情況下才能使用，且對分類屬性數據不適用，并且要求用戶必須事先給出要生成的簇的數目。對初始值敏感，不適合發現非凸面形狀的簇，或者大小差別很大的簇。對噪聲和孤立數據敏感，少量該類數據能直接影響平均值。

使用場景：常見于CRM篩選目標客戶場景。

神經網絡：

這個算法不想解釋啥，就想放張圖，覺得不放可惜了。

以上摘要從產品角度來說只要大概心里有數即可，一般情況下從產品數據、應用場景等決定。

一般來看，冷啟動期間應選擇非監督學習，如聚類；等數據豐富之后，轉換為監督學習，擇優選擇算法方可；但仍需具體問題具體分析。更多的還是配合技術、算法人員來選擇和實現，詳細算法和原理、公式等可以到后面附錄1進行查看，給予參考。

1.4 學習地點

這里我建議從百科類產品進行機器學習，國內最大的百科就是百度百科了，在國際上自然還有維基百科。

查了一些相關方法，發現從百度百科利用機器學習標簽，已經有相應的案例并且成本相對不是很大，具體的方法也放在后文中的附錄2中。

文中探究的是微博標簽相關的項目，與本文無關，但整體思路可借鑒。大致流程為先抓取頁面下相關標簽內容，要注意特殊情況，會有歧義頁面；將標簽抓取存儲之后通過算法計算之間的關聯性、權重分數，而后輸出驗證。整體的過程非常簡單快捷，能在前期非常快速的補充相關數據，但是要注意數據量的問題，很可能導致無窮，所以收集哪些主要領域，收集多少，是需要我們最開始定義好的，及時踩剎車。

1.5 輸出展示

這里的展示更多指的還是相應的后臺頁面，要滿足幾個條件：其中最基本的一定要滿足可視化的要求，點擊標簽以后相應的關聯標簽可形成關聯展示；可以選擇展示兩級或者三級，清晰直觀的看到關聯情況。更進一步的是點擊后，每個標簽里面的詳細情況也會展示出來。比如說標簽的歷史類型情況、載體情況、分別的打開情況、受眾用戶群體，所以這也是需要依托于用戶體系的相關標簽結合之后的產出物。

結合基本數據維度比如昨日新增多少標簽、文章類型走向是什么樣的受眾是什么樣的走向，都是屬于基礎數據范疇，達到實時監控，定位報警的作用。

1.6 小結總結

本節總體來說闡述了搭建標簽體系的整體流程和相關經典算法的展示與利弊分析，并且提供了標簽學習機制的思路。下面，將進行用戶模型的體系搭建，詳見明日發布的中篇。

附錄1 常見機器學習方法算法

附錄2 提取百度百科標簽建立關聯性思路

百度百科介紹

構成百度百科的基礎內容是詞條。一個詞條頁面大致可以分為百科名片、詞條正文、開放分類、相關詞條、參考資料和擴展閱讀這個幾個部分，根據每個詞條的具體情況，某些部分可以沒有。

其中，百科名片是詞條的概括性描述；詞條正文是可以由多個段落組成的對詞條的詳細描述；開放分類提供詞條的屬性標簽，最多有5個，通常這種標簽具有一定的類別信息；相關詞條是與當前詞條聯系比較緊密的相關條目，而一般這種聯系必須是橫向的，例如“喬峰”的相關詞條可以是“段譽”、“阿朱”、“虛竹”等，但不可以是“天龍八部”。

盡管在百科的詞條頁面上，我們只能看到該詞條的開放分類標簽；但實際上在百科內部，有一個具有層次的三層分類體系。第一層具有十二個大類；每個大類下面又包含若干個中類，這就是第二層分類；每個中類下面又可細分為若干個小類。

生成方法

我們將百度百科三層分類體系第三層的小類別作為查詢，在百度百科中將搜索得到該類別下的詞條頁面。但是通過這種方式，對于每一個小類別，我們最多只能獲取760個相關的詞條頁面，而更多的實際上可以被劃分為該類別的詞條頁面，我們獲取不到。

我們搜索“技術_互聯網_電子商務”類別下的頁面，結果顯示共有詞條3469個，但是，我們遍歷搜索結果頁面，最多只能查看到760個詞條頁面。在該方法中，我們需要使用百度百科的三層分類體系例如“技術_互聯網_編程”、“生活_娛樂_影視”作為用戶的標簽候選集合。因此，我們可利用的資源便是能夠獲取到的每個小類別下的最多760個詞條頁面。

我們通過分析用戶發布的微博，將其最感興趣的百科三層類別作為他的標簽。方法的主要思想是：將用戶發布的每一條微博映射到最相關的百科詞條頁面，獲取其類別，通過一定的投票策略決策出用戶的標簽。

下面，具體介紹一下方法中涉及的關鍵步驟。

百科頁面獲取與處理

我們按照百度百科提供的開放分類瀏覽頁面，爬取到所有第三層小類別的查詢URL，形如http://baike.baidu.com/taglist?tag=****，該URL指向的就是該類別標簽的搜索頁面。我們通過解析該搜索頁面，下載得到百科開放的760 個相關的詞條頁面。獲取頁面后，并且按照第三層小類別分類存儲后，我們進行正文的提取。詞條頁面一共有兩種，一種是歧義頁面，即一個詞條包含多種義項，下圖所示：

一種是非歧義頁面。我們需要分別對其做處理：對于歧義頁面，將每一個義項單獨作為一個頁面提取出來。我們提取百科頁面的標題、百科名片、正文、類別，進行分詞等處理后，建立索引，待后續使用。

搜索與微博相關的詞條頁面

給定一條微博，我們需要找到與其相似或者說相關的百科頁面，以獲取其類別。我們將這個問題轉換成為搜索問題。從微博中提煉出查詢，從索引過的百科頁面中搜索出最相關的。我們使用Indri 對詞條頁面建立索引。Indri 源自Lemur系統，是CMU和UMass 聯合推出的一個用于語言模型和信息檢索研究的系統。在這之上可以實現基于語言模型和傳統的向量空間模型等的檢索。Indri早已經受到了學術界的廣泛歡迎。

我們將分別抽取微博中的名詞、名詞及形容詞的組合構成帶有權重的查詢，其權重采用TFIDF 計算得到，構造的查詢形如“#weight(0.45巨蟹座0.35性格0.20特點)”。用構建的查詢，我們搜尋到與該查詢最相關的詞條頁面，并獲取其對應的類別。

用戶標簽生成

假定有m種具有三層分類的類別標簽，我們將其作為用戶的候選標簽集合，表示為C={}。

給定某個用戶u，抽取其發布的微博文本集合W={}，文本數目為n。我們分別對其構造查詢，得到查詢集合Q={}。對每一個查詢q，我們獲取Top N個結果，作為該查詢相關的詞條頁面。因為每個詞條可能屬于若干個類別，因此我們得到的與該查詢（或者說其對應的微博）關聯的類別可能不止N個。對關聯的類別中的每一個類別c，我們計算其分數，如公式。其中， freq(c)指c在該次查詢中出現的頻數，而d是我們設置的一個常數，例如，我們將其設置為1，則c的分數就是在該次查詢中出現的次數；若將d設置為該類別關聯的詞條頁面出現在Top N結果中的具體位置，則說明c的分數受到搜索結果排序的影響，排序越靠前的，對分數的貢獻越大。

整個查詢過程停止后，我們將對候選標簽集合中的每一個標簽c計算一個排序分數，可以利用這個算法，其中n 就是指查詢的次數。我們取排序前10 的作為為用戶自動生成的標簽。

2. 用戶體系

2.1 搭建流程

首先應該先確定用戶動機，因為從用戶的根本動機，我們才好做相應的推薦處理。

那么我們應該如何獲取用戶動機？只有一種方法，就是通過用戶行為。所以我們應該優先建立用戶行為體系，依據用戶行為，分析用戶動機；不管是主動動機還是被動動機，之后提取這些動機特征，結合用戶物理屬性，再進行后處理。再有要將特征值加以過濾，分配權重，結合衰減因子進行最終輸出。最終輸出的結果應該分為基本屬性、用戶興趣、用戶關系及用戶行為，結合所有綜合分析用戶動機，在適時的時候推薦合適的內容從而形成推薦最佳化的最終目的，讓用戶最小成本的獲取信息。

所以在分析的時候，依據用戶動機分析，推斷我們應該注意的哪些環節點的哪些事情。

2.2 動機經典理論

在建立行為體系之前，一定要介紹動機和行為的關系。而又不得不介紹行為科學界一直以來的一個經典理論：“使用與滿足”理論，該理論是1974年E·卡茨在其著作《個人對大眾傳播的使用》中被首先提出。

使用與滿足理論是站在受眾的立場上，通過分析受眾對媒介的使用動機和獲得需求滿足來考察大眾傳播給人類帶來的心理和行為上的效用。但同傳統的訊息如何作用受眾的思路不同：它強調受眾的作用，突出受眾的地位。該理論認為受眾通過對媒介的積極使用，從而制約著媒介傳播的過程，并指出使用媒介完全基于個人的需求和愿望。

E·卡茨將媒介接觸行為概括為一個“社會因素+心理因素→媒介期待→媒介接觸→需求滿足”的因果連鎖過程，提出了“使用與滿足”過程的基本模式。經后人的補充和發展，綜合提出“使用與滿足”的過程：

人們接觸使用傳媒的目的都是為了滿足自己的需要這種需求和社會因素、個人的心理因素有關。

人們接觸和使用傳媒的兩個條件：接觸媒介的可能性；媒介印象即受眾對媒介滿足需求的評價，這種媒介印象或成為評價是在過去媒介接觸使用經驗基礎上形成的。

受眾選擇特定的媒介和內容并開始使用。

接觸使用后的結果有兩種：一種是滿足需求，一種是未滿足。

無論滿足與否，都將影響到以后的媒介選擇使用行為，人們根據滿足結果來修正既有的媒介印象，不同程度上改變著對媒介的期待。

總結了使用與滿足理論的要素，包括：

受眾是主動的，對于大眾媒介的使用是有目標的。

受眾需要的滿足和對媒介的選擇間的聯系中，受眾擁有主動權。

媒介相互競爭以滿足受眾需要。

所以最終映射到網絡，不難分析出用戶使用網絡一般是是為了：

（1）人際交往；

（2）打發時間；

（3）搜尋信息；

（4）方便快速；

（5）信息分享；

（6）自我表達；

（7）娛樂放松。

社會心理學的理性行為理論和建立在該理論基礎上的技術接受模型（Technology Acceptance Model，簡稱TAM）最早探究了哪些因素對人們有意識的行為產生影響。1989年，Davis在理性行為理論的基礎上，針對技術接受和使用行為提出了技術接受模型：

TAM認為系統使用行為是由行為意向決定的，而行為意向由想用的態度和感知的有用性共同決定，想用的態度由感知的有用性和感知易用性共同決定，感知的有用性是由感知的易用性和外部變量共同決定，感知的易用性由外部變量決定的。

外部變量包括系統設計特征、用戶特征(包括感知形式和其他個性特征)等，為技術接受模型中存在的內部信念、態度、意向和不同的個人之間的差異、環境約束、可控制的干擾因素之間建立起一種聯系。

2.3 今日頭條動機分析

理論介紹完畢，也應該從理論切入分析當前最厲害的內容推薦平臺，也就是不得不提的今日頭條了。那么從有限的研究論述當中，可以從已經成功的產品中獲取到用戶使用頭條產品的相關動機大致是什么，以指導我們日后的產品方向。

頭條相關的研究論文里的方法，也注明與附錄3中，以供查看，下面將直接節選結論部分，以供參考。

今日頭條流行的主要原因是抓住了受眾對個性化需求的心理。對用戶需求的研究結果表明，“個性化推薦”（60.79%）、“更新速度快”（60%）、“推送內容多（45.26%）是用戶最為強烈的三種動機。

個性化主要體現在三個方面：

1. 頻道定制：用戶可以訂閱自己感興趣的頻道（“今日頭條”提供了社會、娛樂、政治、熱點等48個頻道），同時提供位置信息享受本地化新聞服務（還包含同城活動信息），而且“今日頭條”也和微信一樣開辟了自媒體平臺，用戶可關注自己感興趣自媒體賬號。

2. 個性化推薦：“今日頭條”若在新聞標題最左方標注一個藍色的“薦”字，則表示為是根據用戶興趣專門推薦的內容。“今日頭條”的信息分發完全基于智能推薦，用戶瀏覽、收藏、轉發、評論每一條新聞的行為都會被記錄，用戶的閱讀習慣、閱讀時間、閱讀位置也會被分析，兩者結合形成“用戶模型”。通過綁定社交媒體賬號和大數據挖掘，后續還會根據用戶使用產品的信息反饋（用戶在“今日頭條”上的“頂”、“踩”、“轉發”、“收藏”等行為），不斷進行算法的演進，用戶分析越精準，推薦內容越來越精確。

3.個性化體驗：服務性功能如“離線閱讀”“同步收藏”“我的話題”“摘要模式”“閱讀模式”“字體設置”都可以根據自己需求定制，體現了良好的用戶體驗。

更新方法主要分為以下三種：

1. 自動更新：手動更新以及推送更新。自動更新一般幾分鐘到幾十分鐘不等；

2. 手動更新的設置是為了滿足用戶實時對信息的需求，每一次刷新都會有8-12 條不等的信息；

3. 推送更新是將信息發送到用戶手機通知上，一天大約 6-10條不等，主要為社會要聞。

并且頭條為了滿足碎片化閱讀的需求，在新聞類型方面，新聞主要以消息和圖片為主，鮮少特寫、通訊和深度報道等傳統意義上報紙的新聞體材，字數控制在1000字左右。

根據《今日頭條年度數據報告》，衡量讀者閱讀習慣的有兩個指標：第一個是平均停留時長，第二個是跳出率。1000字的文章跳出率是22.1%，平均停留時長是48.3秒。4000字的文章則剛好相反，跳出率高達65.8%，超過一半以上的人打開一篇文章發現太長后會選擇跳出。可見1000字以內的文章的傳播率會更高。

同時，頭條還加入視頻新聞；但并未像搜狐或是新浪客戶端那樣做成一個單獨的功能，而是將其嵌入頻道中。視頻內容長度在1分鐘以內，以減少流量的消耗，主要以輕松、搞笑的內容為主。

所以結合研究結論不難看出，頭條用戶的最大使用動機仍是精準的個性化推薦，也就是仍需要以精準的推薦為吸引用戶打開的核心來源。

2.4 分析模型

由上圖可知，我們應該依據已經成熟的用戶行為，推斷用戶的動機因子，再推斷至心里因素。實際來說是用戶其實已經是帶動機才打開APP，先依據有限的數據進行分析推薦，等有相關的行為之后，反推回去用戶的動機，根據用戶動機調整推薦內容，達到核心目的。

這么做的好處是什么呢？頭條類產品全都是依托于用戶行為，進行調整，但是用戶行為實際是不準確的。心情好與不好看的內容，操作的流程細節，很可能都不一樣；如果一味的只記錄行為，只會不準確偏離。所以當我們記錄了用戶在任何情況之下的行為之后，反推回用戶動機，進一步推回用戶心里因素，依據心里結合喜好和行為，完成完美推薦。

前文理論中同樣表明，是社會因素與心里因素決定動機，所以當行為習慣模型建立，社會因素已經量化的時候，只有心理因素是變量，那么我們也能分析出不同的心理因素，依據不同心理因素改變本次的推薦內容，我想應該會大大提升轉化率，并且可能是目前頭條產品所不具備的一個點。

結合常規的用戶畫像的相關屬性，我們可以看到如下圖（增加了購買）：

所以兩者，也就可以合并成為兩條大的脈絡，一條是實際，一條是內心，而我們是要依據實際行為猜測內心。兩張圖結合，將會無比清晰的闡述用戶脈絡和之間的關系：

用戶的瀏覽行為反映了用戶的興趣，兩者之間的關系具有如下特點：

不同年齡、性別、職業的用戶偏好反映在用戶對商品的瀏覽行為上；

用戶偏好具有動態轉移性，將其反映在用戶興趣度上，即若用戶偏好發生轉移，則原來的興趣度值減少；

用戶對感興趣的商品會高頻度地點擊和瀏覽，假設用戶對某種/某類商品的瀏覽時間越長、頻率越高，顧客對該種/類商品越感興趣，反映用戶偏好的興趣度值也會隨之增加。

所以最終，我們會確定需要收集的量化數字，以代表行為的部分，反推分析，達到最終目標。

2.5 行為收集

一般情況下，動機拆分為媒介、社交和體驗需求，分別代表的可能原因有：

媒介需求一般有：更新速度快、推送內容多；

社交需求一般有：社交性強、互動性強；

體驗需求一般有：個性化推薦精準、智能搜索快速全面、操作方便、離線下載。

依據兩種形式，主動行為和被動行為進行分類，主動行為就是用戶主動自然操作，被動行為也就是APP人為增加攔截、問題、問卷等收集，所以整理一下我們通過不同動作需要收集的相關動作應該是，主動行為：

媒介：PUSH消息、打開時間；

社交：PUSH通知、分享、攢、回復、收藏、舉報、等級；

體驗：打開內容類型、內容載體、內容長度、歷史搜索行為、歷史打開偏好、間隔點擊時間、滑動內容位置、閱讀設置、下載緩存；

人口屬性：年齡、性別、地區、收入、簽名等；

周邊場景：地理位置、網絡環境、端、信號強度、耳機揚聲器、高度等；

被動行為：增加攔截、詢問興趣區域、反饋、小問題、問卷、×、卸載等。

通過已經非常成熟的廣告領域，可以參考到某些重要的信息，仍是我們的獲取重要參考。例如用戶來源追蹤，以及跨域追蹤，所謂跨域追蹤是利用指的是比如你在百度上跳轉到新浪，同樣可以追蹤到。利用的手段一般是cookie和緩存，前者一般是自帶key，與用戶關系不大。

2.6 后處理

后處理一般有三個環節，過濾、權重、衰減因素。過濾一般指過濾提取的無效特征或干擾數據，權重一般根據不同的行為偏好等因素綜合考量后進行調整，衰減一般要考慮到用戶某個興趣會隨時間延長而降低，相關變量是用戶點擊頻率和瀏覽時長，依據相關變量進行調整遺忘因子系數。還有一點是利用自然范數梯度下降算法，來進行準確度的修正。從技術方面來說都已經相對成熟，也有成熟算法，不多做闡述。

2.7 模型輸出

所謂輸出，實際是可依據上方分析后建模完成的相關體現。其作用是輔助我們發現問題，定位并解決。我們要考慮到時效性、便捷性、準確性等問題。

從效果來看是數據，從特征來看是標簽。所以數據的展現要求的是可視化，以及靈活性，并且要準確，最小時間間隔維度不能過大。所以選定如：折線圖、漏斗圖、餅圖、柱形圖等常見格式，結合不同的區域位置和目的，實現最優展示方式選擇。最小時間間隔可以有實時報表或半點報表，每日會匯總報表進行輸出，設置相應閥值，波動過閥值后進行相應報警等機制處理。

那么用戶標簽，其實就是行為標簽，依據行為進行計算貼合。是根據標簽體系中的標簽建設，在標簽體系中所有標簽二維化平鋪，但是在用戶體系中貼合的具體標簽將有層級劃分。其實兩者不難發現是包含與被包含的關系，既整個標簽體系給用戶標簽體系提供“素材”，而用戶體系是直接拿來用，所以既然是使用者，就要有詳細的層級以及權重計算，這個是非常重要，這與我們的終極目標有關。

我們希望知道用戶被打上這個標簽的背后動機是什么，不同內容之間一定存在某種弱關聯，弱關聯的發現是通過內容標簽背后的二維化體系支撐；但是關聯側重和確定選擇，是通過用戶層級標簽來做到的，最終借此我們就可以相應的給一部分猜測，并給予驚喜推薦，完成超越用戶所想的目的。通過弱關聯，我們還可以完成用戶之間的相互推薦，或者用戶聚類等工作，建立用戶之間的關系網絡，為搭建社交氛圍做好鋪墊。

上面是通過用戶行為獲取的標簽，還有一部分是用戶物理屬性，也就是如性別、地區、客戶端、網絡環境等屬性，盡量收集全，并且每日收集，記錄維度以登陸時間為維度。最終行為標簽與物理標簽相結合，綜合展示于內容標簽及用戶標簽系統中。之后，需要根據用戶的標簽體系，通過算法分析用戶性格，性格會幫我們在之后的個性化產品中不去招惹用戶，讓每個用戶獲有滿足感。

至此，應輸出的用戶標簽實際為四類，屬性、興趣、關系、行為，屬性包含物理屬性和性格屬性，以上四個維度，有助于我們全方位分析用戶，最終輸出的應是用戶動機的最大可能性猜測，猜測用戶這次想看什么類型的內容，結合內容體系，進行推薦。

2.8 小結總結

本節闡述的是整個用戶體系的搭建思路，包括之前的經典理論引用和搭建分析模型，最終到用戶分析和輸出展示形式，下面將闡述項目體系的搭建思路。

3. 項目體系

項目體系分為許多種，有商品、用戶、內容、廣告等，本文僅以內容作為搭建思路敘述。

3.1 內容特征

內容向量通常存在維數大的問題，即使去掉低頻詞和高報詞等停用詞后，仍然會有數萬維的特征留下。為了提高機器學習的效率和精度，有必要降低文本向量的維數。特征選擇是內容降維的有效方法。

具體做法是構造一個評估函數對特征向量中的所有特征逐一評分，選取分值高于設定闌值的特征。常用的評估函數有：文檔頻數、詞頻函數、TIFDF、期望交叉摘、CHI、信息增益、互信息等。雖然實驗表明IG和CHI等基于信息熵的方法的可以取得較好的特征選擇效果，但是計算費用高，系統開銷大，使用起來浪費時間和資源。因此實際應用中，計算量較小、評估效果較好的TIFDF方法是非常可取的。

并且內容不僅是文字，仍會有圖片、視頻、語音等，對于這三者，因為維度完全不同，所以使用手段與方法也完全不同。

3.2 圖片特征

將二維平面降維手段仍是標簽，一般稱為圖片標注；標注方法可以簡單分為基于模型學習的方法和基于實例檢索的方法。

基于模型學習的方法具有較高的標注性能，但是模型訓練的計算復雜性較高，不具備實戰意義。基于實例檢索的方法將圖像標注問題看作圖像檢索問題，是基于數據驅動的模型方法。所以一般選擇后者，其中算法也是層出不窮；提升準確性和過濾垃圾標簽是共同目標，需要擇優選擇，方法和技術已經同樣有許多種，不多做贅述。

3.3 視頻特征

視頻為三維載體，又增加了時間性質；常規手段有：將視頻逐一降維成二維平面，也就是等分切割，轉化為圖片標注，即可。但是該方法成本巨大，在大量數據當中應用不現實。更加較為新興手段有視頻彈幕，彈幕是直接在視頻上用戶編輯的文字內容，類似字幕，將每時刻彈幕內容提取，直接把視頻變為標簽，按權重劃分刪除垃圾標簽即可，較為簡單高效。

3.4 音頻特征

常見音頻一般以脫口秀、音樂為主，其中標題提供的信息標簽權重會非常大，但仍是有限的。所以對于脫口秀，衍生出了語音識別技術：將語音轉化為文字信息進行標記。對于音樂，我們只能從其它手段進行補充。比如波形識別，一般音樂含有曲風、風格等屬性，利用音頻的波形識別技術可順利獲取相關標簽。

3.5 評論特征

評論雖然是文字類型，但是由于評論都不可能過長，所以問題就會出現語義不完全，嚴重的數據稀疏問題。這里非常像微博，微博只有140個字，相對較少。所以針對微博的這種情況，也有許多新技術來進行改進。例如：通過拓展微博文本的特征，通過分析微博數據中的某些現象或特性等手段來改善數據稀疏問題；所以充分借鑒在微博領域中的研究成果利用，結合實際使用。

3.6 垃圾標簽抵御

對于以上載體，不可避免的都會有垃圾標簽的出現，不管是主動還是被動，所謂主動是由于識別率或技術局限性等問題，導致的垃圾標簽的產生，對于被動更多的場景比如說是圖片的水印，視頻的廣告或是由于惡意攻擊、惡意添加等行為的產生，那么對于垃圾標簽同樣有許多手段進行相關抵御：

基于檢測的垃圾標簽抵御，通常分為兩個階段：首先，系統管理員可以手動標注垃圾標簽或其對應的惡意用戶，也可以由系統根據統計分析和機器學習的相關理論來自動識別出垃圾標簽或其對應的惡意用戶；然后，由系統做出響應，這種響應可以是在垃圾標簽上做出標識，也可以是直接刪除垃圾標簽并調整搜索結果或者限制惡意用戶的權限。

基于降級的抵御，是通過降低受垃圾標簽污染的資源在用戶搜索結果列表中排列的位置來實現對垃圾標簽的抵御．利用特定的算法將那些受垃圾標簽污染的資源排在結果列表中盡可能靠后的位置，這樣用戶就不會看到這些受污染資源。相關會有Coincidence—based模型、SpamClean模型、DSpam模型等對這種形式進行處理。

基于預防的垃圾標簽抵御，統計表明，很大一部分的垃圾標簽來自于僵尸網絡中被控制的主機或者可以標注標簽的自動化程序，這些主機或者程序可以根據攻擊者的需要來產生大量垃圾標簽，從而對社交網站中正常用戶的標簽服務構成威脅。所以該手段主要是通過對產生標簽的用戶的權限進行隱藏或者限制從而抑制垃圾標簽的出現，即確保每個標簽的產生都來自于自然人而不是僵尸網絡等．需要指出，目前基于預防的垃圾標簽抵御方法的效果尚無法通過量化指標來衡量，這主要是因為無法統計因采用了此類方法而預防成功的垃圾標簽的數量。

最終，標簽的抵御效果可以由如下兩個屬性進行評價：服務執行效率與服務可用性。

3.7 模型輸出

對于內容標簽，綜上有許多種方法，但是還有一條標簽線是載體標簽。所謂載體，純文字、純視頻、純圖片相冊、圖文、視頻文字、視頻圖片文字，主流常見的只有這三種。需要詳細的進行展示，例如文字以千字為一檔進行劃分，比如1000字以下、1001-2000字等，圖片以十張圖為一檔，視頻以一分鐘為一檔，可以輔助我們進行內容效果評估。并且進一步結合用戶實際場景，實際情況來進行推薦提供了又一維度。

所以最終輸出應為內容類型、內容載體、內容分類以及內容適配場景，最終計算內容的核心亮點，以供于貼合用戶群，結合用戶動機，實現用戶這次想看什么內容的需求供給，達到轉化率最大化的目的。

3.8 小結總結

本節闡述了對于內容標簽的搭建體系，針對不同的元素有不同的獲取方式，其中對于垃圾標簽的抵御也闡述相關手段和方法，最終的展現上仍要求可視化，對于了解某種內容的詳細受眾用戶群，是有極大好處的，下一節將會闡述推薦流程中的核心流程，推薦環節。

附錄3 今日頭條心理動機研究

研究模型

“今日頭條”用戶的年齡，性別等人口統計特征和用戶媒介偏好，自變量為“今日頭條”用戶的使用動機，中介變量為“今日頭條”用戶的使用態度，因變量為“今日頭條”用戶的使用行為。本研究的主要研究方向是利用使用態度這個中介變量研究使用動機（需求）對使用行為的影響。

控制變量

控制變量主要包括性別、年齡、教育程度、職業等人口統計學特征。

自變量——動機（需求）

根據“使用與滿足”理論，用戶是被看作有特定“需求”的個人，而他們接觸媒介的活動被看作是基于某種特定的需求動機來“使用媒介”，最終使這些需求得到滿足的過程。而這種特定的需求的產生，主要有兩個方面：一個是社會因素，另一個是個人心理因素。本研究從個人因素和社會因素出發，兼顧“今日頭條”的用戶體驗（易用性、有用性）等方面，總結了用戶使用“今日頭條”的若干動機。本調查將用戶使用今日頭條的需求分為三個維度：媒介需求，社交需求，體驗需求。