這可能是你看過最硬核的小紅書算法


          Warning: Invalid argument supplied for foreach() in /data/cxweb/www/gupowang.com/public/article/view.html on line 71
          2年前

          這是一篇哈佛醫(yī)學院的HMS學術文章,一個叫Nsoesie和他的小伙伴們分析了醫(yī)院停車場的車輛數量和互聯網搜索趨勢,得出了疫情最早在19年8月在武漢開始。當然這一說法被哈佛醫(yī)學院自己否了,理由是不適當和不充分的數據、對統(tǒng)計方法的濫用和誤解,以及挑選互聯網搜索詞。事情并沒有隨著問題的發(fā)現終止,Nsoesie這些人的說法得到了媒體的廣泛報道。

           

          我們來把整個時間進行簡單概括,大致就是——很多數據說明醫(yī)院里的車多了;車多了,肯定是看病的人多了;看病的人多了,肯定是得了新冠肺炎;同類類比,南京中華門景區(qū)旁邊是市第一醫(yī)院,直線距離1.1公里。除了一個小停車場、一個巷子、醫(yī)院地下停車場,沒有其他停車位,小停車場和巷子日常是停滿了的。國慶假期到了,醫(yī)院停車場滿了。得出的結論是——南京爆發(fā)疫情了。

          如果從現象推原因,事實會差多少?上不了臺面的科研騙局,但是用腳投票的大眾選擇相信,不相信的人卻別有用心的傳播。

          對應到運營行業(yè)中,是不是很像整天方法論、刀法、套路、核心、SOP的某些人?從結果拆方法,方法匯總復用告訴100個人。只要有1個人做好,就可以說“你沒有做好,別人能做好,是你的問題”。哲學中有個樸素的觀點是“實踐是檢驗真理的唯一標準”,而實踐之所以作為真理的檢驗標準,這是由真理的本性和實踐的特點決定的。

          做火了一兩個賬號/甚至沒做過賬號,總結出的運營經驗語句都不通順,前后經不起推敲,而大家已經掏錢上車了。如下圖,其實所有需要分發(fā)內容的APP都是這個邏輯。

           

          所以這篇內容我不會寫那些網上一搜就會搜到10篇有9篇一樣的小紅書算法內容,同樣和上篇內容一樣做不到通俗易懂,甚至枯燥,看了不知所云。但相信我,看完你們會有很大的收獲。也許業(yè)務中的一些小的問題終于得到確認,可能看待小紅書運營的角度更加的多元化,或者學會了更加具象的思維。想聽刀法、方法論、扯淡的可以點右上角的×了,如果你們想從更底層去一點點認知自己在做的平臺,這篇內容如果對你們有幫助那就太好了。我扒了很多論文、論壇以及找來了不少小紅書公開演講的PPT梳理總結,與實際業(yè)務相結合,歡迎關注點贊留言。

          很多人經常說小紅書算法,大部分人從產品角度出發(fā),少部分人從運營角度出發(fā),幾乎沒有人從技術角度出發(fā)。算法是一系列解決問題的清晰指令,算法代表著用系統(tǒng)的方法描述解決問題的策略機制。定向A?定向B,可能是男性和女性,也可能是國王和皇后。我們應該先解釋A和B,而不是討論怎么從A?B。

          從產品角度出發(fā)沒有什么大問題,但是有兩類大點,即產品的背景及使用。產品的背景包括解決什么需求、具體的使用場景是什么樣、目標用戶是什么。產品的使用包括體驗、UI、美工、交互。我看了大多數人對小紅書算法的分析,是從UI角度出發(fā),即使用者界面出發(fā),其實是相當不準確或者說淺層次的。從UI角度出發(fā),抖音和小紅書相似程度是非常高的。抖音的首頁-推薦、關注、同城和小紅書的首頁-發(fā)現、關注、同城基本一致,消息頁和我

          的頁面也基本一致,那么算法和邏輯就一致嗎?

          差的太多了,反映到結果上,我們抖音和小紅書同樣的都做了200萬粉左右,一個基本沒有任何變現,一個收益很高。后來我們反復復盤,平臺就像那些年我們追的女孩子,沒有人永遠年輕,但總有人正在年輕。即使運營了很多年,我們對當初的這個女孩也時常感到陌生。而平臺也總會誕生新的機會,給后來者遐想空間。

          話不多說,讓我們簡單的梳理小紅書算法。不少段落取自ArchSummit深圳演講-趙曉萌(小紅書算法架構師,負責機器學習應用)、2019阿里云峰會·上海開發(fā)者開源大數據專場小紅書實時推薦團隊負責人郭一的發(fā)言、以及秦波(推薦引擎北京工程負責人)、馬爾科(小紅書大數據組工程師)的帖子/PPT。如有侵權,聯系修改或者刪除。

          小紅書社區(qū)是一個分享社區(qū)+電商的APP,分享社區(qū)通常意義上都是以女性為主,少量話題引導。每天平臺生產的內容,要如何轉發(fā)分發(fā)給用戶,讓用戶看到用戶想看的,這是算法需要解決的問題。

          對于小紅書來說,社區(qū)提供用戶黏性,為電商引流,電商把這部分流量變現,在APP里形成閉環(huán),社區(qū)和電商互相推動。對于算法團隊來說,有社區(qū)的用戶數據,有用戶在電商版塊的行為數據,如何把兩邊的用戶行為連接起來,更好的理解用戶,是算法的根本出發(fā)點。

          現在大家普遍認可的都是下面這個流量分發(fā)模型,系統(tǒng)根據用戶互動效果進行評分的體系是CES。實際上太籠統(tǒng)了,ces評分也不知道是出現在整個推薦流程中的第一步、第二步、第三步,還是反復計算。接下來我會通過具體的一些案例,從技術的角度去解釋。

           

          如果有看過我上篇講搜索流量的小伙伴應該有印象,一篇筆記的搜索流量相對穩(wěn)定占位,而推薦流量是筆記成為爆款的核心。小紅書線上推薦的流程主要分為三步。第一步,從小紅書用戶每天上傳的筆記池中選出候選集,通過各種策略從千萬條的筆記中選出幾千個候選集進行初排。第二步,在模型排序階段給每個筆記打分,根據小紅書用戶的點贊和收藏行為給平臺帶來的價值設計了一套權重的評估體系,通過預估用戶的點擊率,評估點擊之后的點贊、收藏和評論等的概率進行打分。第三步,在將筆記展示給用戶之前,選擇分數高的筆記,通過各種策略進行多樣性調整。

           

          那么小紅書是如何從每天的筆記池中選出候選集進行初排的呢?

          小紅書的內容圖文并茂,用戶產生的內容圖片多,質量很高。用CNN(卷積神經網絡)提取圖像特征,用Doc2Vec(文本到向量模型)提取文本特征,通過一和簡單的分類器就能把用戶分到主題中,而主題是人工標定的上百上千個主題。這是初排。

          CNN和Doc2Vec具體是怎么提取筆記進行分類的?

          關于圖片的識別,小紅書是一個非常視覺的社區(qū),圖像很多,小紅書用圖像提取特征就已經能達到良好的效果,準確率大概是85%時覆蓋率能達到73%左右。加上文本以后效果更好,準確率達到90%,覆蓋率達到84%。

          圖片這是第一個在內容創(chuàng)作中需要注意的地方,對圖像的夸張識別到什么程度?

          我們有一次發(fā)幼兒、中小學的教育案例,拍到了角落翻開來的書上關于母嬰胎教類的兩行字,肉眼都看不清,違規(guī)發(fā)警告說涉及到嬰兒遺傳等敏感內容,賬號不被推薦3天。后來反復查找原因,才發(fā)現這個問題。這里再舉一個更常見的例子,涉及到了GBTD模型里的機器深度學習。小紅書上流行分享治痘,有很多臉上有很多痘痘怎么治好的筆記,怎么把這些觀感其實不適的內容推薦給要看的人是一個問題。當小紅書嘗試用CNN model做這個事的時候,發(fā)現無論照片是全臉漏出、半臉、1/4臉甚至只有少量的臉部器官,都可以很好的識別甚至識別圖里的文本,對反作弊有一定的幫助。所以,不要在圖片上進行任何夾帶私貨,圖片識別+圖片文本識別,基本上準確率有90%。

          再講一下文本的向量表示,文本的向量表示有非常多種,其中一個比較有名的向量表示叫做 Word2Vec,是 Google 提出來的。它的原理非常簡單,其實是一個非常淺的淺層神經網絡,根據前后的詞來預測中間這個詞的概率,優(yōu)化預測的時候模型就得到了詞的向量表示。同樣的這個詞的向量表示在空間里也是有意義的,相似的詞也處在相近的空間里。這個模型比較有意思的是,把向量拿出來隨時可以做向量運算。

          女人到男人之間的那個指向的向量,和皇后到國王之間是一樣的,所以我們知道其中三個,就能算出另外一個。假如我們的筆記重點是“自駕”和“露營”,Word2Vec會據前后的詞來預測中間這個詞的概率,可能是裝備、路線、西藏、過夜、海邊、周邊、攻略,推送到對應的用戶頁面。

          用戶畫像和筆記畫像是什么?在算法中扮演什么角色?

           

          小紅書推薦預測模型已經演化到了GBDT+Sparse D&W的模型。主要有9個預測任務,包括click、hide、like、fav、comment、share、follow等。點擊、保持、喜歡、評論、分享、關注。點擊是小紅書最大的模型,一天大概產生5億的樣本進行模型訓練。GBDT模型中的筆記分發(fā),有非常多的用戶行為統(tǒng)計,產生了一些靜態(tài)的信息和動態(tài)特征,用來描述用戶或者筆記。

          通過用戶畫像和人口統(tǒng)計信息來描述用戶,比如性別年齡這些靜態(tài)信息。筆記分作者和內容兩個維度,比如作者打分、筆記質量、標簽、主題。動態(tài)特征雖然不多,但是非常重要。動態(tài)特征包括用戶在瀏覽和搜索中有沒有點擊、有沒有深度行為等類似的用戶反饋。這些交互的數據有一個實時的pipeline從線下直接放到線上的模型里,在線上會利用這些數據對點擊率等交互質量的指標進行預測,然后根據用戶和筆記的隱形分類進行推薦。

          關于動態(tài)特征的提取,小紅書用的是Doc2Vec模型,也叫做相關筆記。相關筆記的要求是什么?推薦的筆記和用戶在看的筆記,最好講的是一個東西。比如說同一款口紅、同一個酒店、同一個旅游城市、同一款衣服,可能不是一個酒店,但是是類似的酒店。

          可能不是同一個旅游城市,但可能是類似的旅游城市,是不是很難理解?那我們再具體一點,我如果看的是亞特蘭蒂斯這種級別的酒店,那么小紅書就不會給我推薦格林豪泰,而是類似同等級別的酒店。如果我經常搜的是雪山/草原/沙漠,那么就不會給我推薦上海/北京/廣州這種人文和城市景觀突出的地方。

          有一點需要注意的是,TFIDF model 雖然基本要求詞是一樣的,但它可以把一類筆記找出來,就是講用戶心理、描述用戶心情的筆記,因為用戶描述心情用的詞匯很接近,所以這個方法也會把擴展的內容找出來。“絕絕子”是非常明顯的一個語氣詞或者形容詞,在小紅書有461萬+篇筆記。

          最核心的實時歸因場景業(yè)務,是如何制作用戶的行為標簽的?

          用戶畫像比較簡單,不會存在過多的狀態(tài),而實時歸因是整個實時流處理中最關鍵的場景。實時歸因將筆記推薦給用戶后會產生曝光,產生打點信息,用戶的每一次曝光、點擊、查看和回退都會被記錄下來。

           

          看一下下面這張圖,四次曝光的用戶行為會產生四個筆記曝光。如果用戶點擊第二篇筆記,就產生第二篇筆記的點擊信息,點贊會產生點贊的打點信息。如果用戶回退,就會顯示用戶在第二篇筆記停留了20秒。實時歸因會生成兩份數據,第一份是點擊模型的數據標簽,下圖中第一篇和第三篇筆記沒有點擊,第二篇和第四篇筆記有點擊,這種數據對訓練點擊模型很重要。點贊模型也和上面幾乎完全一樣。

          本文由姑婆那些事兒作者:老趙說運營 發(fā)布,其版權均為原作者所有,文章為作者獨立觀點,不代表 姑婆 對觀點贊同或支持,未經授權,請勿轉載,謝謝!

          收藏

          {{favCount}}

          個人收藏

          投稿請戳這里!投稿
          0

          次分享

          文章評論(0)

          {{ user.nickname }}
          發(fā)表評論
          登錄 進行評論
          加載更多 正在加載中... 沒有更多了