這個神秘公式,支配了整個硅谷的產品決策


          Warning: Invalid argument supplied for foreach() in /data/cxweb/www/gupowang.com/public/article/view.html on line 71
          6年前

          【作者】Han

          【來源】涵的硅谷成長筆記

          【編輯】善小倩

          我過完年回來上班啦!好興奮??!因為。。終于可以再次見到好基友Tommy了。。。

          可我今兒,一打眼就發現他不對,愁眉苦臉的,就問咋滴了呢。

          他說:“哎,最近又收到好多人寄來的刀片兒。。。”

          原來,這是用戶們在抱怨他的產品不好用呢:“這個App是腦殘嗎...”, “孤兒碼農...”

          哎,我們搞App真的很難,因為有太多太多的細節,要做決策了。有一丟丟搞不好,用戶就會不開心。比如,按鈕應該放在上面,還是側面?讓用戶手機驗證,還是密碼驗證?等等等等。。。

          關鍵是人們的呼聲又不一樣!總自相矛盾。。。

          比如你問妹子想吃啥,她嘴上說“隨便”,其實她心里是想說:

          這是一道送命題。。我們也很無奈啊,我們雖然工資低,但是放假少啊,心累。。。

          那。。。畢竟產品總要出去,最后到底是根據啥做的決定呢?

          還真不是靠產品經理拍腦袋,也不是靠碼農和設計師撕逼,更不是靠高層們微信扔骰子定的。。。

          其實,好多硅谷企業呢,現在都已經有了一套基于統計學的科學方法啦!

          最簡單地,總結起來就是一個公式:

          這是TM啥?

          今天就來給你爆料下,這個不是秘密的公開內幕吧!

          案件重現

          讓你對兩方案進行選擇,最好方法是啥?很簡單,做實驗嘛。

          沒錯,先來一個例子。

          比如,你知道“顏色”對用戶行為,有顯著的影響吧。(不知道也不怕,我之前的文章有介紹過“顏色”在產品里的作用和背后的心理學原理,點這里:王者榮耀和LOL:真受不了沒素質玩家)

          于是,你現在想試試把按鈕的顏色從綠色改成紅色,想看看是不是有更多的人點擊。

          然后呢,實驗開始了,你讓一半兒的人看到綠色按鈕,而另外一半兒的人看到的,則是紅色:

          實驗結束后,你得到的結果是這樣的:

          A組,綠色:100個人看到了這個按鈕,沒人點擊這個按鈕

          B組,紅色:同樣有100個人看到,50個人點擊。。。

          結論很明顯,紅色有效的促進了用戶點擊!實驗成功??!

          但遺憾的是,現實往往不是這樣簡單。。。

          再來看一個例子。

          你應該知道,手機的“推送通知”對挽留用戶很重要吧。發一個推送,用戶沒準就會點開好久不用的App了?。ㄎ抑暗奈恼乱灿性敿毥榻B過優化“推送通知”的辦法,點這里:網易垃圾推送讓我氣到圍笑)

          所以,你又有了一個想法,想試試,個性化通知內容,是不是有效。

          于是,你分別給兩組人發了不一樣的推送通知。

          第一組收到的是非個性的:“屠龍寶刀點就送!明星都在玩!”

          第二組則有一點點個性化:“{$Name},屠龍寶刀點就送!明星都在玩!”

          好了,結果是,在發出推送的24小時內:

          第一組,有95個人看到了,有4個人打開了App,但有1個人刪除了你的App (可能是因為太煩了)。

          第二組,有107個人看到了,有11個人打開了App,但是有3個人刪除了你的App。。。

          這結果就很尷尬了,喜憂參半的悖論?于是你打開了知乎,問到:

          謝邀。如果只看打開率的話,那可能是第二組更好,可是第二組的刪除率又上升了。

          這怎么搞!

          還好我們有統計學。。。

          p值是啥?

          這個事情,要是交給統計學家,會怎么處理呢?

          他們會計算p值(p Value)

          什么意思呢?

          p就是概率Probability,p值就是說:新方案根本沒啥卵用的可能性。。。

          咋算呢?

          為了簡單,咱先只看打開率。

          那么第一組用戶的打開率是:4/95 = 4.21%

          現在問題的關鍵是,我們需要知道,第二組這個打開人數的增長,到底是一個【恰好】出現的偶然結果,還是真的因為“個性化”的通知內容有效而提高的呢?

          要知道,很多用戶即使不看通知,也會打開App的呀!

          統計方法上,我們會先來一個“無效假設(Null Hypothesis)”:也就是假設“個性化”通知根本沒啥卵用,于是我們有:

          如果“無效假設”成立,第二組的真實打開率,那就是維持4.21%不變嘛,和第一組一樣*。(*此處進行了簡化,詳情見文末)

          那么,我們來看看,按照4.21%這個打開率,第二組出現11個人打開App的概率是多少呢?

          這是一道高考送分題,答案就是:

          這個值,就是p值, p = 0.0037。它代表,“個性化通知”沒有任何用處的概率僅為0.0037。

          其實,p值就表示了:實驗結果純屬巧合的可能性。

          所以p值當然是越低越好啦,那么多低是低呢?標準是啥?

          硅谷各公司,普遍采用的p值標準線是0.05。

          也就是,如果 p < 0.05, 就代表數據有統計學顯著性(Statistically Significant,口語交流時,簡稱"Stat-Sig"),實驗結果是有意義的,無效假設將被駁回(Reject)。

          你看,咱打開率的p值小于0.05,那么就可以說:“個性化”通知,對于促進用戶打開App,有效。

          (這就是p值小于0.05的感覺)

          我們再回過頭來,看看兩組刪除率的p值,經過計算,我們得出p = 0.1795,大于0.05,也就是說,刪除率上升,純屬偶然!

          這下好啦??!產品決策清晰了!

          相比原來的非個性化推送,我們發現個性化的推送打開率有顯著性提升,而刪除率則沒有顯著的統計學差異。

          于是,你們歡快地決定:上線“個性化推送”功能?。?PM今晚請大家吃雞??!

          A/B測試

          上面提到的,整個新產品的驗證過程,被稱之為“A/B Test”(AB測試)。A和B就是指,實驗里的兩個組。

          AB測試是最最簡單的工具啦,實際工作中會遇到更多的奇葩情況,那“A/B Test”可就不夠了。比如,涉及到兩個用戶以上的社交功能,還有涉及到“錢“的情況等等,這些我以后再講。。。

          可以說,硅谷就是由實驗驅動著的。無論是一個小小的UI變動,還是推薦算法模型的升級,都會進行一次實驗。因為實在是太常用了,很多大型App里,往往同時運行著超級多的實驗。

          為了提高效率,各廠們都紛紛開發了,專門的實驗工具和分析系統,讓人們快速使用。

          比如:

          Google旗下Analytics產品的Content Experiments工具:

          他可以快速的通過UI創建一個實驗,還能在運行時,利用Multi-armed bandit算法,自動調整并分配流量比例,到不同的用戶組,以加快實驗速度。結束后,還會自動生成報表。

          Uber的實驗平臺XP

          XP不僅是實驗和分析工具,還幫助Uber安全上線和部署新功能,實時觀測數據。

          Airbnb的實驗框架ERF(Experimentation Reporting Framework):

          ERF的交互設計非常好,還提供了美觀的報表系統,p值一目了然:

          Netflix的跨平臺實驗工具ABlaze

          他有著跨平臺的優良特性。要知道,其實Netflix的壓力非常大。數據發現,如果用戶不能在90秒內找到自己喜歡的影片,他們就會關掉App。借助ABlaze,Netflix得以快速迭代產品,以便滿足全球超過一億用戶的觀影需求。

          其實,這里還是要提一句,硅谷各企業的產品決策,絕對不是只考慮“p<0.05”這么簡單啦。

          這里也僅是出于科普的目的,對實際情況進行了極大的簡化。

          比如,當年“扁平化設計”剛出的時候,通過數據來看,用戶肯定不滿意,覺得丑。但是蘋果,偏是不聽呢~就要上線,就要上線,就要上線~ 最后你看,用戶乃至業界還不都是被成功的教育了。

          更進一步

          你可能會問,為啥這些硅谷企業都選0.05這個數字呢?

          答案就是:

          嗯。。。其實這個真的就只是一個約定俗成的數值而已。

          Tommy告訴我,提出這個值的人,還是和英國有關。這是幾十年前,英國統計學家Ronald Fisher提出來的,后人沿用了而已。

          當然,很多產品為了更加可靠,也會使用更低的p值, 比如0.01。

          不僅僅是硅谷這樣的工業界啦,在學術界,尤其是統計學支撐的學科,比如心理學,生物醫學甚至經濟學,“p < 0.05”早就被當作常識一樣了。

          比如,醫學領域,有人提出了一種新藥。想知道這種新藥的效果,那就要進行實驗了。簡單來講,他們會找到一些病人,隨機的分成兩組,比如每組20個人。

          雙盲測試:醫生和患者都不知道分組情況

          一組人,作為測試組,會按時吃這種新藥。而另一組則是控制組,不會吃這種藥。

          當然了,也不是啥也不吃。他們會被要求隨便吃點啥,比如吃淀粉片,這東西被稱為“安慰劑”。

          因為心里作用也會影響治療效果,所以不能讓他們知道其實他們吃的東西沒啥用嘛。吃安慰劑,就能保證他們不知道自己被分到了控制組。

          實驗結束之后,會看看哪組人治愈率更高,這個時候就要進行p值的計算來進行檢驗了。

          我也是從身邊好多醫學生物學博士朋友那里知道的:他們經常說,科研狗奮斗一生,就為了那0.05,其實硅谷的碼農們又何嘗不是呀~

          (妹子,你的p值一定大于0.05,

          因為我無法拒絕你)

          后記

          我告訴Tommy,你看“p < 0.05”對吧,這就意味著,概率上來講,咱們每上線20個產品,其實就會有一個產品是垃圾。。。所以,別難過了 ,你可能就。。。恰好是那個垃圾。。。

          然后Tommy把我打了一頓 :)

          ---

          *文中p值計算過程并不完全準確哈,而是為了可讀性,進行了簡化。因為第一組的4.21%也不能代表真實情況。這里其實是在比較兩個樣本的分布。特此大感謝我的數據科學家同事+朋友Cora幫我Review~實際比較復雜,比如先看成是一個正態分布,然后計算一堆值,再。。不說了,你去看統計學課本吧。。但是告訴你一個小秘密,已經有很多開源在線工具可以幫你計算p值了: ( 可見對于文中的例子,打開率p值可以為0.0453。)

           

          收藏

          {{favCount}}

          個人收藏

          投稿請戳這里!投稿
          0

          次分享

          文章評論(0)

          {{ user.nickname }}
          發表評論
          登錄 進行評論
          加載更多 正在加載中... 沒有更多了