我經常看到的 12 個 A/B 測試錯誤
已發表: 2021-07-22A/B 測試很有趣。 有了這麼多易於使用的工具,任何人都可以——也應該——做到這一點。 然而,它不僅僅是設置測試。 大量公司正在浪費他們的時間和金錢。
以下是我看到人們一次又一次犯的 12 個 A/B 測試錯誤。
- 儘早調用 A/B 測試;
- 整週沒有運行測試;
- 在沒有足夠流量(或轉換)的情況下進行 A/B 測試;
- 不基於假設進行測試;
- 不向 Google Analytics 發送測試數據;
- 在愚蠢的測試上浪費時間和流量;
- 第一次測試失敗後放棄;
- 無法理解誤報;
- 在重疊流量上同時運行多個測試;
- 忽視小收穫;
- 不是一直運行測試;
- 沒有意識到有效性威脅。
你犯了這些錯誤嗎? 請仔細閱讀,找出答案。
1. 儘早調用 A/B 測試
如果樣本量足夠大,統計顯著性是版本 A 實際上優於版本 B 的最佳證據。 50% 的統計顯著性是拋硬幣。 如果你以 50% 的比例要求測試,你應該改變你的職業。 不,75% 的統計置信度也不夠好。
任何經驗豐富的測試人員都有過很多經驗,其中 80% 置信度的“獲勝”變體在被實時推送到網站並暴露於更多流量後最終失敗。
90% 怎麼樣? 這很好,對吧? 不。 還不夠好。 你在做一個科學實驗。 是的,你希望它是真的。 你希望那 90% 獲勝,但了解真相比宣布勝利更重要。
真相>“勝利”
作為優化者,您的工作是找出真相。 你必須把你的自我放在一邊。 依附於您的假設或設計處理是人性的,當您的最佳假設未能顯著不同時,它會受到傷害。 去過也做過。 真理高於一切,否則一切都會失去意義。
A/B 測試計劃:如何構建有效的流程
強大的 A/B 測試計劃將使您增加收入並了解有關客戶的寶貴見解。

這是一個常見的場景,即使對於進行大量測試的公司也是如此:他們在 12 個月內進行一個又一個的測試,宣布一批優勝者,然後將它們推出。 一年後,他們網站的轉化率與他們開始時的轉化率相同。 該死的時間都在發生。

為什麼? 因為測試調用太早和/或樣本量太小。 以下是關於何時停止 A/B 測試的詳細解釋,但簡而言之,您需要滿足三個條件才能宣布測試完成:
- 足夠的樣本量。 我們有足夠的數據來打電話。 您需要使用 A/B 測試樣本量計算器預先計算樣本量。
- 多個銷售週期(2 – 4 週)。 如果您在幾天內停止測試(即使在達到所需的樣本量之後),您正在獲取一個方便的樣本,而不是具有代表性的樣本。
- 至少 95% 的統計顯著性(p 值為 0.05 或更小) 。 注意:p 值不會告訴我們 B 優於 A 的概率。在此處了解有關 p 值的所有信息。
這是一個古老的例子來說明我的觀點。 開始測試兩天后,結果如下:

我構建的變體損失慘重——損失超過 89%(誤差幅度沒有重疊)。 有些工具已經稱它為統計顯著性為 100%。 我使用的軟件說變體 1 有 0% 的機會擊敗對照。 我的客戶準備退出。
但是,由於樣本量太小(每個變體僅超過 100 次訪問),我堅持了下來。 這是 10 天后的結果:

沒錯,有“0%”機會擊敗控制的變體現在以 95% 的信心獲勝。
注意“提前調用”的 A/B 測試工具。 始終仔細檢查數字。 你能做的最糟糕的事情就是對不准確的數據充滿信心。 你會賠錢,可能會浪費幾個月的工作。
您需要多大的樣本量?
您不想根據小樣本量得出結論。 一個好的目標是每個變體至少有 350-400 次轉換。
在某些情況下它可能會更少——比如當控制和治療之間的差異非常大時——但幻數不存在。 不要被數字困住。 這是科學,不是魔法。
您必須使用此類或類似的樣本量計算器提前計算必要的樣本量。
如果置信度仍然低於 95% 怎麼辦?
一旦達到必要的樣本量並針對整個商業周期(或兩個)進行測試,這意味著變化之間沒有顯著差異。
檢查跨段的測試結果以查看特定段是否達到了顯著性。 偉大的洞察力在於細分市場,但您還需要為每個細分市場提供足夠的樣本量。
在任何情況下,您都需要改進您的假設並運行新的測試。
2. 整週沒有運行測試
假設您有一個高流量網站。 您在三天內實現了 98% 的置信度和每個變體 350 次轉化。 測試完成了嗎? 不。
我們需要排除季節性並測試整週。 你星期一開始考試了嗎? 然後你也需要在星期一結束它。 為什麼? 因為您的轉化率可能會因一周中的哪一天而有很大差異。
如果你沒有一次測試整整一周,你就會歪曲你的結果。 在您的網站上運行“一周中每天的轉化次數”報告,看看有多少波動。
下面是一個例子:

你在這裡看到什麼? 週四比周六和周日多賺 2 倍的錢,週四的轉化率幾乎是周六的 2 倍。
如果我們整週不進行測試,結果就會不准確。 您必須一次運行 7 天的測試。 如果在前 7 天內沒有獲得信心,請再運行 7 天。 如果在 14 天后仍未實現,請運行到第 21 天。
當然,無論如何,您都需要至少運行兩週的測試。 (我個人的最低限度是四個星期,因為兩個星期通常是不准確的。)然後,如果您需要延長它,請應用 7 天規則。
您唯一可以打破此規則的時間是當您的歷史數據充滿信心地表明轉化率每天都相同時。 但是,即便如此,最好一次測試一整週。
關注外部因素
是聖誕節嗎? 您在假期期間的獲勝測試可能不是一月份的獲勝者。 如果您的測試在聖誕節等購物季獲勝,您肯定希望在購物季結束後進行重複測試。
你是在做大量的電視廣告還是在開展其他大規模的活動? 這也可能會扭曲您的結果。 您需要了解您的公司在做什麼。 外部因素肯定會影響您的測試結果。 如有疑問,請進行後續測試。
3. 在沒有足夠流量(或轉化)的情況下進行 A/B 測試
如果您每月獲得一兩個銷售額並進行測試,其中 B 的轉化率比 A 高 15%,您怎麼知道? 沒有什麼變化!
我和下一個人一樣喜歡 A/B 拆分測試,但是如果您的流量很少,則不應該使用它來進行轉換優化。 原因是即使版本 B 好得多,也可能需要數月時間才能達到統計顯著性。
如果您的測試運行了 5 個月——而且沒有獲勝——那麼你就浪費了很多錢。 相反,你應該進行大規模的、徹底的改變。 只需切換到 B。無需測試,只需切換——並註意您的銀行賬戶。
這裡的想法是你要進行大量的提升,比如 50% 或 100%。 您應該立即註意到這種對您的銀行帳戶(或潛在潛在客戶數量)的影響。 時間就是金錢。 不要浪費時間等待需要數月的測試結果。
4. 不基於假設進行測試
我喜歡意大利面。 但是意大利面測試——把它扔到牆上看是否能粘住? 沒那麼多。 測試隨機的想法需要付出巨大的代價。 您正在浪費寶貴的時間和流量。 永遠不要那樣做。 你需要有一個假設。 什麼是假設?
假設是根據有限的證據提出的、可以被證明或反駁的陳述,並用作進一步調查的起點。
這也不應該是“意大利面假設”(即製作隨機陳述)。 您需要適當的轉換研究來發現問題所在,然後提出一個假設來克服它們。
如果您在沒有明確假設的情況下測試 A 與 B,並且 B 以 15% 的優勢獲勝,那很好,但是您學到了什麼? 沒有什麼。 我們想了解我們的觀眾。 這有助於我們改進我們的客戶理論並提出更好的測試。
5. 不向 Google Analytics 發送測試數據
平均值在撒謊。 永遠記住這一點。 如果 A 以 10% 的優勢擊敗 B,那還不是全貌。 您需要對測試數據進行分段。 許多測試工具都內置了結果細分功能,但它仍然無法與您在 Google Analytics 中的功能相提並論。
使用自定義維度或事件,您可以將測試數據發送到 Google Analytics,並以您喜歡的任何方式對其進行細分。 您可以在其上運行高級細分和自定義報告。 它非常有用,它是您從 A/B 測試(包括失敗和無差異測試)中實際學習的方式。
底線:始終將您的測試數據發送到 Google Analytics。 並從結果中剔除廢話。 這是一篇關於如何做到這一點的帖子。
6. 在愚蠢的測試上浪費時間和流量
所以你在測試顏色,是吧? 停止。
沒有最好的顏色。 它總是關於視覺層次結構。 當然,您可以在網上找到有人通過測試顏色發現收益的測試,但它們都是不費腦筋的。 不要浪費時間在簡單的測試上; 只是實施。
您沒有足夠的流量來測試所有內容。 沒有人做。 將您的流量用於高影響力的內容。 測試數據驅動的假設。
7.第一次測試失敗後放棄
你設置了一個測試,但它沒有產生提升。 那好吧。 讓我們嘗試在另一個頁面上運行測試?
沒那麼快! 大多數第一次測試都失敗了。 這是真的。 我知道你不耐煩,我也是,但事實是迭代測試就是它的所在。 您運行測試,從中學習,並改進您的客戶理論和假設。 運行後續測試,從中學習並改進您的假設。 運行後續測試,等等。
這是一個案例研究,其中進行了六次測試(在同一頁面上)才能實現我們滿意的提升。 這就是現實生活中的測試。 批准測試預算的人——你的老闆、你的客戶——需要知道這一點。
如果期望第一次測試將其擊垮,那麼金錢就會被浪費,人們會被解僱。 不必如此。 對於每個人來說,這可能是一大筆錢。 只需運行迭代測試。 這就是錢的所在。
8. 無法理解誤報
統計顯著性並不是唯一需要注意的事情。 您也需要了解誤報。 不耐煩的測試人員希望跳過 A/B 測試並繼續進行 A/B/C/D/E/F/G/H 測試。 是的,現在我們在說話!
為什麼要停在那裡? 谷歌測試了 41 種藍色! 但這不是一個好主意。 您測試的變體越多,誤報的可能性就越大。 在 41 種藍色陰影的情況下,即使在 95% 的置信水平下,誤報的機率也是 88%。
看這個視頻。 你會學到一三件事:
主要要點:不要一次測試太多變體。 無論如何,最好進行簡單的 A/B 測試。 你會更快地得到結果,你會學得更快——更快地改進你的假設。
9. 在重疊流量上同時運行多個測試
您已經找到了一種通過同時運行多個測試來偷工減料的方法:一個在產品頁面上,一個在購物車頁面上,一個在主頁上(同時衡量相同的目標)。 它節省了時間,對吧?
如果您不小心,這可能會扭曲結果。 除非:
- 您懷疑測試之間存在強相互作用。
- 測試之間的流量有很大的重疊。
如果可能存在交互和流量重疊,事情就會變得更加棘手。
如果您想在同一流程中同時測試多個佈局的新版本(例如在結賬的所有三個步驟上運行測試),您最好使用多頁實驗或多變量測試來正確衡量交互和屬性結果.
如果您決定使用重疊流量運行 A/B 測試,請記住流量應始終平均分配。 如果您測試產品頁面 A 與 B 以及結帳頁面 C 與 D,請確保來自 B 的流量在 C 和 D 之間分配 50/50(而不是 25/75)。
10.忽視小收穫
你的治療比對照組高 4%。 “哼,這收益太小了! 我什至不會費心去實施它,”我聽到人們說。
事情是這樣的。 如果您的網站非常好,您就不會一直獲得大量提升。 事實上,大規模的升降機是非常罕見的。 如果您的網站很爛,很容易運行測試,始終獲得 50% 的提升。 但即使這樣也會用完。
大多數獲勝的測試都會帶來小的收益——1%、5%、8%。 有時,1% 的提升可能意味著數百萬的收入。 這一切都取決於我們正在處理的絕對數字。 但重點是:你需要從 12 個月的角度來看待它。
一項測試只是一項測試。 你要做很多很多的測試。 如果您每月將轉化率提高 5%,那麼在 12 個月內將提高 80%。 這就是複利。 這就是數學的運作方式。 百分之八十很多。
所以繼續獲得那些小胜利。 這一切最終都會加起來。
11. 不是一直運行測試
沒有考試的每一天都是浪費的一天。 測試就是學習——了解你的聽眾,了解什麼是有效的,以及為什麼。 您獲得的所有見解都可以用於您的營銷(例如 PPC 廣告)。
你不知道什麼是有效的,直到你測試它。 測試需要時間和流量(很多)。 始終啟動並運行一項測試並不意味著您應該進行垃圾測試。 絕對不。 你仍然需要適當的研究,一個好的假設,等等。
但永遠不要停止優化。
12. 沒有意識到有效性威脅
僅僅因為您有合適的樣本量、置信水平和測試持續時間並不意味著您的測試結果是有效的。 您的測試的有效性存在多種威脅。
儀表效果
這是最常見的問題。 這是測試工具(或儀器)在測試中導致有缺陷的數據的時候。 往往是由於網站上的代碼實現錯誤,會歪曲所有的結果
你真的要注意這一點。 設置測試時,請觀察記錄的每個目標和指標。 如果指標未發送數據(例如“添加到購物車”點擊數據),請停止測試,查找並解決問題,然後通過重置數據重新開始。
歷史效應
外部世界發生了一些事情,導致測試中的數據有缺陷。 這可能是關於您的企業或其中一位高管的醜聞。 這可能是一個特殊的假期(聖誕節、母親節等)。 也許媒體報導會使人們對測試中的變體產生偏見。 任何。 關注世界上正在發生的事情。
選擇效果
當我們錯誤地假設某部分流量代表了全部流量時,就會發生這種情況。
例如,您將促銷流量從您的電子郵件列表發送到您正在運行測試的頁面。 訂閱您列表的人比普通訪問者更喜歡您。 但是現在您優化頁面以處理您的忠實流量,認為它們代表總流量。 這種情況很少見!
斷碼效果
您創建了一種治療方法並進行了推廣。 但是,它不會獲勝或沒有任何區別。 您不知道的是,您的處理在某些瀏覽器和/或設備上顯示不佳。
每當您創建一兩個新處理時,請確保進行質量保證測試,以確保它們在所有瀏覽器和設備中正確顯示。 否則,您將根據有缺陷的數據判斷您的變化。
結論
有很多很棒的工具可以使測試變得容易,但它們並不能為您思考。 統計學可能不是你在大學裡最喜歡的科目,但現在是複習的時候了。
從這 12 個錯誤中學習。 如果您可以避免它們,您將開始在測試方面取得真正的進展。
特色圖片來源