統計功效:您需要了解的 A/B 測試知識
已發表: 2021-07-22多年前,當我第一次開始拆分測試時,我認為每個測試都值得運行。 無論是更改按鈕顏色還是標題都無關緊要 - 我想運行該測試。
我熱情但被誤導的信念是,我只需要找到要優化的方面、設置工具並開始測試。 在那之後,我想,這只是等待臭名昭著的 95% 統計顯著性的問題。
我錯了。
在實施“具有統計顯著性”的變化後,我的銷售額沒有提升,因為沒有真正的提升——“這是想像中的”。 其中許多測試一開始就注定失敗。 我犯了常見的統計錯誤,比如沒有測試完整的商業周期或忽略了影響大小。
我也沒有考慮另一種可能性:“動力不足”的測試可能會導致我錯過會產生“真正提升”的更改。
了解統計功效或測試的“敏感性”是測試前計劃的重要組成部分,將幫助您對站點實施更多創收更改。
什麼是統計功效?
統計功效是如果存在一定量級的真實影響,則在 alpha (α) 水平上觀察到統計顯著性結果的概率。 這是您在實際存在差異時檢測測試變體之間差異的能力。
統計能力是您在轉化研究中付出的辛勤工作的最高成就,以及針對對照的適當優先處理。 這就是權力如此重要的原因——它可以提高你發現和衡量實際存在的差異的能力。
統計功效 (1 – β) 與 II 類誤差 (β) 呈反比關係。 這也是如何控制假陰性的可能性。 我們希望將 I 類錯誤的風險降低到可接受的水平,同時保留足夠的能力來檢測測試處理實際上更好的改進。
稍後詳述,找到正確的平衡既是藝術又是科學。 如果您的其中一個變體更好,則適當供電的測試很可能會檢測到改進。 如果您的測試功能不足,您將無法拒絕錯誤的空值的風險高得令人無法接受。
在我們進入統計功效的組成部分之前,讓我們回顧一下我們試圖解釋的錯誤。
I 型和 II 型錯誤
第一類錯誤
I 類錯誤或假陽性拒絕實際為真的原假設。 您的測試測量實際上不存在的變體之間的差異。 觀察到的差異 - 測試處理優於對照 - 是虛幻的,並且是由於偶然或錯誤造成的。
由希臘字母 (α) 表示的 I 類錯誤的概率是 A/B 測試的顯著性水平。 如果您以 95% 的置信度進行測試,則意味著您出現 I 類錯誤的概率為 5% (1.0 – 0.95 = 0.05)。
如果 5% 太高,您可以通過將置信水平從 95% 提高到 99% 甚至更高來降低誤報的概率。 反過來,這會將您的 alpha 從 5% 降低到 1%。 但是,降低誤報概率是有代價的。
通過提高您的置信度,出現假陰性(II 類錯誤)的風險會增加。 這是由於 alpha 和 beta 之間的反比關係——降低一個會增加另一個。
降低 alpha(例如從 5% 到 1%)會降低測試的統計功效。 當您降低 alpha 值時,臨界區域會變小,而較小的臨界區域意味著拒絕零值的可能性較低,因此功率水平較低。 相反,如果您需要更多功率,一種選擇是增加您的 alpha (例如從 5% 到 10%)。
第二類錯誤
II 類錯誤,或假陰性,是未能拒絕實際錯誤的零假設。 當您的測試沒有發現實際上存在的變體有顯著改進時,就會出現類型 II 錯誤。
Beta (β) 是犯第二類錯誤的概率,與統計功效 (1 – β) 成反比。 如果 20% 是犯第二類錯誤 (β) 的風險,那麼您的功率水平為 80% (1.0 – 0.2 = 0.8)。 對於 90% 或 95% 的功率水平,您可以將誤報風險降低至 10% 或 5%。
II 類錯誤由您選擇的功率級別控制:功率級別越高,發生 II 類錯誤的概率越低。 由於 alpha 和 beta 具有相反的關係,如果其他條件相同,運行極低的 alpha(例如 0.001%)將大大增加發生 II 類錯誤的風險。
統計功效是一種平衡行為,需要對每個測試進行權衡。 正如 Paul D. Ellis 所說,“一個經過深思熟慮的研究設計是一種評估犯每種類型錯誤的相對風險,然後在它們之間取得適當平衡的設計。”
談到統計功效,哪些變量會影響這種平衡? 讓我們來看看。
影響統計功效的變量
在考慮影響統計功效的每個變量時,請記住:主要目標是控制錯誤率。 您可以拉動四個槓桿:
- 樣本量
- 最小利益效應(MEI,或最小可檢測效應)
- 顯著性水平 (α)
- 所需功率電平(隱含的 II 類錯誤率)
1. 樣本量
800 磅重的大猩猩的統計能力是樣本量。 通過擁有足夠大的樣本量,您可以做很多事情。 訣竅是計算一個樣本量,它可以為您的測試提供足夠的支持,但不要大到使測試運行時間超過必要的時間。 (更長的測試成本更高,並且會降低測試速度。)
您需要有足夠的訪問者訪問每個變體以及您要分析的每個細分市場。 樣本量的預測試計劃有助於避免測試動力不足; 否則,您可能不會意識到您運行了太多變體或細分,直到為時已晚,留下訪問者數量較少的測試後組。
期望在合理的時間內獲得具有統計意義的結果——通常至少是一整週或商業周期。 一般準則是運行測試至少兩週但不超過四周,以避免因樣本污染和 cookie 刪除而導致的問題。
建立最小樣本量和預設時間範圍可以避免簡單地運行測試的常見錯誤,直到它產生統計上的顯著差異,然後停止它(偷看)。
2. 最小利息效應(MEI)
最小關注效應 (MEI) 是您要檢測的結果差異的幅度(或大小)。
更小的差異更難檢測,需要更大的樣本量才能保持相同的功效; 可以用較小的樣本量可靠地檢測到更大規模的影響。 儘管如此,正如 Georgi Georgiev 所指出的,那些來自小樣本量的巨大“改進”可能並不可靠:
問題是,通常情況下,沒有適當的停止規則,也沒有固定的樣本量,因此報告的名義 p 值和置信區間 (CI) 毫無意義。 從某種意義上說,可以說結果是“精心挑選的”。
如果有適當的停止規則或固定的樣本量,那麼從非常小的樣本量觀察到 500% 的改進很可能伴隨著 95% 的 CI,比如 +5% 到 +995%:信息量不大。
可視化功率和效果大小之間關係的一個好方法是 Georgiev 的這個插圖,他將功率比作漁網:
3. 統計意義
正如格奧爾基耶夫解釋的那樣:
如果假設原假設為真,我們極不可能觀察到這樣的結果,則認為觀察到的測試結果具有統計顯著性。
然後,這允許我們以另一種方式進行推理,並說我們有證據反對原假設,在這種情況下,不會觀察到這種極端結果或更極端的結果,如果原點為真(p 值)。
該定義通常被簡化為更簡單的解釋:如果您對兩個著陸頁的拆分測試有 95% 的置信度支持變異,那麼觀察到的改進是偶然導致的可能性只有 5%,或者有 95% 的可能性是差異不是由於隨機機會造成的。
格奧爾基耶夫爭辯說:“許多人採取嚴格意義上的'觀察到的改進是由隨機機會導致的',會鄙視這樣的說法。” “我們需要記住,讓我們估計這些概率的是假設 null 為真。”
5% 是在線測試中常見的起始顯著性水平,如前所述,是犯第一類錯誤的概率。 使用 5% 的 alpha 進行測試意味著您願意接受錯誤拒絕原假設的 5% 概率。
如果你把你的 alpha 從 5% 降低到 1%,你同時增加了犯第二類錯誤的可能性,假設其他一切都一樣。 增加 II 類錯誤的概率會降低測試的功效。
4. 所需功率電平
對於 80% 的功效,您有 20% 的概率無法檢測到給定感興趣幅度的實際差異。 如果 20% 風險太大,您可以將此概率降低到 10%、5% 甚至 1%,這將分別將您的統計功效提高到 90%、95% 或 99%。
在考慮通過以 95% 或 99% 的功效運行測試來解決所有問題之前,請了解功效的每次增加都需要相應地增加樣本量和測試需要運行的時間(您可以使用的時間)浪費運行失敗的測試 - 和失去銷售 - 只是為了額外的一兩個百分點的統計概率)。
那麼你真正需要多少功率呢? 轉換優化中可接受的誤報風險的常見起點是 20%,這會返回 80% 的功率水平。
關於 80% 的功效水平沒有任何確定性,但統計學家雅各布·科恩認為 80% 代表了 alpha 和 beta 風險之間的合理平衡。 換句話說,根據埃利斯的說法,“研究犯第二類錯誤的概率不應超過 20%。”
歸根結底,這是一個問題:
- 在錯過真正的改進時,您願意承擔多少風險;
- 每個變體達到所需功效所需的最小樣本量。
如何計算測試的統計功效
使用樣本量計算器或 G*power,您可以插入您的值以找出運行足夠強大的測試所需的條件。 如果您知道三個輸入,則可以計算第四個。
在這種情況下,使用 G*Power,我們得出結論,每個變體需要 681 名訪問者的樣本量。 這是使用我們輸入的 80% 功效和 5% alpha(95% 顯著性)計算得出的。 我們知道我們的控件有 14% 的轉化率,並希望我們的變體能達到 19%:
以同樣的方式,如果我們知道每個變體的樣本量、alpha 和所需的功效水平(例如 80%),我們可以找到實現該功效所需的 MEI——在本例中為 19%:
如果不能增加樣本量怎麼辦?
總有一天你需要更多的力量,但增加樣本量不是一種選擇。 這可能是由於您當前正在運行的測試中的一小部分或頁面的訪問量較低。
假設您將參數插入 A/B 測試計算器,它需要超過 8,000 的樣本量:
如果您無法達到該最低要求——或者需要數月時間才能達到——一個選擇是增加 MEI。 在此示例中,將 MEI 從 10% 增加到 25% 將每個變體的樣本大小減少到 1,356:
但是,您多久能夠達到 25% 的 MEI? 僅僅為了產生巨大的影響,你會錯過多少價值? 更好的選擇通常是將置信水平降低到 90%——只要您對 10% 的 I 類錯誤的可能性感到滿意:
那你會從哪裡開始? Georgiev 承認,CRO 分析師經常“從樣本量開始(測試需要按 <半任意數>> 週完成)然後隨機輕推槓桿,直到輸出合適。”
取得適當的平衡:
- 需要一個深思熟慮的過程來調整哪些槓桿;
- 從測量測試變量的任何變化的 ROI 的潛在變化中獲益。
結論
統計功效可幫助您控制錯誤,讓您對測試結果更有信心,並大大提高檢測實際顯著影響的機會。
通過遵循以下建議來利用統計能力:
- 運行您的測試兩到四個星期。
- 使用測試計算器(或 G*Power)確保正確供電的測試。
- 滿足最小樣本量要求。
- 如有必要,測試更大的變化是否有效。
- 只有在滿足最小樣本量要求後才使用統計顯著性。
- 為所有變體和測試後部分規劃足夠的功效。