什麼是 A/B 測試樣本數計算?
A/B 測試需要足夠的樣本數才能得出可靠的結論。樣本太少會導致「偽陰性」(漏測真實的改善效果)或「偽陽性」(誤判無效的改動為有效)。提前計算樣本數,可以避免過早結束測試或浪費時間在無意義的測試上。樣本數計算是實驗設計的基礎,確保結果具有統計顯著性。
樣本數計算公式
本計算機使用統計學公式計算所需樣本數:
基本樣本數公式
n = 2 × (Zα/2 + Zβ)² × p(1-p) / δ²
其中:
n = 每組樣本數
Zα/2 = 信心水準對應的 Z 值(95% → 1.96)
Zβ = 檢定力對應的 Z 值(80% → 0.84)
p = 基準轉換率
δ = 最小可偵測差異
MDE 與絕對差異
絕對差異 = 基準轉換率 × MDE
範例:基準轉換率 5%,MDE 10%
絕對差異 = 5% × 10% = 0.5%
代表希望偵測到從 5% 提升到 5.5% 的改變
測試天數計算
測試天數 = 總樣本數 ÷ 日均流量
範例:需要 20,000 總樣本,日均流量 2,000
測試天數 = 20,000 ÷ 2,000 = 10 天
建議至少跑滿 7 天以涵蓋週間週末差異
為什麼要計算樣本數?
- 避免過早下結論:提前知道需要多少樣本,避免在數據不足時就停止測試,導致錯誤決策
- 控制實驗成本:知道測試需要多長時間,合理安排資源和時程,避免無限期等待
- 確保統計有效性:滿足樣本數要求才能宣稱結果具有統計顯著性,讓數據說服力更強
- 優化實驗設計:根據可接受的 MDE 調整實驗參數,在精確度和效率之間找到平衡
- 提升團隊信心:用科學方法設計實驗,讓產品決策有數據支持,減少主觀判斷
適用情境
- 網頁轉換優化:測試著陸頁改版、CTA 按鈕顏色、表單設計等對轉換率的影響
- 電商產品頁面:測試不同的產品描述、圖片排列、價格顯示方式對加入購物車率的影響
- App 功能測試:新功能上線前進行 Feature Flag 測試,評估對用戶留存和活躍度的影響
- Email 行銷優化:測試不同的信件主旨、發送時間、內容版型對開信率和點擊率的影響
- 廣告素材測試:測試不同廣告文案、圖片、影片對 CTR 和轉換的影響
- 定價策略實驗:測試不同定價方案對購買率和營收的影響,找出最佳定價點
常見情境樣本數參考
以下是不同基準轉換率和 MDE 組合的樣本數參考(95% 信心、80% 檢定力):
| 基準轉換率 | MDE 10% | MDE 20% |
|---|---|---|
| 1% | 約 156,000/組 | 約 39,000/組 |
| 3% | 約 51,000/組 | 約 13,000/組 |
| 5% | 約 30,000/組 | 約 7,700/組 |
| 10% | 約 14,400/組 | 約 3,600/組 |
| 20% | 約 6,400/組 | 約 1,600/組 |
轉換率越低、想偵測的差異越小,需要的樣本數就越多。如果樣本數要求過高,可考慮接受較大的 MDE 或提高轉換率較高的指標來測試。
提升實驗效率的方法
- 選擇較大的 MDE:如果只測試大幅度的改善(如 20% 以上),樣本數可大幅降低,加快測試週期
- 測試較高轉換率的指標:點擊率通常比購買率高,先測點擊再推估購買,可減少所需樣本
- 使用多臂老虎機方法:Multi-Armed Bandit 可在測試過程中自動分配更多流量給表現好的版本
- 分層抽樣提升精確度:將用戶分層(如新舊用戶)後分別測試,減少變異性,降低樣本需求
- 預過濾受眾:只針對目標用戶群進行測試,減少無關流量對結果的稀釋
- 使用 CUPED 方法:利用實驗前數據減少變異性,可減少 30-50% 的樣本需求
A/B 測試常見錯誤
- 過早停止測試:正確做法:即使看到顯著差異也應跑完預定樣本數,「偷看」會大幅增加偽陽性機率
- 忽略多重比較問題:正確做法:同時測多個變體時,需調整顯著性水準(如 Bonferroni 校正),否則偽陽性會累積
- 測試時間太短:正確做法:至少跑滿一週涵蓋週間週末差異,避免特定日期的行為偏差影響結果
- 忽略外部因素:正確做法:考慮季節性、促銷活動、市場事件等外部因素,選擇相對穩定的時期測試
- 一次改太多變數:正確做法:每次只測一個變數,多變數同時改動無法判斷哪個因素造成影響
相關名詞
- 最小可偵測效果 (MDE)
- 你希望這次測試能夠偵測到的最小提升幅度。MDE 越小,需要的樣本數越多。
- 信心水準 (Confidence Level)
- 避免「偽陽性」的機率。95% 信心水準代表只有 5% 機率會誤判無效改動為有效。
- 統計檢定力 (Power)
- 偵測到真實差異的能力。80% 檢定力代表如果真的有效果,有 80% 機率能偵測到。
- p-value
- 假設零假設為真時,觀察到當前或更極端結果的機率。p < 0.05 通常被視為統計顯著。
- 轉換率
- 用戶完成目標行為的比例。是 A/B 測試最常用的主要指標。
- 順序檢定 (Sequential Testing)
- 允許在測試過程中多次檢視結果的方法,但需使用特殊的統計校正來控制偽陽性。
常見問題 FAQ
為什麼我的計算結果需要這麼多樣本?
需要的樣本數主要取決於 MDE 的大小。MDE 越小(想偵測越細微的差異),需要的樣本數就呈指數增加。如果樣本數過高不切實際,可以考慮接受較大的 MDE——也就是只測試能帶來較大改善的改動。
沒達到樣本數就看到顯著結果,可以提前結束嗎?
不建議。這種做法叫「偷看」(peeking),會大幅增加偽陽性的機率。如果一定要提前看結果,應該使用「順序檢定」(Sequential Testing)等特殊方法,這些方法會調整顯著性閾值來補償多次檢視。
95% 信心水準是什麼意思?
95% 信心水準代表如果零假設為真(改動沒有效果),你有 5% 的機率會錯誤地宣稱它有效(偽陽性)。這是業界標準,但某些情況下可用 90%(探索性測試)或 99%(高風險決策)。
為什麼建議 80% 的檢定力?
80% 檢定力是效率和準確度的平衡點。這代表如果改動真的有效,有 80% 機率能偵測到,20% 機率會漏測。提高到 90% 會需要約 30% 更多的樣本。對於重要決策可考慮提高檢定力。
MDE 應該設多少?
MDE 應該根據商業價值決定。問自己:這個改善幅度對業務有意義嗎?通常建議 10-20%。如果 5% 的提升就值得投入,那就設 5%;但要準備好需要更多樣本和更長時間。
流量不夠大怎麼辦?
幾個策略:(1) 接受較大的 MDE,只測試可能有大幅改善的改動 (2) 測試較高轉換率的指標如點擊率 (3) 延長測試時間 (4) 使用更高效的方法如 CUPED (5) 聚焦在高流量頁面測試。