A/B Test 樣本數計算機

計算 A/B 測試所需的樣本數,確保實驗結果具有統計顯著性。

適用對象:行銷|指標類型:轉換
%
%

相對於基準的提升百分比。例如輸入 10 代表希望偵測到 10% 的相對提升。

人/天
計算結果:等待輸入
請填入目前轉換率和期望偵測的提升幅度,點擊「計算」按鈕。

如何使用 A/B Test 樣本數計算機

依照以下步驟計算所需樣本數:

  1. 輸入目前轉換率:填入對照組(控制組)的基準轉換率
  2. 設定偵測閾值:決定你希望能偵測到的最小提升幅度(MDE)
  3. 查看結果:系統會計算每組和總共需要的樣本數,以及預估測試時間

什麼是 A/B 測試樣本數計算?

A/B 測試需要足夠的樣本數才能得出可靠的結論。樣本太少會導致「偽陰性」(漏測真實的改善效果)或「偽陽性」(誤判無效的改動為有效)。提前計算樣本數,可以避免過早結束測試或浪費時間在無意義的測試上。樣本數計算是實驗設計的基礎,確保結果具有統計顯著性。

樣本數計算公式

本計算機使用統計學公式計算所需樣本數:

基本樣本數公式

n = 2 × (Zα/2 + Zβ)² × p(1-p) / δ²

其中:
n = 每組樣本數
Zα/2 = 信心水準對應的 Z 值(95% → 1.96)
Zβ = 檢定力對應的 Z 值(80% → 0.84)
p = 基準轉換率
δ = 最小可偵測差異

MDE 與絕對差異

絕對差異 = 基準轉換率 × MDE

範例:基準轉換率 5%,MDE 10%
絕對差異 = 5% × 10% = 0.5%
代表希望偵測到從 5% 提升到 5.5% 的改變

測試天數計算

測試天數 = 總樣本數 ÷ 日均流量

範例:需要 20,000 總樣本,日均流量 2,000
測試天數 = 20,000 ÷ 2,000 = 10 天
建議至少跑滿 7 天以涵蓋週間週末差異

為什麼要計算樣本數?

  • 避免過早下結論:提前知道需要多少樣本,避免在數據不足時就停止測試,導致錯誤決策
  • 控制實驗成本:知道測試需要多長時間,合理安排資源和時程,避免無限期等待
  • 確保統計有效性:滿足樣本數要求才能宣稱結果具有統計顯著性,讓數據說服力更強
  • 優化實驗設計:根據可接受的 MDE 調整實驗參數,在精確度和效率之間找到平衡
  • 提升團隊信心:用科學方法設計實驗,讓產品決策有數據支持,減少主觀判斷

適用情境

  • 網頁轉換優化:測試著陸頁改版、CTA 按鈕顏色、表單設計等對轉換率的影響
  • 電商產品頁面:測試不同的產品描述、圖片排列、價格顯示方式對加入購物車率的影響
  • App 功能測試:新功能上線前進行 Feature Flag 測試,評估對用戶留存和活躍度的影響
  • Email 行銷優化:測試不同的信件主旨、發送時間、內容版型對開信率和點擊率的影響
  • 廣告素材測試:測試不同廣告文案、圖片、影片對 CTR 和轉換的影響
  • 定價策略實驗:測試不同定價方案對購買率和營收的影響,找出最佳定價點

常見情境樣本數參考

以下是不同基準轉換率和 MDE 組合的樣本數參考(95% 信心、80% 檢定力):

基準轉換率MDE 10%MDE 20%
1%約 156,000/組約 39,000/組
3%約 51,000/組約 13,000/組
5%約 30,000/組約 7,700/組
10%約 14,400/組約 3,600/組
20%約 6,400/組約 1,600/組

轉換率越低、想偵測的差異越小,需要的樣本數就越多。如果樣本數要求過高,可考慮接受較大的 MDE 或提高轉換率較高的指標來測試。

提升實驗效率的方法

  • 選擇較大的 MDE:如果只測試大幅度的改善(如 20% 以上),樣本數可大幅降低,加快測試週期
  • 測試較高轉換率的指標:點擊率通常比購買率高,先測點擊再推估購買,可減少所需樣本
  • 使用多臂老虎機方法:Multi-Armed Bandit 可在測試過程中自動分配更多流量給表現好的版本
  • 分層抽樣提升精確度:將用戶分層(如新舊用戶)後分別測試,減少變異性,降低樣本需求
  • 預過濾受眾:只針對目標用戶群進行測試,減少無關流量對結果的稀釋
  • 使用 CUPED 方法:利用實驗前數據減少變異性,可減少 30-50% 的樣本需求

A/B 測試常見錯誤

  • 過早停止測試:正確做法:即使看到顯著差異也應跑完預定樣本數,「偷看」會大幅增加偽陽性機率
  • 忽略多重比較問題:正確做法:同時測多個變體時,需調整顯著性水準(如 Bonferroni 校正),否則偽陽性會累積
  • 測試時間太短:正確做法:至少跑滿一週涵蓋週間週末差異,避免特定日期的行為偏差影響結果
  • 忽略外部因素:正確做法:考慮季節性、促銷活動、市場事件等外部因素,選擇相對穩定的時期測試
  • 一次改太多變數:正確做法:每次只測一個變數,多變數同時改動無法判斷哪個因素造成影響

相關名詞

最小可偵測效果 (MDE)
你希望這次測試能夠偵測到的最小提升幅度。MDE 越小,需要的樣本數越多。
信心水準 (Confidence Level)
避免「偽陽性」的機率。95% 信心水準代表只有 5% 機率會誤判無效改動為有效。
統計檢定力 (Power)
偵測到真實差異的能力。80% 檢定力代表如果真的有效果,有 80% 機率能偵測到。
p-value
假設零假設為真時,觀察到當前或更極端結果的機率。p < 0.05 通常被視為統計顯著。
轉換率
用戶完成目標行為的比例。是 A/B 測試最常用的主要指標。
順序檢定 (Sequential Testing)
允許在測試過程中多次檢視結果的方法,但需使用特殊的統計校正來控制偽陽性。

常見問題 FAQ

為什麼我的計算結果需要這麼多樣本?

需要的樣本數主要取決於 MDE 的大小。MDE 越小(想偵測越細微的差異),需要的樣本數就呈指數增加。如果樣本數過高不切實際,可以考慮接受較大的 MDE——也就是只測試能帶來較大改善的改動。

沒達到樣本數就看到顯著結果,可以提前結束嗎?

不建議。這種做法叫「偷看」(peeking),會大幅增加偽陽性的機率。如果一定要提前看結果,應該使用「順序檢定」(Sequential Testing)等特殊方法,這些方法會調整顯著性閾值來補償多次檢視。

95% 信心水準是什麼意思?

95% 信心水準代表如果零假設為真(改動沒有效果),你有 5% 的機率會錯誤地宣稱它有效(偽陽性)。這是業界標準,但某些情況下可用 90%(探索性測試)或 99%(高風險決策)。

為什麼建議 80% 的檢定力?

80% 檢定力是效率和準確度的平衡點。這代表如果改動真的有效,有 80% 機率能偵測到,20% 機率會漏測。提高到 90% 會需要約 30% 更多的樣本。對於重要決策可考慮提高檢定力。

MDE 應該設多少?

MDE 應該根據商業價值決定。問自己:這個改善幅度對業務有意義嗎?通常建議 10-20%。如果 5% 的提升就值得投入,那就設 5%;但要準備好需要更多樣本和更長時間。

流量不夠大怎麼辦?

幾個策略:(1) 接受較大的 MDE,只測試可能有大幅改善的改動 (2) 測試較高轉換率的指標如點擊率 (3) 延長測試時間 (4) 使用更高效的方法如 CUPED (5) 聚焦在高流量頁面測試。