A/B Test 樣本數計算機｜實驗設計與統計檢定

什麼是 A/B 測試樣本數計算？

A/B 測試需要足夠的樣本數才能得出可靠的結論。樣本太少會導致「偽陰性」（漏測真實的改善效果）或「偽陽性」（誤判無效的改動為有效）。提前計算樣本數，可以避免過早結束測試或浪費時間在無意義的測試上。樣本數計算是實驗設計的基礎，確保結果具有統計顯著性。

樣本數計算公式

本計算機使用統計學公式計算所需樣本數：

基本樣本數公式

n = 2 × (Zα/2 + Zβ)² × p(1-p) / δ²

其中：
n = 每組樣本數
Zα/2 = 信心水準對應的 Z 值（95% → 1.96）
Zβ = 檢定力對應的 Z 值（80% → 0.84）
p = 基準轉換率
δ = 最小可偵測差異

MDE 與絕對差異

絕對差異 = 基準轉換率 × MDE

範例：基準轉換率 5%，MDE 10%
絕對差異 = 5% × 10% = 0.5%
代表希望偵測到從 5% 提升到 5.5% 的改變

測試天數計算

測試天數 = 總樣本數 ÷ 日均流量

範例：需要 20,000 總樣本，日均流量 2,000
測試天數 = 20,000 ÷ 2,000 = 10 天
建議至少跑滿 7 天以涵蓋週間週末差異

為什麼要計算樣本數？

避免過早下結論：提前知道需要多少樣本，避免在數據不足時就停止測試，導致錯誤決策
控制實驗成本：知道測試需要多長時間，合理安排資源和時程，避免無限期等待
確保統計有效性：滿足樣本數要求才能宣稱結果具有統計顯著性，讓數據說服力更強
優化實驗設計：根據可接受的 MDE 調整實驗參數，在精確度和效率之間找到平衡
提升團隊信心：用科學方法設計實驗，讓產品決策有數據支持，減少主觀判斷

適用情境

網頁轉換優化：測試著陸頁改版、CTA 按鈕顏色、表單設計等對轉換率的影響
電商產品頁面：測試不同的產品描述、圖片排列、價格顯示方式對加入購物車率的影響
App 功能測試：新功能上線前進行 Feature Flag 測試，評估對用戶留存和活躍度的影響
Email 行銷優化：測試不同的信件主旨、發送時間、內容版型對開信率和點擊率的影響
廣告素材測試：測試不同廣告文案、圖片、影片對 CTR 和轉換的影響
定價策略實驗：測試不同定價方案對購買率和營收的影響，找出最佳定價點

常見情境樣本數參考

以下是不同基準轉換率和 MDE 組合的樣本數參考（95% 信心、80% 檢定力）：

基準轉換率	MDE 10%	MDE 20%
1%	約 156,000/組	約 39,000/組
3%	約 51,000/組	約 13,000/組
5%	約 30,000/組	約 7,700/組
10%	約 14,400/組	約 3,600/組
20%	約 6,400/組	約 1,600/組

轉換率越低、想偵測的差異越小，需要的樣本數就越多。如果樣本數要求過高，可考慮接受較大的 MDE 或提高轉換率較高的指標來測試。

提升實驗效率的方法

選擇較大的 MDE：如果只測試大幅度的改善（如 20% 以上），樣本數可大幅降低，加快測試週期
測試較高轉換率的指標：點擊率通常比購買率高，先測點擊再推估購買，可減少所需樣本
使用多臂老虎機方法：Multi-Armed Bandit 可在測試過程中自動分配更多流量給表現好的版本
分層抽樣提升精確度：將用戶分層（如新舊用戶）後分別測試，減少變異性，降低樣本需求
預過濾受眾：只針對目標用戶群進行測試，減少無關流量對結果的稀釋
使用 CUPED 方法：利用實驗前數據減少變異性，可減少 30-50% 的樣本需求

A/B 測試常見錯誤

過早停止測試：正確做法：即使看到顯著差異也應跑完預定樣本數，「偷看」會大幅增加偽陽性機率
忽略多重比較問題：正確做法：同時測多個變體時，需調整顯著性水準（如 Bonferroni 校正），否則偽陽性會累積
測試時間太短：正確做法：至少跑滿一週涵蓋週間週末差異，避免特定日期的行為偏差影響結果
忽略外部因素：正確做法：考慮季節性、促銷活動、市場事件等外部因素，選擇相對穩定的時期測試
一次改太多變數：正確做法：每次只測一個變數，多變數同時改動無法判斷哪個因素造成影響

常見問題 FAQ

為什麼我的計算結果需要這麼多樣本？

需要的樣本數主要取決於 MDE 的大小。MDE 越小（想偵測越細微的差異），需要的樣本數就呈指數增加。如果樣本數過高不切實際，可以考慮接受較大的 MDE——也就是只測試能帶來較大改善的改動。

沒達到樣本數就看到顯著結果，可以提前結束嗎？

不建議。這種做法叫「偷看」（peeking），會大幅增加偽陽性的機率。如果一定要提前看結果，應該使用「順序檢定」（Sequential Testing）等特殊方法，這些方法會調整顯著性閾值來補償多次檢視。

95% 信心水準是什麼意思？

95% 信心水準代表如果零假設為真（改動沒有效果），你有 5% 的機率會錯誤地宣稱它有效（偽陽性）。這是業界標準，但某些情況下可用 90%（探索性測試）或 99%（高風險決策）。

為什麼建議 80% 的檢定力？

80% 檢定力是效率和準確度的平衡點。這代表如果改動真的有效，有 80% 機率能偵測到，20% 機率會漏測。提高到 90% 會需要約 30% 更多的樣本。對於重要決策可考慮提高檢定力。

MDE 應該設多少？

MDE 應該根據商業價值決定。問自己：這個改善幅度對業務有意義嗎？通常建議 10-20%。如果 5% 的提升就值得投入，那就設 5%；但要準備好需要更多樣本和更長時間。

流量不夠大怎麼辦？

幾個策略：(1) 接受較大的 MDE，只測試可能有大幅改善的改動 (2) 測試較高轉換率的指標如點擊率 (3) 延長測試時間 (4) 使用更高效的方法如 CUPED (5) 聚焦在高流量頁面測試。

A/B Test 樣本數計算機

如何使用 A/B Test 樣本數計算機