A/B 테스트 샘플 크기 계산기

A/B 테스트 샘플 크기 계산이란?

A/B 테스트는 신뢰할 수 있는 결론을 도출하기 위해 충분한 샘플 크기가 필요합니다. 샘플이 너무 적으면 "위음성"(실제 개선을 놓침) 또는 "위양성"(효과 없는 변경을 효과적이라고 오인)으로 이어집니다. 사전에 샘플 크기를 계산하면 테스트를 너무 일찍 종료하거나 무의미한 테스트에 시간을 낭비하는 것을 방지합니다. 샘플 크기 계산은 실험 설계의 기초이며, 통계적으로 유의미한 결과를 보장합니다.

샘플 크기 계산 공식

본 계산기는 통계학적 공식으로 샘플 크기를 계산합니다:

기본 샘플 크기 공식

n = 2 × (Zα/2 + Zβ)² × p(1-p) / δ²

여기서:
n = 그룹당 샘플 크기
Zα/2 = 신뢰 수준에 해당하는 Z값 (95% → 1.96)
Zβ = 검정력에 해당하는 Z값 (80% → 0.84)
p = 기준 전환율
δ = 최소 감지 차이

MDE와 절대 차이

절대 차이 = 기준 전환율 × MDE

예시: 기준율 5%, MDE 10%
절대 차이 = 5% × 10% = 0.5%
이는 5%에서 5.5%로의 변화를 감지한다는 의미

테스트 일수 계산

테스트 일수 = 총 샘플 ÷ 일일 트래픽

예시: 필요한 총 샘플 20,000, 일일 트래픽 2,000
테스트 일수 = 20,000 ÷ 2,000 = 10일
평일/주말 차이를 커버하기 위해 최소 7일 권장

왜 샘플 크기를 계산해야 하나요?

조기 결론 방지:필요한 샘플 수를 사전에 파악하여 데이터 부족으로 인한 잘못된 결정 방지
실험 비용 통제:테스트에 필요한 기간을 파악하고 리소스와 일정을 합리적으로 계획, 무기한 대기 방지
통계적 타당성 보장:샘플 요건을 충족하면 통계적으로 유의미한 결과를 주장할 수 있어 데이터의 설득력 증가
실험 설계 최적화:허용 가능한 MDE를 기반으로 실험 파라미터 조정, 정밀도와 효율성 간의 균형 찾기
팀 신뢰 구축:과학적 방법으로 실험을 설계하여 제품 결정에 데이터 지원 제공, 주관적 판단 감소

활용 시나리오

웹사이트 전환 최적화:랜딩 페이지 개편, CTA 버튼 색상, 폼 디자인 등이 전환율에 미치는 영향 테스트
이커머스 상품 페이지:다양한 상품 설명, 이미지 레이아웃, 가격 표시 방식이 장바구니 추가율에 미치는 영향 테스트
앱 기능 테스트:새 기능 출시 전 Feature Flag 테스트를 실행하여 사용자 유지율과 참여도에 미치는 영향 평가
이메일 마케팅 최적화:다양한 제목, 발송 시간, 콘텐츠 레이아웃이 개봉률과 클릭률에 미치는 영향 테스트
광고 소재 테스트:다양한 광고 카피, 이미지, 동영상이 CTR과 전환에 미치는 영향 테스트
가격 전략 실험:다양한 가격 플랜이 구매율과 매출에 미치는 영향을 테스트하여 최적의 가격 포인트 발견

일반적인 시나리오의 샘플 크기 참고

다음은 다양한 기준 전환율과 MDE 조합에 대한 샘플 크기 참고입니다 (95% 신뢰, 80% 검정력):

기준율	MDE 10%	MDE 20%
1%	약 156,000/그룹	약 39,000/그룹
3%	약 51,000/그룹	약 13,000/그룹
5%	약 30,000/그룹	약 7,700/그룹
10%	약 14,400/그룹	약 3,600/그룹
20%	약 6,400/그룹	약 1,600/그룹

전환율이 낮을수록, 감지하려는 차이가 작을수록 더 많은 샘플이 필요합니다. 샘플 요건이 너무 높으면 더 큰 MDE를 수용하거나 전환율이 높은 지표를 테스트하는 것을 고려하세요.

실험 효율을 높이는 방법

더 큰 MDE 선택:큰 개선(예: 20% 이상)만 테스트하면 샘플 크기가 크게 감소하여 테스트 사이클 가속
더 높은 전환율 지표 테스트:클릭률은 보통 구매율보다 높음. 먼저 클릭을 테스트하고 구매를 추정하여 필요 샘플 감소
Multi-Armed Bandit 방법 사용:Multi-Armed Bandit은 테스트 중 성과가 좋은 버전에 자동으로 더 많은 트래픽 할당
층화 샘플링으로 정밀도 향상:사용자를 층화(예: 신규 vs 기존)하여 별도 테스트, 변동성과 샘플 요건 감소
오디언스 사전 필터링:타겟 사용자 그룹에서만 테스트하여 무관한 트래픽으로 인한 결과 희석 감소
CUPED 방법 사용:실험 전 데이터를 사용하여 변동성 감소, 샘플 요건 30-50% 절감 가능

A/B 테스트 흔한 실수

테스트 조기 중단:올바른 방법: 유의미한 차이가 보여도 계획된 샘플 크기를 완료. "피킹"은 위양성 비율을 크게 증가
다중 비교 문제 무시:올바른 방법: 여러 변형을 동시에 테스트할 때 유의 수준 조정(예: Bonferroni 보정), 그렇지 않으면 위양성 누적
테스트 기간이 너무 짧음:올바른 방법: 평일/주말 차이를 커버하기 위해 최소 1주일 실행, 특정 날짜의 행동 편향이 결과에 영향 주는 것 방지
외부 요인 무시:올바른 방법: 계절성, 프로모션, 시장 이벤트 등 외부 요인 고려, 비교적 안정적인 기간에 테스트
한 번에 너무 많은 변수 변경:올바른 방법: 한 번에 하나의 변수만 테스트. 여러 동시 변경은 어떤 요인이 영향을 미쳤는지 판단 불가능

자주 묻는 질문

계산 결과가 이렇게 많은 샘플을 필요로 하는 이유는?

필요한 샘플 크기는 주로 MDE 크기에 따라 달라집니다. MDE가 작을수록(더 미세한 차이 감지) 필요한 샘플이 기하급수적으로 증가합니다. 샘플 크기가 비현실적으로 높다면 더 큰 MDE를 수용하는 것을 고려하세요 — 즉, 더 큰 개선을 가져올 수 있는 변경만 테스트합니다.

샘플 크기에 도달하기 전에 유의미한 결과가 보이면 조기 종료해도 되나요?

권장하지 않습니다. "피킹(peeking)"이라고 불리는 이 행위는 위양성 비율을 크게 증가시킵니다. 결과를 일찍 확인해야 한다면 순차 테스트(Sequential Testing) 같은 전문 방법을 사용하세요. 이 방법은 여러 번 확인을 보정하기 위해 유의성 임계값을 조정합니다.

95% 신뢰 수준은 무엇을 의미하나요?

95% 신뢰 수준은 귀무가설이 참(변경에 효과 없음)일 때 효과적이라고 잘못 주장할 확률(위양성)이 5%에 불과함을 의미합니다. 이것이 업계 표준이지만, 90%(탐색적 테스트) 또는 99%(고위험 결정)를 사용하는 경우도 있습니다.

왜 80% 검정력이 권장되나요?

80% 검정력은 효율성과 정확성의 균형점입니다. 변경이 정말 효과적이라면 80%의 확률로 감지하고, 20%의 확률로 놓친다는 의미입니다. 90%로 올리면 약 30% 더 많은 샘플이 필요합니다. 중요한 결정에는 더 높은 검정력을 고려하세요.

MDE는 어떻게 설정해야 하나요?

MDE는 비즈니스 가치를 기반으로 결정해야 합니다. 스스로 질문하세요: 이 개선율이 비즈니스에 의미가 있는가? 일반적으로 10-20%가 권장됩니다. 5%의 개선이 투자할 가치가 있다면 5%로 설정하세요; 다만 더 많은 샘플과 더 긴 테스트 시간을 준비해야 합니다.

트래픽이 너무 적으면 어떻게 하나요?

몇 가지 전략: (1) 더 큰 MDE 수용, 큰 개선을 가져올 수 있는 변경만 테스트 (2) 클릭률 같은 더 높은 전환율 지표 테스트 (3) 테스트 기간 연장 (4) CUPED 같은 더 효율적인 방법 사용 (5) 고트래픽 페이지에서 테스트에 집중.

A/B 테스트 샘플 크기 계산기