A/B 테스트 표본 크기 계산기
출시 전 A/B 테스트를 계획하세요. 기준 전환율, 최소 탐지 가능 효과(MDE), 유의 수준(알파) 및 검정력(1 마이너스 베타)을 입력하여 변형당 필요한 표본 크기, 총 표본 크기 및 일일 트래픽에 따른 테스트 소요 기간을 확인하세요.
광고 차단기로 인해 광고를 표시할 수 없습니다
MiniWebtool은 광고로 무료로 운영됩니다. 이 도구가 도움이 되었다면 Premium(광고 제거 + 더 빠름)으로 지원하시거나 MiniWebtool.com을 허용 목록에 추가한 뒤 새로고침하세요.
- 또는 Premium(광고 없음)으로 업그레이드
- MiniWebtool.com 광고를 허용한 다음 새로고침하세요
A/B 테스트 표본 크기 계산기 정보
A/B 테스트 표본 크기 계산기는 테스트를 시작하기 전에 필요한 리소스를 미리 계획할 수 있도록 도와줍니다. 기준 전환율, 검증하고자 하는 최소 탐지 가능 효과(MDE), 원하는 유의 수준(알파) 및 통계적 검정력을 입력하면, 계산기가 각 변동군별 필요한 표본 크기와 총 표본 크기를 계산해 드립니다. 아울러 사용자가 설정한 일일 트래픽 양과 실험 할당 비율을 바탕으로 예상 테스트 기간을 자동으로 계산해 주며, 표본 크기 변화에 따른 검정력 추이를 보여주는 검정력 곡선, 다양한 MDE 대안들을 한눈에 비교할 수 있는 민감도 표, 변동군별 트래픽 분배 시각화 바, 직관적으로 이해할 수 있는 실현 가능성 판정 결과 등을 통합적으로 제공합니다. 본 계산기는 전환율 중심의 A/B 테스트(두 비율 z-test, Cohen 정형화 방식)에 맞춰 제작되었으며, 변동군이 여러 개인 다변량 테스트를 위한 본페로니 교정 옵션도 제공합니다.
사용 방법
- 최근 대표적인 기간 동안 측정된 현재 대조군(A)의 기준 전환율을 입력합니다.
- 의사 결정에 실질적인 영향을 미칠 수 있는 최소한의 개선 폭인 최소 탐지 가능 효과(MDE)를 설정합니다. 사용자의 필요에 따라 상대적 백분율(%)과 절대적 퍼센트 포인트(pp) 중 선택하여 전환할 수 있습니다.
- 유의 수준(알파)을 선택합니다. 업계 표준값은 5%(신뢰도 95%)입니다.
- 통계적 검정력을 선택합니다. 업계 표준값은 80%이며, 비즈니스상 매우 중요하고 임팩트가 큰 배포의 경우 90%까지 높여서 설정하는 것을 권장합니다.
- 양측 테스트(대조군 A와 변동군 B의 차이가 양방향 모두로 발생할 수 있음을 가정하는 방식, 기본값) 또는 단측 테스트(B가 A를 이기는 단일 방향 가설만 인정하는 방식) 중 하나를 선택합니다.
- 다변량 테스트를 진행하는 경우 대조군을 포함한 전체 변동군의 수를 지정하십시오. 계산기가 자동으로 본페로니 교정을 적용하여 표본 크기를 조절합니다.
- 해당 페이지에 유입되는 일일 방문자 수와 그중 전체 실험으로 유도할 트래픽 할당 비율을 입력합니다.
- 표본 크기 계산하기 버튼을 클릭하여 변동군별 및 총 표본 크기, 예상 테스트 기간, 검정력 곡선, MDE 민감도 표 및 단계별 상세 수학 계산 내역을 확인합니다.
사용된 수학 공식 (두 비율의 검정력 계산 공식)
p₂ = p₁ × (1 + MDE_relative) 또는 p₂ = p₁ + MDE_absolute
p̄ = (p₁ + p₂) / 2 (귀무가설 H₀ 하에서의 합동 비율)
SD₀ = √[ 2 × p̄ × (1 − p̄) ] (귀무가설 하에서의 표준편차)
SD₁ = √[ p₁(1 − p₁) + p₂(1 − p₂) ] (대립가설 하에서의 표준편차)
n / arm = (zα/2 × SD₀ + zβ × SD₁)² / (p₂ − p₁)²
단측 테스트의 경우 zα/2 대신 zα를 사용합니다. 하나의 대조군에 대응하는 K개의 변동군이 있는 경우 α 대신 α / (K − 1)을 적용합니다 (본페로니 교정).
본 표본 크기 계산기만의 특별한 장점
- 제출 전 실시간 미리보기 제공 — 값을 입력하거나 수정할 때마다 키스트로크 단위로 변동군별 표본 크기, 총 방문자 수, 목표 전환율, 예상 기간이 즉각 업데이트됩니다.
- 직관적인 실시간 테스트 기간 계산 — 단순히 "31,000명의 방문자가 필요합니다"라는 추상적인 결과 대신, "일일 4,000명이 참여할 때 테스트가 8일 동안 진행됩니다"와 같이 실제 업무에 직접 와닿는 일정을 계산해 줍니다.
- 애니메이션이 가미된 검정력 곡선 — 현재 설정한 표본 크기가 검정력 곡선 위의 어느 지점에 위치해 있는지, 그리고 트래픽을 한 주 더 모았을 때 검정력이 얼마나 더 확보될 수 있는지를 시각적으로 보여줍니다.
- MDE 민감도 비교 테이블 — 탐지하고자 하는 리프트 목표치(2%, 5%, 10%, 15%, 20%, 25%)에 따라 표본 크기 비용이 어떻게 변화하는지 나란히 비교해 주므로, 실행 가능한 최적의 리프트 목표를 선택하는 데 도움을 줍니다.
- 상대적 또는 절대적 MDE 지원 — 제품 및 마케팅 팀이 리프트 목표를 설정할 때 가장 자주 활용하는 두 가지 정형화 방식을 클릭 한 번으로 손쉽게 전환할 수 있습니다.
- 본페로니 교정을 적용한 다변량 테스트 지원 — A/B/C 또는 A/B/C/D 테스트 등 여러 변동군을 동시에 테스트할 때 필요한 통계적 보정을 자동으로 처리합니다. 시중의 많은 계산기들이 다변량 입력값에도 단순 A/B 통계 공식을 그대로 사용하여 오류를 범하는 것과 대조적입니다.
- 트래픽 할당 비율 시각화 — 전체 실험 트래픽이 대조군과 각각의 변동군 사이에 어떻게 나뉘어 들어가는지 누적 바 차트 형태로 직관적으로 보여줍니다.
- 쉬운 표현의 실현 가능성 판정 — 테스트 속도가 너무 느리거나 리소스가 부족해 실패할 우려가 있는 시나리오를 시작 전에 미리 감지하여 초록/노랑/빨강 배너로 경고해 줍니다.
- 빠른 시나리오 프리셋 — 이커머스, SaaS, 이메일, 모바일 앱 설치 등 각 비즈니스 환경의 전형적인 벤치마크 기준값을 클릭 한 번으로 손쉽게 불러올 수 있습니다.
실현 가능성 판정 결과 해석하기
- 초록색 — 실현 가능 (Feasible). 테스트가 2주 이내에 완료될 수 있는 시나리오입니다. 선택한 신뢰도와 검정력 수준에서 설정한 리프트를 탐지할 수 있는 충분한 트래픽이 확보됨을 뜻합니다.
- 노란색 — 실행 가능 (Doable). 테스트 완료까지 2주에서 6주가량 소요되는 시나리오입니다. 비즈니스의 전체 요일 주기를 최소 한 번 이상 온전하게 반영할 수 있도록 일정을 수립해야 하며, 도중에 결과를 미리 열어보고 중단하고 싶은 유혹을 참아야 합니다.
- 빨간색 — 속도 느림 (Slow). 테스트가 완료되는 데 6주 이상 걸리거나 트래픽 부족으로 마칠 수 없는 시나리오입니다. 실험이 지나치게 길어지면 계절성 요인이나 사용자 행동 패턴의 변화 등 외부 오염 리스크가 커지므로, MDE 값을 현실적으로 높이거나 실험에 할당하는 트래픽 점유율을 대폭 확대해야 합니다.
표본 크기가 기하급수적으로 늘어나는 이유
여기에는 두 가지 핵심 통계 원리가 작용합니다. 첫째, 필요한 표본 크기는 MDE 제곱의 역수에 비례하여 증가합니다. 즉 탐지하고자 하는 리프트 폭을 절반으로 줄이면 필요한 표본 크기는 4배로 늘어납니다. 둘째, 현재의 기준 전환율 자체가 낮을수록 실험 비용이 대폭 증가합니다. 예를 들어 전환율이 1%인 환경에서 리프트를 탐지하려면, 전환율이 5%인 환경과 동일한 수준의 상대적 효과를 검증하려 해도 약 25배 더 많은 방문자 표본이 필요합니다. 트래픽이 매우 많은 대형 웹사이트라 할지라도 베이스 레이트가 낮고 전환 수가 적은 영역에서 미세한 리프트를 잡아내기 유독 어려운 이유가 바로 이 때문입니다.
A/B 테스트 계획 시 자주 범하는 실수
- MDE 목표치를 지나치게 작게 설정하는 경우: 현실적으로 합리적인 기간 내에 도저히 수집할 수 없는 막대한 규모의 표본 크기가 도출됩니다. 막연히 잘 나오기를 바라는 희망 섞인 추정치 대신, 정식 릴리즈 의사 결정을 실제로 바꿀 수 있는 최소한의 하한선을 MDE로 잡아야 합니다.
- 통계적 검정력을 80% 미만으로 낮추는 경우: 검정력이 60%라는 것은 실제로 개선 효과가 존재함에도 불구하고 이를 놓치고 실패할 확률이 40%나 된다는 뜻입니다. 올바른 제품 의사 결정을 위한 업계의 표준 기준은 최소 80%이므로, 단순히 테스트 기간을 억지로 맞추기 위해 검정력을 타협해서는 안 됩니다.
- 낮은 p-value를 보고 실험을 조기에 종료하는 경우 (엿보기): 실험 진행 도중 중간 결과를 수시로 들여다보다가 p < 0.05가 되는 순간 실험을 종료해 버리는 행위는 위양성률(실제로는 효과가 없는데 있는 것으로 오판할 확률)을 위험 수준으로 증폭시킵니다. 초기에 계획된 표본 크기가 모두 모일 때까지 테스트를 묵묵히 유지하십시오.
- 다변량 테스트의 통계적 비용을 간과하는 경우: 4개의 변동군을 비교하는 A/B/C/D 테스트의 경우 본페로니 교정이 필수적입니다. 이는 단순 A/B 테스트에 비해 변동군당 필요한 표본 크기를 보통 2~3배가량 증가시킵니다.
- 주말 및 요일 효과를 무시하는 경우: 최소 7일 이상 테스트를 진행해야 일주일 단위로 요일마다 달라지는 트래픽 믹스 변동을 평균화하여 왜곡을 방지할 수 있습니다. 너무 짧게 끝나는 테스트는 평일과 주말의 행동 패턴 차이로 인해 결과가 오염될 수 있습니다.
- 트래픽 할당 오버헤드를 과소평가하는 경우: 예를 들어 전체 유입 트래픽 중 50%만 실험 대상자로 유도하도록 설계하면 변동군별 트래픽 유입 속도가 절반으로 뚝 떨어지므로, 달력상의 실제 테스트 소요 기간은 2배로 길어지게 됩니다.
유의 수준(알파)과 검정력(베타) 선택 가이드
알파(α)는 위양성률을 뜻하며, 실제로는 변동군 B가 더 우수하지 않음에도 불구하고 통계적 우연에 의해 B를 승자로 오판할 확률을 의미합니다. 검정력(1 - β)은 변동군에 실제로 MDE 크기만큼의 실질적인 개선 효과가 존재할 때 이를 올바르게 탐지해 낼 확률을 뜻합니다. 업계의 표준 기본 설정은 알파 = 0.05, 검정력 = 0.80입니다. 잘못된 의사 결정으로 인한 리스크와 기회비용이 매우 큰 핵심 기능을 변경할 때는 기준을 더 엄격히 높여 알파 = 0.01, 검정력 = 0.90을 채택하기도 합니다. 다만 두 지표를 더 엄격하게 조절할수록 필요한 표본 크기는 대폭 늘어납니다. 예를 들어 알파를 0.05에서 0.01로 강화하면 필요한 표본 크기는 거의 2배 가까이 증가하며, 검정력을 0.80에서 0.90으로 높이면 표본이 약 30% 추가로 더 필요하게 됩니다.
상대적 MDE와 절대적 MDE의 차이점
상대적 MDE (Relative MDE): 기존 기준선 대비 비율(%)로 개선 폭을 정의하는 가장 대중적인 방식입니다. 예를 들어 "현재 5%의 전환율을 나타내는 페이지에서 10%의 상대적 리프트를 탐지하고 싶다"라고 정의하는 경우이며, 이때 계산기가 설정하는 목표 전환율 p₂는 5.5%가 됩니다. 절대적 MDE (Absolute MDE): 비즈니스적 가치나 성과 지표가 퍼센트 포인트(pp) 단위의 마진으로 명확하게 고정되어 있을 때 적합한 프레임워크입니다. 예를 들어 "5% 기준선에서 +0.5 pp의 절대적 전환율 상승을 탐지하고 싶다"라고 정의하는 형태이며, 이때의 p₂ 역시 5.5%로 계산됩니다. 두 방식은 표현하는 관점의 차이일 뿐 수학적 결과는 동일하므로, 사내 이해관계자들과 소통할 때 더 직관적이고 익숙한 개념을 선택해 활용하시면 됩니다.
다변량 테스트와 본페로니 교정
하나의 대조군에 대해 K개의 서로 다른 시안(변동군)을 동시에 비교 평가하는 경우, 내부적으로는 총 K − 1개의 독립적인 테스트가 병렬로 수행되는 것과 같습니다. 이 경우 적절한 보정 처리를 하지 않으면 변동군의 수가 늘어날 때마다 전체 실험 차원의 누적 위양성률이 제어할 수 없이 치솟게 됩니다. 예컨대 알파 = 0.05 기준으로 3개의 독립적인 비교 테스트를 별개로 연달아 수행하면, 전체 실험 중 최소 하나 이상에서 우연히 유의미한 결과가 잘못 도출될 종합 위양성 확률은 5%가 아니라 약 14%까지 증가합니다. 이를 해결하기 위한 가장 보편적이고 확실한 통계적 해법이 바로 본페로니 교정(Bonferroni correction)입니다. 명목상 설정한 타깃 알파 값을 병렬 비교 횟수로 나누어 개별 비교의 임계 z 값을 훨씬 더 엄격하게 통제하는 원리입니다. 본 계산기는 사용자가 입력한 변동군의 수가 2개를 초과하면 이 보정 수식을 자동으로 실시간 적용합니다. 보정이 들어가면 변동군별로 수집해야 하는 개별 표본 크기가 더 늘어나므로, 다변량 테스트는 단순 A/B 테스트에 비해 더 많은 트래픽 리소스가 요구됩니다.
자주 묻는 질문 (FAQ)
A/B 테스트에는 어느 정도의 표본 크기가 필요한가요?
필요한 표본 크기는 기준 전환율, 최소 탐지 가능 효과(MDE), 유의 수준(알파), 통계적 검정력 등 네 가지 수치에 따라 달라집니다. 기준 전환율 5%, 상대적 리프트 목표 10%, 알파 0.05, 검정력 80%인 일반적인 이커머스 테스트의 경우 변동군당 약 31,000명의 방문자가 필요합니다. 기준 전환율이 낮을수록, MDE가 작을수록 필요한 표본 크기는 극적으로 늘어납니다.
최소 탐지 가능 효과(MDE)란 무엇이며 어떻게 선택하나요?
MDE는 테스트를 통해 안정적으로 탐지하고자 하는 가장 작은 리프트 크기입니다. 비즈니스 영향도를 기준으로 선택해야 하며, 즉 정식 배포 결정을 바꿀 수 있는 최소한의 개선 수준이어야 합니다. 일반적인 시작점: 트래픽이 많은 결제 및 가입 플로우의 경우 상대적 5~10%, 트래픽이 적은 기능의 경우 상대적 15~25%입니다. MDE가 작을수록 훨씬 더 큰 표본 크기가 필요하므로 너무 낮게 설정하지 마십시오.
어떤 유의 수준과 검정력을 사용해야 하나요?
알파 0.05(95% 신뢰도) 및 80% 검정력은 제품 및 마케팅 테스트의 업계 기본값입니다. 영향력이 큰 정식 배포의 경우 알파 0.01 및 90% 검정력을 사용합니다. 알파나 베타를 낮추면 더 큰 표본 크기가 필요하며, 이는 위양성(알파), 위음성(베타), 테스트 소요 시간 사이의 트레이드오프 관계에 있습니다.
왜 내 테스트에는 변동군당 이렇게 많은 방문자가 필요한가요?
두 가지 요인이 지배적입니다. 첫째, 기준 전환율이 낮을수록 필요한 표본 크기가 늘어납니다. 1% 기준에서 작은 리프트를 탐지하려면 5% 기준일 때보다 약 25배 많은 방문자가 필요합니다. 둘째, 필요한 표본 크기는 MDE 제곱의 역수에 비례합니다. MDE를 절반으로 줄이면 필요한 표본은 4배로 늘어납니다. 중요하게 생각하는 MDE를 높이거나 더 긴 테스트 기간을 수용해야 합니다.
공식은 어떻게 도출되나요?
이 공식은 정규 근사에 기초한 표준 두 비율 검정력 공식입니다. 변동군별 표본 크기는 (zα 곱하기 귀무가설 하의 합동 표준편차 더하기 zβ 곱하기 대립가설 하의 표준편차)의 제곱을 비율 차이의 제곱으로 나눈 값과 같습니다. 이 계산기는 귀무가설 항에는 합동 분산을 사용하고 대립가설 항에는 비합동 분산을 사용합니다. 이는 학계와 업계 교과서에서 가장 널리 쓰이는 정형화 방식입니다 (Cohen 1988, Fleiss et al. 1980).
하나 이상의 변동군이 있는 다변량 테스트는 어떻게 처리하나요?
하나의 대조군에 대해 K개의 변동군을 비교할 때, 계산기는 임계 z 값을 계산하기 전에 알파를 (K − 1)로 나누어 본페로니 교정을 적용합니다. 이는 여러 비교를 수행할 때 발생하는 위양성률 상승을 방지합니다. 그 결과 변동군별로 필요한 표본 크기가 더 커집니다. 즉 다변량 테스트는 단순 A/B 테스트보다 변동군당 더 많은 트래픽 비용이 듭니다.
권장 기간 동안 테스트를 진행해야 하나요, 아니면 유의성이 확보되는 즉시 중단해야 하나요?
권장 기간 동안 테스트를 진행하고 마지막에만 유의성을 평가하십시오. p-value가 0.05 미만으로 떨어지는 순간 테스트를 중단하는 것(엿보기)은 위양성률을 명목 알파 이상으로 크게 높입니다. 이 계산기가 표시하는 표본 크기는 계획된 목표치입니다. 시작 전에 이를 준수하기로 약속하고 승자를 일찍 발표하고 싶은 유혹을 뿌리치세요. 테스트가 완전히 끝난 후 수집된 최종 데이터를 자매 도구인 A/B 테스트 유의성 계산기에 입력하여 최종 p-value와 신뢰구간을 산출해 보실 수 있습니다.
만약 제 서비스의 베이스라인 전환율이 1% 미만으로 매우 낮다면 어떻게 해야 하나요?
기본적으로 사용되는 정규 근사 모델은 np 또는 n(1 − p) 값이 너무 작은 극한 환경에서는 소폭의 오차가 발생할 수 있습니다. 0.1% 수준의 매우 극단적으로 낮은 전환율 환경일지라도 본 계산기는 거시적인 계획 수립을 위한 합리적인 추정치를 제공해 주지만, 실제 안정적인 운영을 위해서는 도출된 권장 표본 크기에 약 10~15% 수준의 추가 버퍼를 더 확보하여 설계하는 것이 안전합니다. 표본 내 실제 검증 단계에서 변동군당 전환 수가 너무 적게 집계되는 경우에는 분석 단계에서 보다 보수적이고 정확한 피셔 정확 검정(Fisher's exact test)을 대안으로 도입하는 것을 추천합니다.
이 콘텐츠, 페이지 또는 도구를 다음과 같이 인용하세요:
"A/B 테스트 표본 크기 계산기" - https://MiniWebtool.com/ko//에서 MiniWebtool 인용, https://MiniWebtool.com/
by miniwebtool 팀. 업데이트 일자: 2026-05-17
또한 저희의 AI 수학 해결사 GPT를 사용하여 자연어 질문과 답변으로 수학 문제를 해결할 수 있습니다.