A/B 테스트 유의성 계산기

A/B 테스트 변형 간의 차이가 통계적으로 유의미한지 확인합니다. 실험군과 대조군의 방문자 수와 전환수를 입력하여 p-value, 신뢰 수준, uplift 및 명확한 승패 판정 결과를 확인하세요.

A/B 테스트 유의성 계산기

빠른 예시클릭하여 전형적인 시나리오를 불러온 후, 계산 전 필요한 필드를 수정하세요.

실시간 미리보기 — 데이터 입력 대기 중

대조군 전환율 —

대안 전환율 —

상대적 리프트 —

z = — · p-value 산출 대기 중

대조군 (A)

원본

방문자 수

전환 수 위의 방문자 수 이하여야 합니다.

대안 (B)

도전자

방문자 수

전환 수 대조군 측정과 동일한 기간이어야 합니다.

신뢰 수준

검정 유형

Embed A/B 테스트 유의성 계산기 Widget

A/B 테스트 유의성 계산기 정보

A/B 테스트 유의성 계산기는 실험 데이터에 두 비율 z-검정을 적용하여 대조군 대안 (A)과 도전자 대안 (B) 사이에서 관측된 차이가 통계적으로 유의미한지 판별합니다. 두 그룹의 방문자 수와 전환 수를 입력하면 툴은 p-value, 전환율 차이에 대한 신뢰구간, 절대적 및 상대적 리프트, 관측된 효과에 대한 통계적 검정력, 80% 검정력에서 리프트를 확인하기 위해 집단별로 필요한 표본 크기를 산출합니다. 아울러 이해하기 쉬운 단어들로 구성된 승리 / 패배 / 결론 미달 판정을 제공하며, 표준정규분포 곡선 상에 귀하의 z-점수가 안착한 위치를 애니메이션 시각화로 함께 보여줍니다.

사용 방법

대조군 대안 (A)의 방문자 수와 전환 수를 입력합니다.
동일한 기간 동안 측정된 테스트 대상 대안 (B)에 대해서도 동일한 두 수치를 입력합니다.
신뢰 수준을 선택합니다. 95%가 표준이며, 99%는 더 엄격한 기준, 90%는 초기 탐색용입니다.
양측 검정(B가 어느 방향으로든 A와 다른지 확인) 또는 단측 검정(B가 A를 이기는 경우만 인정) 중 하나를 선택합니다.
유의성 계산하기를 클릭하여 판정 결과, p-value, 신뢰구간, 검정력 및 단계별 수식 전개 과정을 확인합니다.

사용된 수식 (두 비율 Z-검정)

p₁ = c₁ / n₁ · p₂ = c₂ / n₂

p̂ = (c₁ + c₂) / (n₁ + n₂) (귀무가설 H₀ 하에서의 합동 비율)

SE = √[ p̂ × (1 − p̂) × (1/n₁ + 1/n₂) ]

z = (p₂ − p₁) / SE

p-value (양측 검정) = 2 × (1 − Φ(|z|))

신뢰 수준 (1 − α)에서 (p₂ − p₁)의 신뢰구간 = (p₂ − p₁) ± z_α/2 × √[ p₁(1−p₁)/n₁ + p₂(1−p₂)/n₂ ]

이 A/B 테스트 계산기만의 차별점

제출 전 실시간 미리보기 제공 — 네 가지 수치 중 하나를 타이핑하는 즉시 전환율, 리프트, z-점수, p-value, 판정 결과가 실시간으로 업데이트됩니다.
시각적인 유의성 확인 — 애니메이션 처리된 표준정규분포 곡선을 통해 귀하의 z-통계량이 기각역과 비교해 정확히 어디에 떨어지는지 직관적으로 보여줍니다.
신뢰구간 포레스트 플롯 — 두 전환율에 대한 95% 신뢰구간을 나란히 비교해 줍니다. 막대가 서로 겹치지 않는 것이 승자가 나왔음을 알리는 시각적 신호입니다.
쉬운 표현으로 된 판정 — 단순한 p-value 수치 대신 녹색/황색/적색 배너를 제공합니다. 대부분의 이해관계자에게는 "p = 0.028"이라고 말하는 것보다 "대안 B 승리"라고 말하는 것이 훨씬 효과적입니다.
통계적 검정력 판독 — 테스트의 검정력이 언제 부족한지 파악하고 80% 검정력을 확보하기 위해 필요한 집단별 표본 크기를 추천합니다.
베이지안 스타일의 "P(B > A)" — 잦은주의(Frequentist) 관점의 p-value를 보완하는 지표로, 많은 제품 팀이 한결 직관적이라고 평가하는 뷰입니다.
빠른 예시 프리셋 — 클릭 한 번으로 뚜렷한 승리, 박빙의 결과, 신호 없음, 혹은 패배 시나리오를 불러와 숫자가 어떻게 움직이는지 탐색할 수 있습니다.

판정 결과 읽는 법

녹색 — 유의미한 승리. p-value ≤ α 이며 대안 전환율 > 대조군 전환율입니다. 리프트가 우연에 의해 발생했을 가능성이 낮으므로 대안 B를 전면 적용(Rollout)할 수 있습니다.
적색 — 유의미한 패배. p-value ≤ α 이지만 대안 전환율 < 대조군 전환율입니다. B가 실제로 더 나쁜 성과를 낸 것이므로 기존 A를 유지하고 원인을 파악하세요.
황색 — 임계값 근접. p-value가 유의수준 α에 근접해 있습니다. 결정을 내리기 전에 데이터를 조금 더 수집하는 것이 좋습니다.
회색 — 아직 신호 없음. 실제 차이가 존재하지 않는다는 가설과 부합하는 상태입니다. 실험을 더 오래 진행하거나, 중단하고 다른 큰 변화를 시도해 보세요.

p-value가 유의미하다고 실험을 조기 중단하면 안 되는 이유

테스트를 반복적으로 확인하면서 p-value < 0.05가 되는 순간 중단하는 행위(소위 "엿보기(Peeking)")는 위양성률을 극심하게 부풀려, 명목상 5%인 검정을 때로는 30% 이상의 오류율로 만듭니다. 검정력 계산을 통해 미리 표본 크기를 정하고 해당 목표치까지 실험을 완주한 뒤에만 유의성을 평가해야 합니다. 이 계산기가 보여주는 필요한 집단별 표본 크기는 향후 테스트를 계획할 때 유용한 목표 기준이 됩니다.

표본 크기 계획

현재 테스트의 검정력이 부족한 경우, 계산기는 표준 두 비율 검정력 수식을 사용하여 집단별 필요한 표본 크기를 제안합니다.

집단별 n ≈ (z_α/2 · √[2p̄(1−p̄)] + z_β · √[p₁(1−p₁) + p₂(1−p₂)])² / (p₂ − p₁)²

여기서 p̄는 p₁과 p₂의 평균값이며, z_β는 목표 검정력에 대한 표준정규분포 분위수(80% 검정력의 경우 0.84)입니다.

새로운 테스트를 시작하기 전에 과거의 기준선(Baseline) 전환율과 귀하가 유념해 볼 최소한의 리프트 크기를 이 수식에 대입하여 목표 표본 크기를 산정해 보세요.

A/B 테스트의 흔한 함정들

엿보기 (Peeking) — 매일 결과를 확인하다가 처음으로 유의미한 p-value가 떴을 때 중단하는 행위는 위양성을 부풀립니다. 순차 검정(Sequential testing)을 도입하거나 미리 계획된 표본 크기까지 기다리세요.
지나치게 작은 표본 — 집단당 전환 수가 수십 건 미만으로 너무 적으면 정규 근사가 제대로 작동하지 않습니다. 이 경우 Fisher의 정확 검정(Fisher's exact test)을 대안으로 고려해야 합니다.
다중 비교 문제 — 열 가지 테스트를 한꺼번에 진행한 뒤 그중 이긴 것 하나만 보고하면 위양성률이 치솟습니다. 본페로니 교정(Bonferroni correction)을 적용하거나, 사전에 등록된 확증적 테스트를 실행해야 합니다.
노벨티 효과 (Novelty Effects) — 대안 B가 첫 주에 엄청나게 좋아 보일 수 있으나, 이는 단순히 사용자들이 변화를 눈치채고 신기해서 누른 것일 수 있습니다. 효과가 안정화될 수 있도록 충분한 기간 동안 테스트를 지속하세요.
생존자 편향 (Survivorship Bias) — 무작위 배정(Randomisation) 이후에 임의로 방문자를 필터링하여 제외하면 테스트가 오염됩니다. 검정은 항상 무작위 배정이 완료된 전체 모집단을 기준으로 계산해야 합니다.
일치하지 않는 측정 창 — 두 집단의 데이터는 완전히 동일한 타임라인 상에서 수집되어야 합니다. 주말과 평일의 트래픽 구성 차이는 기준선 전환율을 왜곡시킬 수 있습니다.

단측 검정 vs 양측 검정

양측 검정은 B가 어떤 방향으로든 A와 다른지 묻습니다. 어느 쪽 대안이든 선택해 배포할 수 있는 일반적인 상황에서는 이것이 올바른 기본값입니다. 단측 검정은 사전에 지정된 한쪽 방향(보통: B가 A를 이김)의 성과에만 점수를 부여하며, 데이터가 해당 방향을 가리킬 때 p-value를 대략 절반으로 줄여줍니다. 그러나 이 방향은 데이터를 확인하기 전에 반드시 결정해야 합니다. 결과를 확인한 후 단측 검정으로 전환하는 행위는 전형적인 p-hacking의 형태입니다.

신뢰구간 해석하는 법

전환율 차이에 대한 95% 신뢰구간은 실제 리프트가 존재할 수 있는 타당한 범위를 제시합니다. 구간 전체가 0보다 위에 있다면 B가 승리한 것이고, 전체가 0보다 밑에 있다면 B가 패배한 것입니다. 0을 걸치고 있다면 데이터 상으로 실제 차이가 없다고 보아도 무방합니다. 신뢰구간의 가로 폭은 추정치가 얼마나 정밀한지를 나타내는 척도이며, 폭이 좁을수록 더 많은 데이터를 확보했음을 의미합니다.

FAQ

A/B 테스트 유의성 계산기는 어떤 역할을 하나요?

대조군과 대안의 전환 데이터에 두 비율 z-검정을 적용하여, 관측된 전환율 차이가 단순한 우연으로 설명될 가능성이 낮은지 알려줍니다. p-value, 차이에 대한 신뢰구간, 관측된 효과의 통계적 검정력, 리프트(상승률), 그리고 쉬운 표현으로 된 판정을 제공합니다.

A/B 테스트에는 어떤 신뢰 수준을 사용해야 하나요?

95% 신뢰 수준(α = 0.05)이 제품 및 마케팅 테스트의 업계 표준입니다. 위양성(오탐)의 비용이 큰 고영향 배포에는 99%를 사용하고, 위양성 위험을 더 높게 감수하더라도 조기 탐색을 원할 때만 90%를 사용하세요.

단측 검정과 양측 검정 중 어떤 것을 실행해야 하나요?

B가 어느 방향으로든 A와 다르다는 점만 중요할 때는 양측 검정을 사용하세요. B가 A를 이길 것으로 예상되는 등 사전에 방향성 가설을 정했고, 반대 방향의 신호는 완전히 무시할 의향이 있을 때만 단측 검정을 사용하세요. 대부분의 제품 팀은 기본적으로 양측 검정을 사용해야 합니다.

p-value는 어떻게 계산되나요?

결합된 전환 수와 방문자 수로부터 합동 비율 p̂이 계산됩니다. 표준 오차는 √[p̂(1−p̂)(1/n₁ + 1/n₂)]입니다. z-통계량은 비율 차이를 해당 표준 오차로 나눈 값입니다. 양측 p-value는 2 × (1 − Φ(|z|)) 이며, 여기서 Φ는 표준정규 누적분포함수입니다.

통계적 검정력이란 무엇이며 왜 중요한가요?

검정력은 현재 표본 크기에서 테스트가 관측된 크기의 실제 효과를 감지할 확률입니다. 검정력이 80% 미만이면 효과가 실제로 존재하더라도 리프트를 확인하기에 테스트 규모가 너무 작을 가능성이 큽니다. 계산기는 검정력 및 80%에 도달하는 데 필요한 집단별 표본 크기를 보고합니다.

p-value가 0.05 미만으로 떨어지자마자 테스트를 중단해도 되나요?

아니요. 데이터를 중간에 훔쳐보고 조기 중단하는 것은 위양성률을 명목 α 이상으로 크게 부풀립니다. 검정력 계산을 사용하여 사전에 표본 크기를 결정하고, 테스트가 완료될 때까지 실행한 후에만 유의성을 평가하세요. 이 계산기가 보여주는 필요한 표본 크기가 좋은 목표치입니다.

내 전환율이 매우 낮으면(예: 1% 미만) 어떻게 하나요?

np 또는 n(1−p)의 값이 작으면 정규 근사가 부정확할 수 있습니다. 경험칙상 각 집단에서 최소 30개, 가급적 100개 이상의 전환을 확보하는 것이 좋습니다. 매우 낮은 전환율을 가진 테스트의 경우 더 보수적인 대안으로 Fisher의 정확 검정을 고려해 보세요.

P(B > A)는 무엇을 의미하나요?

각 전환율에 대해 무정보(균등 분포 형태) 사전분포를 가정할 때, 현재 데이터가 내포하는 '대안 B가 대조군 A보다 실제로 더 높은 전환율을 가질 사후 확률'을 의미합니다. 빈도주의의 p-value를 보완하는 베이지안 지표로서, 통계 전문가가 아닌 사람들과 소통할 때 대개 더 유용합니다 ("B가 더 나을 확률이 85% 확신됩니다"가 "p = 0.03"보다 전달력이 좋습니다).

이 콘텐츠, 페이지 또는 도구를 다음과 같이 인용하세요:

"A/B 테스트 유의성 계산기" - https://MiniWebtool.com/ko/a-b-테스트-유의성-계산기/에서 MiniWebtool 인용, https://MiniWebtool.com/

by miniwebtool 팀. 최종 업데이트: 2026-05-17

또한 저희의 AI 수학 해결사 GPT를 사용하여 자연어 질문과 답변으로 수학 문제를 해결할 수 있습니다.

A/B 테스트 유의성 계산기

대조군 (A)

대안 (B)

A/B 테스트 유의성 계산기 정보

사용 방법

사용된 수식 (두 비율 Z-검정)

이 A/B 테스트 계산기만의 차별점

판정 결과 읽는 법

p-value가 유의미하다고 실험을 조기 중단하면 안 되는 이유

표본 크기 계획

A/B 테스트의 흔한 함정들

단측 검정 vs 양측 검정

신뢰구간 해석하는 법

FAQ

A/B 테스트 유의성 계산기는 어떤 역할을 하나요?

A/B 테스트에는 어떤 신뢰 수준을 사용해야 하나요?

단측 검정과 양측 검정 중 어떤 것을 실행해야 하나요?

p-value는 어떻게 계산되나요?

통계적 검정력이란 무엇이며 왜 중요한가요?

p-value가 0.05 미만으로 떨어지자마자 테스트를 중단해도 되나요?

내 전환율이 매우 낮으면(예: 1% 미만) 어떻게 하나요?

P(B > A)는 무엇을 의미하나요?

데이터 분석 및 통계 도구:

주요 도구: