Kalkulator Istotności Testu A/B

Określ, czy różnica między wariantami testu A/B jest statystycznie istotna. Wprowadź liczbę użytkowników i konwersji dla grupy kontrolnej i wariantu, aby uzyskać wartość p-value, poziom ufności, wzrost oraz jasny werdykt wygranej/przegranej.

Szybkie przykładyStuknij, aby załadować typowy scenariusz, a następnie dostosuj dowolne pole przed wykonaniem obliczeń.

Podgląd na żywo — dodaj dane

Współczynnik kontrolny —

Współczynnik wariantu —

Względny wzrost —

z = — · oczekiwanie na wartość p

Kontrola (A)

Oryginał

Użytkownicy

Konwersje Musi być mniejsza lub równa liczbie użytkowników powyżej.

Wariant (B)

Pretendent

Użytkownicy

Konwersje To samo okno czasowe co pomiar grupy kontrolnej.

Poziom ufności

Typ testu

Embed Kalkulator Istotności Testu A/B Widget

O Kalkulator Istotności Testu A/B

Kalkulator Istotności Testu A/B stosuje test z dla dwóch proporcji do danych z eksperymentu i informuje, czy obserwowana różnica między wariantem kontrolnym (A) a pretendentem (B) jest istotna statystycznie. Wprowadź liczbę użytkowników i konwersji dla obu grup, a narzędzie zwróci wartość p, przedział ufności dla różnicy współczynników, absolutny i względny wzrost, moc statystyczną dla obserwowanego efektu, wielkość próby na grupę potrzebną do potwierdzenia wzrostu przy mocy 80% oraz werdykt w prostym języku (wygrana / przegrana / brak rozstrzygnięcia) — poparty animowaną wizualizacją miejsca, w którym Twój wynik z plasuje się na wykresie rozkładu normalnego standardowego.

Jak używać

Wprowadź liczbę użytkowników i konwersji dla wariantu kontrolnego (A).
Wprowadź te same dwie liczby dla testowanego wariantu (B), zmierzone w tym samym oknie czasowym.
Wybierz poziom ufności — 95% to standard, 99% jest bardziej rygorystyczny, 90% służy do wstępnej analizy.
Wybierz test dwustronny (B różni się od A w dowolnym kierunku) lub jednostronny (uznaj wynik tylko wtedy, gdy B przewyższa A).
Kliknij Oblicz Istotność, aby odczytać werdykt, wartość p, przedziały ufności, moc oraz matematyczne obliczenia krok po kroku.

Użyte wzory (Test Z dla dwóch proporcji)

p₁ = c₁ / n₁ · p₂ = c₂ / n₂

p̂ = (c₁ + c₂) / (n₁ + n₂) (połączony współczynnik pod hipotezą H₀)

SE = √[ p̂ × (1 − p̂) × (1/n₁ + 1/n₂) ]

z = (p₂ − p₁) / SE

wartość p (test dwustronny) = 2 × (1 − Φ(|z|))

Przedział ufności dla (p₂ − p₁) na poziomie (1 − α) = (p₂ − p₁) ± z_α/2 × √[ p₁(1−p₁)/n₁ + p₂(1−p₂)/n₂ ]

Co wyróżnia ten Kalkulator Istotności Testu A/B

Podgląd na żywo przed zatwierdzeniem — wpisuj dowolne z czterech wartości i obserwuj, jak współczynniki, wzrost, wynik z, wartość p oraz werdykt aktualizują się w czasie rzeczywistym.
Wizualna weryfikacja istotności — animowana krzywa rozkładu normalnego standardowego pokazuje dokładnie, gdzie znajduje się Twoja statystyka z w odniesieniu do obszarów odrzucenia.
Wykres leśny przedziałów ufności — zobacz przedziały 95% dla obu współczynników obok siebie. Brak nakładania się słupków to wizualny sygnał zwycięzcy.
Werdykt w prostym języku — zielony/bursztynowy/czerwony komunikat zamiast samej suchej wartości p. Stwierdzenie „Wariant B wygrywa” jest dla większości interesariuszy znacznie bardziej zrozumiałe niż informacja „p = 0.028”.
Odczyt mocy statystycznej — narzędzie wie, kiedy test ma zbyt niską moc i rekomenduje wielkość próby na grupę wymaganą przy mocy 80%.
Bayesowskie ujęcie „P(B > A)” — uzupełniające spojrzenie na tradycyjną wartość p, które wiele zespołów produktowych uważa za bardziej intuicyjne.
Szybkie gotowe przykłady — jednym kliknięciem załaduj scenariusz wyraźnej wygranej, niejasnego wyniku, braku sygnału lub przegranej i zbadaj, jak zmieniają się liczby.

Jak czytać werdykt

Zielony — Istotna wygrana. wartość p ≤ α oraz współczynnik wariantu > współczynnik kontrolny. Wzrost jest mało prawdopodobny z powodu przypadku; możesz wdrożyć wariant B.
Czerwony — Istotna przegrana. wartość p ≤ α, ale współczynnik wariantu < współczynnik kontrolny. Wariant B jest rzeczywiście gorszy; zachowaj wariant A i zbadaj przyczyny.
Bursztynowy — Blisko progu istotności. wartość p znajduje się blisko poziomu α. Zbierz większy ruch przed podjęciem ostatecznej decyzji.
Szary — Brak sygnału. Dane są spójne z brakiem rzeczywistej różnicy. Możesz kontynuować test lub zatrzymać go i wypróbować większą zmianę.

Dlaczego nie należy wcześnie przerywać testu przy istotnej wartości P

Wielokrotne sprawdzanie testu i zatrzymywanie go w momencie, gdy wartość p < 0,05 (często nazywane „podglądaniem”) drastycznie zwiększa odsetek wyników fałszywie dodatnich — czasami nawet do 30% lub więcej dla testu o nominalnym poziomie 5%. Ustal wielkość próby z góry za pomocą obliczeń mocy, prowadź eksperyment do osiągnięcia tego celu i dopiero wtedy oceń istotność. Wymagana wielkość próby na grupę pokazywana przez ten kalkulator to doskonały punkt odniesienia podczas planowania przyszłych testów.

Planowanie wielkości próby

Jeśli Twój test ma zbyt niską moc, kalkulator rekomenduje wielkość próby na grupę przy użyciu standardowego wzoru na moc dla dwóch proporcji:

n / grupa ≈ (z_α/2 · √[2p̄(1−p̄)] + z_β · √[p₁(1−p₁) + p₂(1−p₂)])² / (p₂ − p₁)²

gdzie p̄ jest średnią z p₁ i p₂, a z_β to kwantyl rozkładu normalnego standardowego dla docelowej mocy (0,84 dla 80%).

Wstaw swój historyczny bazowy współczynnik oraz najmniejszy wzrost, na którym Ci zależy, do tego wzoru — to jest wielkość próby, w którą należy celować przed uruchomieniem nowego testu.

Typowe pułapki w testach A/B

Podglądanie (Peeking) — codzienne sprawdzanie wyników i przerywanie przy pierwszej istotnej wartości p drastycznie zawyża błędy fałszywie dodatnie. Stosuj testowanie sekwencyjne lub poczekaj na zaplanowaną wielkość próby.
Zbyt małe próby — przy liczbie konwersji mniejszej niż kilkaset na grupę przybliżenie rozkładem normalnym przestaje być dokładne. W takich sytuacjach warto rozważyć dokładny test Fishera.
Wielokrotne porównania — prowadzenie dziesięciu testów i raportowanie tylko tego jednego zwycięskiego drastycznie zawyża współczynnik błędów fałszywie dodatnich. Zastosuj poprawkę Bonferroniego lub przeprowadzaj wcześniej zarejestrowane testy potwierdzające.
Efekt nowości — wariant B może wyglądać świetnie w pierwszym tygodniu tylko dlatego, że użytkownicy zauważyli zmianę. Pozwól testowi działać wystarczająco długo, aby efekt się ustabilizował.
Błąd przeżywalności (Survivorship bias) — filtrowanie użytkowników już po losowym przydzieleniu do grup psuje strukturę testu. Zawsze obliczaj wyniki na pełnej populacji poddanej randomizacji.
Niedopasowane okno pomiarowe — zbieraj dane dla obu grup w identycznych oknach czasowych. Różnice w strukturze ruchu między weekendami a dniami powszednimi mogą zniekształcić bazowy współczynnik.

Testy jednostronne a dwustronne

Test dwustronny sprawdza, czy wariant B różni się od wariantu A w jakimkolwiek kierunku. Jest to właściwy domyślny wybór, gdy rzeczywiście możesz wdrożyć każdy z wariantów. Test jednostronny bierze pod uwagę wynik wyłącznie w z góry określonym kierunku (zazwyczaj: B przewyższa A) i w przybliżeniu zmniejsza wartość p o połowę, gdy dane wskazują na ten kierunek — musisz jednak zobowiązać się do wyboru kierunku przed analizą danych. Przełączenie się na test jednostronny po zobaczeniu wyników jest powszechną formą tzw. p-hackingu.

Jak interpretować przedział ufności

Przedział ufności 95% dla różnicy współczynników mówi o prawdopodobnym zakresie rzeczywistego wzrostu. Jeśli przedział znajduje się w całości powyżej zera, B wygrywa; jeśli w całości poniżej zera, B przegrywa; jeśli przecina zero, dane są spójne z brakiem rzeczywistej różnicy. Szerokość przedziału jest miarą tego, jak precyzyjne są Twoje szacunki — węższy przedział oznacza więcej danych.

FAQ

Co robi kalkulator istotności testu A/B?

Stosuje test z dla dwóch proporcji do danych konwersji z grupy kontrolnej i wariantu oraz informuje, czy obserwowana różnica w współczynnikach konwersji jest mało prawdopodobna do wyjaśnienia przez przypadek. Podaje wartość p, przedział ufności dla różnicy, moc statystyczną dla obserwowanego efektu, wzrost oraz werdykt w prostym języku.

Jakiego poziomu ufności powinienem użyć w teście A/B?

Poziom ufności 95% (α = 0,05) to standard branżowy w testach produktowych i marketingowych. Użyj 99% w przypadku wdrożeń o wysokim wpływie, gdzie błąd fałszywie dodatni jest kosztowny, a 90% tylko do wstępnej eksploracji, gdy akceptujesz wyższe ryzyko błędu fałszywie dodatniego.

Czy powinienem uruchomić test jedno- czy dwustronny?

Użyj testu dwustronnego, gdy interesuje Cię po prostu to, czy B różni się od A w dowolnym kierunku. Użyj testu jednostronnego, gdy masz z góry określoną hipotezę kierunkową, na przykład, że B ma przewyższyć A, i jesteś gotów zignorować wszelkie sygnały w przeciwnym kierunku. Większość zespołów produktowych powinna domyślnie wybierać test dwustronny.

Jak obliczana jest wartość p?

Połączony współczynnik p̂ jest obliczany z sumy konwersji i użytkowników. Błąd standardowy wynosi √[p̂(1−p̂)(1/n₁ + 1/n₂)]. Statystyka z to różnica współczynników podzielona przez ten błąd standardowy. Dwustronna wartość p to 2 × (1 − Φ(|z|)), gdzie Φ to dystrybuanta standardowego rozkładu normalnego.

Co to jest moc statystyczna i dlaczego ma znaczenie?

Moc to prawdopodobieństwo, że test wykryje rzeczywisty efekt o obserwowanej wielkości przy obecnej wielkości próby. Moc poniżej 80% oznacza, że próba jest prawdopodobnie zbyt mała, aby potwierdzić wzrost, nawet jeśli jest on rzeczywisty. Kalkulator podaje moc oraz wielkość próby na grupę potrzebną do osiągnięcia 80%.

Czy mogę zatrzymać test, gdy tylko wartość p spadnie poniżej 0,05?

Nie. Podglądanie wyników i wczesne zatrzymywanie testu zawyża współczynnik błędów pierwszego rodzaju znacznie powyżej nominalnego poziomu α. Przed testem ustal wielkość próby za pomocą obliczeń mocy, przeprowadź test do końca i dopiero wtedy oceń istotność. Wymagana wielkość próby pokazywana przez ten kalkulator to dobry cel.

Co jeśli mój współczynnik konwersji jest bardzo niski (np. poniżej 1%)?

Przybliżenie rozkładem normalnym może być niedokładne, gdy np lub n(1−p) jest małe. Jako regułę kciuka przyjmuje się posiadanie co najmniej 30 konwersji w każdej grupie, a najlepiej ponad 100. W przypadku testów o bardzo niskim współczynniku konwersji warto rozważyć dokładny test Fishera jako bardziej konserwatywną alternatywę.

Co oznacza P(B > A)?

Przy założeniu nieinformacyjnego (jednostajnego) rozkładu a priori dla każdego współczynnika, dane sugerują prawdopodobieństwo a posteriori, że wariant B ma wyższy rzeczywisty współczynnik konwersji niż wariant A. Jest to bayesowski odpowiednik częstotliwościowej wartości p i jest często łatwiejszy do przekazania osobom bez przygotowania statystycznego („mamy 85% ufności, że B jest lepszy” brzmi jaśniej niż „p = 0.03”).

Cytuj ten materiał, stronę lub narzędzie w następujący sposób:

"Kalkulator Istotności Testu A/B" na https://MiniWebtool.com/pl/kalkulator-istotnosci-testu-ab/ z MiniWebtool, https://MiniWebtool.com/

autor: zespół miniwebtool. Zaktualizowano: 2026-05-17

Możesz także wypróbować nasz AI Rozwiązywacz Matematyczny GPT, aby rozwiązywać swoje problemy matematyczne poprzez pytania i odpowiedzi w języku naturalnym.

Kalkulator Istotności Testu A/B

Kontrola (A)

Wariant (B)

O Kalkulator Istotności Testu A/B

Jak używać

Użyte wzory (Test Z dla dwóch proporcji)

Co wyróżnia ten Kalkulator Istotności Testu A/B

Jak czytać werdykt

Dlaczego nie należy wcześnie przerywać testu przy istotnej wartości P

Planowanie wielkości próby

Typowe pułapki w testach A/B

Testy jednostronne a dwustronne

Jak interpretować przedział ufności

FAQ

Co robi kalkulator istotności testu A/B?

Jakiego poziomu ufności powinienem użyć w teście A/B?

Czy powinienem uruchomić test jedno- czy dwustronny?

Jak obliczana jest wartość p?

Co to jest moc statystyczna i dlaczego ma znaczenie?

Czy mogę zatrzymać test, gdy tylko wartość p spadnie poniżej 0,05?

Co jeśli mój współczynnik konwersji jest bardzo niski (np. poniżej 1%)?

Co oznacza P(B > A)?

Statystyki i analiza danych:

Polecane narzędzia: