Kalkulator Wielkości Próby Testu A/B
Zaplanuj test A/B przed jego uruchomieniem. Wprowadź swój początkowy współczynnik konwersji, minimalny wykrywalny efekt (MDE), poziom istotności (alpha) oraz moc (1 minus beta), aby obliczyć wymaganą wielkość próby na wariant, całkowitą wielkość próby oraz czas trwania testu przy Twoim dziennym ruchu.
Blokada reklam uniemożliwia wyświetlanie reklam
MiniWebtool jest darmowy dzięki reklamom. Jeśli to narzędzie Ci pomogło, wesprzyj nas przez Premium (bez reklam + szybciej) albo dodaj MiniWebtool.com do wyjątków i odśwież stronę.
- Albo przejdź na Premium (bez reklam)
- Zezwól na reklamy dla MiniWebtool.com, potem odśwież
O Kalkulator Wielkości Próby Testu A/B
Kalkulator Wielkości Próby Testu A/B pozwala zaplanować test A/B zanim go uruchomisz. Wprowadź bazowy współczynnik konwersji, minimalny wykrywalny efekt (MDE), który Cię interesuje, poziom istotności (alfa) oraz pożądaną moc statystyczną, a kalkulator zwróci wymaganą wielkość próby na grupę oraz całkowitą. Dodatkowo narzędzie automatycznie oszacuje czas trwania testu na podstawie dziennego ruchu i jego udziału, wygeneruje krzywą mocy pokazującą jej wzrost wraz z liczebnością próby, tabelę wrażliwości porównującą koszty różnych wyborów MDE, wizualizację podziału ruchu oraz jasny werdykt dotyczący wykonalności. Stworzony specjalnie dla testów A/B współczynnika konwersji (test z dla dwóch proporcji, sformułowanie Cohena) z opcjonalną korektą Bonferroniego dla testów wielowariantowych.
Jak używać
- Wprowadź bazowy współczynnik konwersji obecnego wariantu (A), zmierzony w ostatnim reprezentatywnym okresie.
- Ustaw minimalny wykrywalny efekt (MDE) — najmniejszy wzrost, który faktycznie zmieniłby Twoją decyzję. Przełączaj się między względnym procentem a bezwzględnymi punktami procentowymi.
- Wybierz poziom istotności (alfa) — domyślna wartość branżowa to 5% (95% ufności).
- Wybierz moc statystyczną — domyślna wartość branżowa to 80%; zwiększ ją do 90% w przypadku wdrożeń o wysokim znaczeniu.
- Wybierz test dwustronny (wariant B różni się od wariantu A w dowolnym kierunku, domyślnie) lub jednostronny (uznajemy tylko przewagę B nad A).
- Jeśli przeprowadzasz test wielowariantowy, ustaw liczbę wariantów — kalkulator automatycznie zastosuje korektę Bonferroniego.
- Wprowadź dzienną liczbę odwiedzających stronę oraz udział w ruchu skierowany do eksperymentu.
- Kliknij Oblicz wielkość próby, aby odczytać wielkość próby na grupę i całkowitą, oczekiwany czas trwania testu, krzywą mocy, tabelę wrażliwości oraz obliczenia matematyczne krok po kroku.
Użyty wzór (Wzór na moc dla dwóch proporcji)
p₂ = p₁ × (1 + MDE_relative) lub p₂ = p₁ + MDE_absolute
p̄ = (p₁ + p₂) / 2 (współczynnik połączony pod H₀)
SD₀ = √[ 2 × p̄ × (1 − p̄) ] (odchylenie standardowe pod hipotezą zerową)
SD₁ = √[ p₁(1 − p₁) + p₂(1 − p₂) ] (odchylenie standardowe pod hipotezą alternatywną)
n / arm = (zα/2 × SD₀ + zβ × SD₁)² / (p₂ − p₁)²
W przypadku testów jednostronnych zastąp zα/2 przez zα. Dla K wariantów vs jedna kontrola, zastąp α przez α / (K − 1) (korekta Bonferroniego).
Co wyróżnia ten Kalkulator Wielkości Próby
- Podgląd na żywo przed przesłaniem — każde naciśnięcie klawisza aktualizuje wielkość próby na grupę, całkowitą liczbę odwiedzających, docelowy współczynnik konwersji oraz szacowany czas trwania.
- Czas trwania testu w czasie rzeczywistym — zamienia abstrakcyjne stwierdzenie „potrzebujesz 31 000 odwiedzających” w konkretne „Twój test potrwa 8 dni przy 4 000 odwiedzających dziennie w teście”.
- Animowana krzywa mocy — zobacz dokładnie, gdzie docelowa wielkość próby znajduje się na krzywej mocy i ile dodatkowej mocy zapewniłby kolejny tydzień ruchu.
- Tabela wrażliwości MDE — porównaj bezpośrednio koszty wielkości próby dla wykrywania wzrostów o 2%, 5%, 10%, 15%, 20% i 25%, aby wybrać najmniejszy wzrost, który jest nadal wykonalny.
- Względne lub bezwzględne MDE — przełączanie jednym kliknięciem między dwoma najczęstszymi sposobami określania celów wzrostu przez zespoły produktowe.
- Obsługa wielu wariantów z Bonferronim — obsługuje testy A/B/C oraz A/B/C/D z automatyczną korektą; wiele kalkulatorów po cichu używa prostej matematyki A/B dla danych wielowariantowych.
- Wizualizacja podziału ruchu — skumulowany wykres słupkowy pokazujący dokładnie, jak ruch testowy dzieli się między grupę kontrolną a każdy wariant.
- Werdykt wykonalności w prostym języku — zielony/bursztynowy/czerwony baner, który sygnalizuje zbyt wolne testy jeszcze przed ich uruchomieniem.
- Szybkie scenary — gotowe ustawienia jednym kliknięciem dla typowych wartości bazowych w e-commerce, SaaS, e-mailach i instalacjach aplikacji mobilnych.
Jak czytać werdykt wykonalności
- Zielony — Wykonalny. Test zakończy się w ciągu dwóch tygodni. Posiadasz wystarczający ruch, aby wykryć wybrany wzrost przy wybranym poziomie ufności.
- Bursztynowy — Wykonalny przy planowaniu. Test zajmuje od dwóch do sześciu tygodni. Zaplanuj go wokół co najmniej jednego pełnego cyklu biznesowego i oprzyj się pokusie podglądania wyników.
- Czerwony — Powolny. Test trwa dłużej niż sześć tygodni (lub nie może zostać ukończony). Długie testy są narażone na sezonowość i zmieniające się zachowania użytkowników — zwiększ MDE, na którym Ci zależy, lub zwiększ udział ruchu skierowanego do eksperymentu.
Dlaczego wielkość próby rośnie tak szybko
Najważniejsze są dwie zależności. Po pierwsze, wymagana wielkość próby skaluje się z odwrotnością kwadratu MDE — zmniejszenie o połowę wzrostu, który chcesz wykryć, czterokrotnie zwiększa wymaganą próbę. Po drugie, testy z niską wartością bazową kosztują więcej — przy wartości bazowej 1% potrzebujesz około 25 razy więcej odwiedzających niż przy wartości bazowej 5%, aby wykryć ten sam względny wzrost. Te dwa efekty razem wyjaśniają, dlaczego nawet witryny o dużym ruchu mają trudności z wykrywaniem małych wzrostów w procesach o niskiej konwersji.
Typowe pułapki przy planowaniu testów A/B
- Ustawianie zbyt małego MDE. Zwiększa to wielkość próby do liczb, których nie można zebrać w rozsądnym czasie. Wybierz najmniejszy wzrost, który faktycznie zmieniłby Twoją decyzję o wdrożeniu — a nie życzeniowe zgadywanie.
- Moc poniżej 80%. Test o mocy 60% ma 40% szans na przeoczenie rzeczywistego efektu. Standardem dla decyzji produktowych jest 80%; nie obniżaj go tylko po to, aby test „zmieścił się” w czasie.
- Przedwczesne kończenie testu przy niskiej wartości p. Podglądanie wyników cząstkowych i zatrzymywanie testu w momencie, gdy p < 0.05, drastycznie zawyża wskaźnik wyników fałszywie dodatnich. Zobowiąż się do zaplanowanej wielkości próby przed uruchomieniem.
- Ignorowanie kosztu testów wielowariantowych. Test A/B/C/D z czterema wariantami wymaga alfy skorygowanej metodą Bonferroniego — zazwyczaj oznacza to 2-3 razy większą próbę na grupę niż w prostym teście A/B.
- Zapominanie o efektach weekendowych. Test trwający minimum 7 dni pozwala uśrednić strukturę ruchu z poszczególnych dni tygodnia; bardzo krótkie testy mogą zostać zaburzone przez różnice między dniami roboczymi a weekendem.
- Niedocenianie narzutu podziału ruchu. Jeśli skierujesz do testu tylko 50% ruchu, wskaźnik na grupę spadnie o połowę — co podwoi kalendarzowy czas trwania testu.
Wybór alfy i mocy
Alfa to wskaźnik wyników fałszywie dodatnich — prawdopodobieństwo uznania wariantu B za zwycięzcę, gdy w rzeczywistości nim nie jest. Moc to jeden minus wskaźnik wyników fałszywie ujemnych — prawdopodobieństwo wykrycia rzeczywistego zwycięzcy o wielkości MDE. Domyślne wartości branżowe to alfa = 0.05 i moc = 0.80. Użyj alfy = 0.01 i mocy = 0.90 w przypadku wdrożeń o wysokiej stawce, gdzie błędna decyzja jest kosztowna. Oba te wybory zaostrzają kryteria testu i zwiększają wymaganą wielkość próby: obniżenie alfy z 0.05 do 0.01 w przybliżeniu podwaja próbę; podniesienie mocy z 0.80 do 0.90 zwiększa ją o kolejne 30%.
MDE względne vs bezwzględne
Względne MDE (% wartości bazowej) to najczęstsze ujęcie: „Chcę wykryć 10% wzrostu na moim obecnym 5% współczynniku konwersji”, co oznacza p₂ = 5.5%. Bezwzględne MDE (punkty procentowe) to właściwe ujęcie, gdy wpływ na biznes jest wyrażony w punktach: „Chcę wykryć wzrost o +0.5 pp na mojej 5% wartości bazowej”, co oznacza p₂ = 5.5%. Oba ujęcia są równoważne — wybierz to, które odpowiada sposobowi myślenia interesariuszy o tej metryce.
Testy wielowariantowe i korekta Bonferroniego
Jeśli porównujesz K wariantów z jedną grupą kontrolną, przeprowadzasz K − 1 jednoczesnych testów. Naiwny wskaźnik wyników fałszywie dodatnich rośnie z każdym dodatkowym porównaniem — trzy niezależne testy przy alfie = 0.05 dają łączone prawdopodobieństwo wyniku fałszywie dodatniego na poziomie około 14%, a nie 5%. Standardowym rozwiązaniem jest korekta Bonferroniego: podziel nominalną alfę przez liczbę porównań przed obliczeniem krytycznej wartości z. Ten kalkulator automatycznie stosuje tę korektę, gdy ustawisz liczbę wariantów powyżej 2. Rezultatem jest większa wymagana wielkość próby na grupę — testy wielowariantowe kosztują więcej ruchu na grupę niż proste testy A/B.
FAQ
Jakiej wielkości próby potrzebuję do testu A/B?
To zależy od czterech liczb: bazowego współczynnika konwersji, minimalnego wykrywalnego efektu (MDE), poziomu istotności (alfa) i mocy statystycznej. Dla typowego testu e-commerce z wartością bazową 5%, docelowym względnym wzrostem o 10%, alfą 0.05 i mocą 80%, potrzebujesz około 31 000 odwiedzających na wariant. Niższe wartości bazowe i mniejsze MDE drastycznie zwiększają wymaganą wielkość próby.
Co to jest minimalny wykrywalny efekt (MDE) i jak go wybrać?
MDE to najmniejszy wzrost, który test ma niezawodnie wykryć. Wybierz go na podstawie wpływu biznesowego — najmniejszej poprawy, która zmieniłaby Twoją decyzję o wdrożeniu. Typowe punkty wyjścia: 5 do 10% względnego wzrostu dla procesów kasowych i rejestracji o dużym ruchu, 15 do 25% względnego wzrostu dla funkcji o mniejszym ruchu. Mniejsze MDE oznacza znacznie większą wielkość próby, więc nie ustawiaj go zbyt nisko.
Jakiego poziomu istotności i mocy powinienem użyć?
Alfa 0.05 (95% ufności) i 80% moc to domyślne ustawienia branżowe dla testów produktowych i marketingowych. Użyj alfy 0.01 i 90% mocy w przypadku wdrożeń o wysokim znaczeniu. Obniżenie alfy lub bety wymaga większej wielkości próby — kompromis dotyczy wyników fałszywie dodatnich (alfa), fałszywie ujemnych (beta) oraz czasu trwania testu.
Wyaczego mój test wymaga tak wielu odwiedzających na wariant?
Dominują dwa czynniki. Po pierwsze, niższe bazowe współczynniki konwersji zwiększają wymaganą wielkość próby — wykrycie małego wzrostu przy wartości bazowej 1% wymaga około 25× więcej odwiedzających niż przy wartości bazowej 5%. Po drugie, wymagana wielkość próby skaluje się odwrotnie proporcjonalnie do kwadratu MDE — zmniejszenie MDE o połowę czterokrotnie zwiększa wymaganą próbę. Zwiększ MDE, na którym Ci zależy, lub zaakceptuj dłuższy test.
Jak wyprowadzany jest ten wzór?
Jest to standardowy wzór na moc dla dwóch proporcji oparty na przybliżeniu rozkładem normalnym. Wielkość próby na grupę jest równa kwadratowi z (zα pomnożone przez połączone odchylenie standardowe pod hipotezą zerową plus zβ pomnożone przez odchylenie standardowe pod hipotezą alternatywną), podzielonemu przez kwadrat różnicy współczynników. Kalkulator używa wariancji połączonej dla składnika zerowego i wariancji niepołączonej dla składnika alternatywnego — jest to najczęstsza formuła podręcznikowa (Cohen 1988, Fleiss et al. 1980).
Jak radzić sobie z testami wielowariantowymi z więcej niż jednym wariantem?
Gdy porównujesz K wariantów z jedną grupą kontrolną, kalkulator stosuje korektę Bonferroniego, dzieląc alfę przez (K − 1) przed obliczeniem krytycznej wartości z. Chroni to przed zawyżonym współczynnikiem wyników fałszywie dodatnich, który wynika z przeprowadzania wielu porównań. Rezultatem jest większa wymagana wielkość próby na grupę — testy wielowariantowe kosztują więcej ruchu na grupę niż proste testy A/B.
Czy powinienem prowadzić test przez zalecaną liczbę dni, czy zatrzymać go, gdy osiągnie istotność?
Prowadź go przez zalecany czas i oceniaj istotność dopiero na samym końcu. Zatrzymanie testu w momencie, gdy wartość p spada poniżej 0.05 (podglądanie), zawyża wskaźnik wyników fałszywie dodatnich znacznie powyżej nominalnej alfy. Wielkość próby pokazana przez ten kalkulator to planowany cel — zobowiąż się do niego przed uruchomieniem i oprzyj się pokusie przedwczesnego ogłoszenia zwycięzcy. Po zakończeniu testu wprowadź swoje wyniki do towarzyszącego Kalkulatora Istotności Testu A/B, aby odczytać wartość p i przedział ufności.
Co jeśli mój współczynnik konwersji jest bardzo niski (poniżej 1%)?
Przybliżenie rozkładem normalnym może być nieco niedokładne, gdy np lub n(1 − p) jest małe. W przypadku testów o bardzo niskim współczynniku (np. wartość bazowa 0.1%), kalkulator nadal zapewnia rozsądny szacunek planistyczny, ale warto rozważyć niewielki dodatkowy bufor (10-15%) powyżej zalecanej wielkości próby. Dla bardzo małych prób na grupę, dokładny test Fishera stanowi bardziej konserwatywną alternatywę na etapie analizy.
Cytuj ten materiał, stronę lub narzędzie w następujący sposób:
"Kalkulator Wielkości Próby Testu A/B" na https://MiniWebtool.com/pl// z MiniWebtool, https://MiniWebtool.com/
przez miniwebtool team. Zaktualizowano: 2026-05-17
Możesz także wypróbować nasz AI Rozwiązywacz Matematyczny GPT, aby rozwiązywać swoje problemy matematyczne poprzez pytania i odpowiedzi w języku naturalnym.