A/B-Test-Signifikanz-Rechner
Ermitteln Sie, ob der Unterschied zwischen A/B-Test-Varianten statistisch signifikant ist. Geben Sie Besucher und Conversions für Kontroll- und Variantengruppen ein, um den P-Wert, das Konfidenzniveau, den Uplift und ein klares Gewinner-/Verlierer-Ergebnis zu erhalten.
Dein Adblocker verhindert, dass wir Werbung anzeigen
MiniWebtool ist kostenlos dank Werbung. Wenn dir dieses Tool geholfen hat, unterstütze uns mit Premium (werbefrei + schneller) oder setze MiniWebtool.com auf die Whitelist und lade die Seite neu.
- Oder auf Premium upgraden (werbefrei)
- Erlaube Werbung für MiniWebtool.com, dann neu laden
A/B-Test-Signifikanz-Rechner
Der A/B-Test-Signifikanz-Rechner wendet einen Zwei-Stichproben-Z-Test auf Ihre Experimentdaten an und gibt an, ob der beobachtete Unterschied zwischen der Kontrollvariante (A) und der Herausforderer-Variante (B) statistisch signifikant ist. Geben Sie die Besucher und Conversions für beide Gruppen ein, und das Tool liefert den p-Wert, das Konfidenzintervall für die Ratendifferenz, den absoluten und relativen Lift, die statistische Teststärke für den beobachteten Effekt, die pro Gruppe erforderliche Stichprobengröße zur Bestätigung des Lifts bei 80% Teststärke sowie ein verständliches Urteil (Gewinn / Verlust / Unschlüssig) — untermauert durch eine animierte Visualisierung, die zeigt, wo Ihr Z-Score auf der Standardnormalverteilung liegt.
Bedienungsanleitung
- Geben Sie die Anzahl der Besucher und Conversions für die Kontrollvariante (A) ein.
- Geben Sie dieselben zwei Zahlen für die zu testende Variante (B) ein, gemessen im selben Zeitfenster.
- Wählen Sie ein Konfidenzniveau — 95% ist Standard, 99% ist strenger, 90% dient der frühen Exploration.
- Wählen Sie zweiseitig (B unterscheidet sich von A in beide Richtungen) oder einseitig (B wird nur angerechnet, wenn es A schlägt).
- Klicken Sie auf Signifikanz berechnen, um das Urteil, den p-Wert, die Konfidenzintervalle, die Teststärke und den Schritt-für-Schritt-Rechenweg abzulesen.
Verwendete Formel (Zwei-Stichproben-Z-Test)
p₁ = c₁ / n₁ · p₂ = c₂ / n₂
p̂ = (c₁ + c₂) / (n₁ + n₂) (gemeinsame Rate unter H₀)
SE = √[ p̂ × (1 − p̂) × (1/n₁ + 1/n₂) ]
z = (p₂ − p₁) / SE
p-Wert (zweiseitig) = 2 × (1 − Φ(|z|))
KI für (p₂ − p₁) auf dem Niveau (1 − α) = (p₂ − p₁) ± zα/2 × √[ p₁(1−p₁)/n₁ + p₂(1−p₂)/n₂ ]
Was diesen A/B-Test-Rechner besonders macht
- Live-Vorschau vor dem Absenden — Tippen Sie einen der vier Werte ein und sehen Sie in Echtzeit, wie sich Raten, Lift, Z-Score, p-Wert und das Urteil aktualisieren.
- Visuelle Signifikanzprüfung — Eine animierte Standardnormalverteilungskurve zeigt genau, wo Ihre Z-Statistik im Verhältnis zu den Ablehnungsbereichen liegt.
- Konfidenzintervall-Forest-Plot — Sehen Sie die 95%-Intervalle für beide Raten nebeneinander. Balken, die sich nicht überschneiden, sind das visuelle Signal für einen Gewinner.
- Urteil in verständlicher Sprache — Ein grünes/gelbes/rotes Banner anstelle eines nackten p-Werts. Die Aussage „Variante B gewinnt“ ist für die meisten Stakeholder greifbarer als „p = 0,028“.
- Anzeige der statistischen Teststärke — Das Tool erkennt, wenn der Test unterpowered ist, und empfiehlt die erforderliche Stichprobengröße pro Gruppe für eine Teststärke von 80%.
- Bayesianisches „P(B > A)“ — Eine ergänzende Ansicht zum frequentistischen p-Wert, die viele Produktteams intuitiver finden.
- Voreingestellte Schnellbeispiele — Laden Sie mit einem Klick ein Szenario für einen eindeutigen Sieg, eine knappe Entscheidung, kein Signal oder einen Verlust und untersuchen Sie, wie sich die Zahlen verändern.
Das Urteil interpretieren
- Grün — Signifikanter Sieg. p-Wert ≤ α und Variantenrate > Kontrollrate. Es ist unwahrscheinlich, dass der Lift auf Zufall beruht; Sie können B ausrollen.
- Rot — Signifikanter Verlust. p-Wert ≤ α, aber Variantenrate < Kontrollrate. B ist tatsächlich schlechter; behalten Sie A bei und untersuchen Sie die Ursachen.
- Gelb — Nahe am Schwellenwert. Der p-Wert liegt nahe bei α. Sammeln Sie mehr Traffic, bevor Sie eine Entscheidung treffen.
- Grau — Noch kein Signal. Die Daten deuten auf keinen realen Unterschied hin. Lassen Sie den Test entweder weiterlaufen oder stoppen Sie ihn, um eine größere Änderung auszuprobieren.
Warum Sie einen Test bei einem signifikanten p-Wert nicht vorzeitig stoppen sollten
Das wiederholte Überprüfen eines Tests und das Stoppen in dem Moment, in dem der p-Wert < 0,05 fällt (oft als „Peeking“ bezeichnet), treibt die Rate falsch-positiver Ergebnisse drastisch in die Höhe — manchmal auf 30% oder mehr bei einem nominalen 5%-Test. Legen Sie die Stichprobengröße im Voraus mit einer Power-Berechnung fest, führen Sie das Experiment bis zu diesem Zielwert durch und bewerten Sie erst dann die Signifikanz. Die von diesem Rechner angezeigte erforderliche Stichprobengröße pro Gruppe ist ein gutes Richtmaß bei der Planung zukünftiger Tests.
Planung der Stichprobengröße
Wenn Ihr Test unterpowered ist, empfiehlt der Rechner eine Stichprobengröße pro Gruppe unter Verwendung der standardmäßigen Power-Formel für zwei Anteile:
n / Gruppe ≈ (zα/2 · √[2p̄(1−p̄)] + zβ · √[p₁(1−p₁) + p₂(1−p₂)])² / (p₂ − p₁)²
wobei p̄ der Durchschnitt von p₁ und p₂ ist und zβ das Quantil der Standardnormalverteilung für die Ziel-Teststärke darstellt (0,84 für 80%).
Setzen Sie Ihre historische Basisrate und den kleinsten Lift, der für Sie von Bedeutung ist, in die Formel ein — das ist die Stichprobengröße, die Sie vor dem Start eines neuen Tests anstreben sollten.
Häufige Fallstricke beim A/B-Testing
- Peeking (Vorzeitiges Reinschauen) — Das tägliche Überprüfen der Ergebnisse und das Stoppen beim ersten signifikanten p-Wert führt zu einer Inflation falsch-positiver Ergebnisse. Nutzen Sie sequentielle Testverfahren oder warten Sie, bis die geplante Stichprobengröße erreicht ist.
- Zu kleine Stichproben — Bei weniger als ein paar hundert Conversions pro Gruppe bricht die Normalverteilungsannahme zusammen. Ziehen Sie in diesem Fall stattdessen den exakten Test nach Fisher in Betracht.
- Mehrfachvergleiche — Wenn Sie zehn Tests durchführen und nur den Gewinner melden, erhöht sich die Falsch-Positiv-Rate. Wenden Sie eine Bonferroni-Korrektur an oder führen Sie vorab registrierte Bestätigungstests durch.
- Neuheitseffekte (Novelty Effects) — Variante B kann in der ersten Woche fantastisch aussehen, schlicht weil den Nutzern die Änderung auffällt. Lassen Sie den Test lange genug laufen, damit sich der Effekt stabilisieren kann.
- Survivorship Bias (Überlebenden-Verzerrung) — Das Filtern von Besuchern nach der Randomisierung macht den Test ungültig. Berechnen Sie den Test immer auf Basis der gesamten randomisierten Population.
- Ungleiche Messzeitfenster — Erheben Sie die Daten für beide Gruppen über absolut identische Zeiträume. Der Traffic-Mix an Wochenenden unterscheidet sich von dem an Wochentagen und verschiebt die Basisrate.
Einseitige vs. zweiseitige Tests
Ein zweiseitiger Test fragt, ob sich B in irgendeiner Richtung von A unterscheidet. Er ist die richtige Standardeinstellung, wenn Sie tatsächlich beide Varianten ausrollen könnten. Ein einseitiger Test berücksichtigt ein Ergebnis nur in der vorab festgelegten Richtung (typischerweise: B schlägt A) und halbiert den p-Wert in etwa, wenn die Daten in diese Richtung weisen — allerdings müssen Sie sich vor dem Sichten der Daten auf die Richtung festlegen. Das Wechseln zu einem einseitigen Test, nachdem man das Ergebnis gesehen hat, ist eine gängige Form des p-Hacking.
Das Konfidenzintervall richtig lesen
Das 95%-Konfidenzintervall für die Differenz der Raten zeigt Ihnen den plausiblen Bereich des tatsächlichen Lifts. Wenn das Intervall vollständig über Null liegt, ist B ein Gewinner; liegt es vollständig unter Null, ist B ein Verlierer; schneidet es die Null, sind die Daten mit keinem realen Unterschied vereinbar. Die Breite des Intervalls ist ein Maß dafür, wie präzise Ihre Schätzung ist — schmaler bedeutet mehr Daten.
FAQ
Was macht der A/B-Test-Signifikanz-Rechner?
Er wendet einen Zwei-Stichproben-Z-Test auf Ihre Conversion-Daten der Kontroll- und Variantengruppe an und zeigt Ihnen, ob der beobachtete Unterschied in den Conversion-Raten wahrscheinlich auf Zufall beruht oder nicht. Er liefert den p-Wert, ein Konfidenzintervall für die Differenz, die statistische Teststärke für den beobachteten Effekt, den Lift sowie ein Urteil in verständlicher Sprache.
Welches Konfidenzniveau sollte ich für einen A/B-Test verwenden?
Ein Konfidenzniveau von 95% (α = 0,05) ist der Industriestandard für Produkt- und Marketingtests. Verwenden Sie 99% für weitreichende Rollouts, bei denen ein falsch-positives Ergebnis kostspielig ist, und 90% nur für frühe Erkundungen, bei denen Sie ein höheres Risiko für falsch-positive Ergebnisse akzeptieren.
Sollte ich einen einseitigen oder einen zweiseitigen Test durchführen?
Verwenden Sie den zweiseitigen Test, wenn Sie sich nur dafür interessieren, ob sich B von A in eine der beiden Richtungen unterscheidet. Verwenden Sie den einseitigen Test, wenn Sie im Voraus eine gerichtete Hypothese festgelegt haben, wie etwa, dass B erwartungsgemäß A schlägt, und Sie bereit sind, Signale in der entgegengesetzten Richtung zu ignorieren. Die meisten Produktteams sollten standardmäßig den zweiseitigen Test nutzen.
Wie wird der p-Wert berechnet?
Die gemeinsame Rate p̂ wird aus den kombinierten Conversions und Besuchern berechnet. Der Standardfehler ist √[p̂(1−p̂)(1/n₁ + 1/n₂)]. Die Z-Statistik ist die Ratendifferenz geteilt durch diesen Standardfehler. Der zweiseitige p-Wert beträgt 2 × (1 − Φ(|z|)), wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist.
Was ist die statistische Teststärke und warum ist sie wichtig?
Die Teststärke ist die Wahrscheinlichkeit, dass der Test einen tatsächlichen Effekt der beobachteten Größe bei der aktuellen Stichprobengröße erkennt. Eine Teststärke von unter 80% bedeutet, dass der Test wahrscheinlich zu klein ist, um den Lift zu bestätigen, selbst wenn er real ist. Der Rechner gibt die Teststärke und die pro Gruppe benötigte Stichprobengröße an, um 80% zu erreichen.
Kann ich den Test stoppen, sobald der p-Wert unter 0,05 fällt?
Nein. Das vorzeitige Prüfen und Stoppen erhöht die Rate falsch-positiver Ergebnisse weit über das nominale α hinaus. Legen Sie die Stichprobengröße im Voraus mittels einer Power-Berechnung fest, führen Sie den Test bis zum Ende durch und bewerten Sie erst dann die Signifikanz. Die von diesem Rechner angezeigte erforderliche Stichprobengröße ist ein gutes Ziel.
Was passiert, wenn meine Conversion-Rate sehr niedrig ist (z. B. unter 1%)?
Die Normalverteilungsannahme kann ungenau sein, wenn np oder n(1−p) klein ist. Als Faustregel gilt, dass Sie mindestens 30 Conversions in jeder Gruppe haben sollten, idealerweise über 100. Für Tests mit sehr niedrigen Raten sollten Sie den exakten Test nach Fisher als konservativere Alternative in Betracht ziehen.
Was bedeutet P(B > A)?
Unter Annahme eines nicht-informativen (gleichverteilten) Priors für jede Rate implizieren die Daten eine Posterior-Wahrscheinlichkeit dafür, dass Variante B eine höhere echte Conversion-Rate als Variante A aufweist. Dies ist ein bayesianisches Gegenstück zum frequentistischen p-Wert und lässt sich gegenüber Nicht-Statistikern oft leichter kommunizieren („Zu 85% sicher, dass B besser ist“ klingt verständlicher als „p = 0,03“).
Zitieren Sie diesen Inhalt, diese Seite oder dieses Tool als:
"A/B-Test-Signifikanz-Rechner" unter https://MiniWebtool.com/de// von MiniWebtool, https://MiniWebtool.com/
vom miniwebtool-Team. Aktualisiert: 2026-05-17
Sie können auch unseren KI-Mathematik-Löser GPT ausprobieren, um Ihre mathematischen Probleme durch natürliche Sprachfragen und -antworten zu lösen.