Calculadora de Significancia de Pruebas A/B
Determine si la diferencia entre las variantes de una prueba A/B es estadísticamente significativa. Ingrese visitantes y conversiones para los grupos de control y variante para obtener el p-valor, el nivel de confianza, el incremento y un veredicto claro de ganar/perder.
Tu bloqueador de anuncios impide que mostremos anuncios
MiniWebtool es gratis gracias a los anuncios. Si esta herramienta te ayudó, apóyanos con Premium (sin anuncios + herramientas más rápidas) o añade MiniWebtool.com a la lista de permitidos y recarga la página.
- O pásate a Premium (sin anuncios)
- Permite anuncios para MiniWebtool.com y luego recarga
Calculadora de Significancia de Pruebas A/B
La Calculadora de Significancia de Pruebas A/B aplica una prueba z de dos proporciones a los datos de su experimento e informa si la diferencia observada entre la variante de control (A) y la variante retadora (B) es estadísticamente significativa. Ingrese los visitantes y las conversiones para ambos grupos y la herramienta le devolverá el valor p, el intervalo de confianza para la diferencia de tasas, el levantamiento absoluto y relativo, la potencia estadística para el efecto observado, el tamaño de muestra por rama que necesitaría para confirmar el levantamiento con un 80% de potencia y un veredicto en lenguaje sencillo de ganar / perder / inconcluso, respaldado por una visualización animada de dónde cae su puntaje z en la distribución normal estándar.
Cómo usar
- Ingrese el número de visitantes y conversiones para la variante de control (A).
- Ingrese los mismos dos números para la variante que se está probando (B), medidos en la misma ventana de tiempo.
- Elija un nivel de confianza: el 95% es el estándar, el 99% es más estricto, el 90% es para exploración inicial.
- Elija dos colas (B diferente de A en cualquier dirección) o una cola (solo dar crédito a B si supera a A).
- Haga clic en Calcular Significancia para leer el veredicto, el valor p, los intervalos de confianza, la potencia y la matemática paso a paso.
Fórmula utilizada (Prueba Z de dos proporciones)
p₁ = c₁ / n₁ · p₂ = c₂ / n₂
p̂ = (c₁ + c₂) / (n₁ + n₂) (tasa combinada bajo H₀)
SE = √[ p̂ × (1 − p̂) × (1/n₁ + 1/n₂) ]
z = (p₂ − p₁) / SE
valor p (dos colas) = 2 × (1 − Φ(|z|))
IC para (p₂ − p₁) al nivel (1 − α) = (p₂ − p₁) ± zα/2 × √[ p₁(1−p₁)/n₁ + p₂(1−p₂)/n₂ ]
¿Qué hace diferente a esta calculadora de pruebas A/B?
- Vista previa en vivo antes de enviar: escriba cualquiera de los cuatro recuentos y observe cómo las tasas, el levantamiento, el puntaje z, el valor p y el veredicto se actualizan en tiempo real.
- Verificación de significancia visual: una curva normal estándar animada muestra exactamente dónde cae su estadístico z en relación con las regiones de rechazo.
- Gráfico de bosque de intervalos de confianza: vea los intervalos del 95% para ambas tasas uno al lado del otro. Las barras que no se superponen son la señal visual de un ganador.
- Veredicto en lenguaje sencillo: un banner verde/ámbar/rojo en lugar de un valor p desnudo. Decir "Gana la variante B" supera a decir "p = 0.028" para la mayoría de las partes interesadas.
- Lectura de potencia estadística: identifica cuando la prueba tiene una potencia insuficiente y recomienda el tamaño de muestra por rama necesario con un 80% de potencia.
- "P(B > A)" de estilo bayesiano: una vista complementaria al valor p frecuentista que muchos equipos de producto encuentran más intuitiva.
- Ajustes preestablecidos de ejemplos rápidos: cargue un escenario de victoria clara, decisión ajustada, sin señal o pérdida con un solo clic y explore cómo cambian los números.
Cómo leer el veredicto
- Verde — Victoria significativa. valor p ≤ α y tasa de variante > tasa de control. Es poco probable que el levantamiento se deba al azar; puede lanzar la variante B.
- Rojo — Pérdida significativa. valor p ≤ α pero tasa de variante < tasa de control. B es genuinamente peor; conserve la A e investigue.
- Ámbar — Cerca del umbral. el valor p está cerca de α. Reúna más tráfico antes de decidir.
- Gris — Sin señal aún. Los datos son consistentes con la ausencia de una diferencia real. Continúe ejecutando la prueba o deténgala e intente un cambio más grande.
Por qué no debería detenerse temprano ante un valor P significativo
Revisar repetidamente una prueba y detenerse en el momento en que el valor p < 0.05 (a menudo llamado "espiar" o "peeking") infla drásticamente la tasa de falsos positivos, a veces hasta el 30% o más para una prueba nominal del 5%. Decida el tamaño de la muestra de antemano con un cálculo de potencia, ejecute el experimento hasta ese objetivo y solo entonces evalúe la significancia. El tamaño de muestra requerido por rama que muestra esta calculadora es un buen objetivo al planificar futuras pruebas.
Planificación del tamaño de muestra
Si su prueba tiene una potencia insuficiente, la calculadora recomienda un tamaño de muestra por rama utilizando la fórmula estándar de potencia para dos proporciones:
n / rama ≈ (zα/2 · √[2p̄(1−p̄)] + zβ · √[p₁(1−p₁) + p₂(1−p₂)])² / (p₂ − p₁)²
donde p̄ es el promedio de p₁ y p₂ y zβ es el cuantil normal estándar para la potencia objetivo (0.84 para el 80%).
Introduzca su tasa de línea base histórica y el levantamiento más pequeño que le interesaría detectar en la fórmula; ese es el tamaño de muestra al que debe apuntar antes de lanzar una nueva prueba.
Errores comunes en las pruebas A/B
- Espiar (Peeking): revisar los resultados a diario y detenerse ante el primer valor p significativo infla los falsos positivos. Use pruebas secuenciales o espere al tamaño de muestra planificado.
- Muestras diminutas: con menos de unas pocas semanas o un par de cientos de conversiones por rama, la aproximación normal puede fallar. Considere la prueba exacta de Fisher en su lugar.
- Comparaciones múltiples: ejecutar diez pruebas y reportar solo la ganadora infla la tasa de falsos positivos. Aplique una corrección de Bonferroni o realice pruebas confirmatorias prerregistradas.
- Efectos de novedad: la variante B puede verse fantástica en la primera semana puramente porque los usuarios notan el cambio. Deje que la prueba se ejecute el tiempo suficiente para que el efecto se estabilice.
- Sesgo de supervivencia: filtrar a los visitantes después de la aleatorización rompe la prueba. Calcule siempre la prueba sobre la población aleatorizada completa.
- Ventana de medición desalineada: recopile datos para ambas ramas durante ventanas de tiempo idénticas. La mezcla de tráfico de fin de semana y días laborables altera la tasa de línea base.
Pruebas de una cola vs. dos colas
Una prueba de dos colas pregunta si B difiere de A en cualquier dirección. Es la opción predeterminada correcta cuando realmente podría lanzar cualquiera de las dos variantes. Una prueba de una cola solo otorga crédito a un resultado en la dirección especificada previamente (típicamente: B supera a A) y reduce el valor p aproximadamente a la mitad cuando los datos apuntan en esa dirección, pero debe comprometerse con la dirección antes de mirar los datos. Cambiar a una cola después de ver el resultado es una forma común de p-hacking.
Cómo leer el intervalo de confianza
El intervalo de confianza del 95% para la diferencia de tasas le indica el rango plausible de los levantamientos reales. Si el intervalo está completamente por encima de cero, B es un ganador; si está completamente por debajo de cero, B es un perdedor; si cruza el cero, los datos son consistentes con que no haya una diferencia real. El ancho del intervalo es una medida de qué tan precisa es su estimación: más estrecho significa más datos.
Preguntas frecuentes
¿Qué hace la calculadora de significancia de pruebas A/B?
Aplica una prueba z de dos proporciones a sus datos de conversión de control y variante y le indica si es poco improbable que la diferencia observada en las tasas de conversión se deba al azar. Informa el valor p, un intervalo de confianza para la diferencia, la potencia estadística para el efecto observado, el levantamiento y un veredicto en lenguaje sencillo.
¿Qué nivel de confianza debo usar para una prueba A/B?
El 95% de confianza (α = 0.05) es el estándar de la industria para pruebas de productos y marketing. Use el 99% para lanzamientos de alto impacto donde un falso positivo es costoso, y el 90% solo para exploración inicial donde acepte un mayor riesgo de falso positivo.
¿Debo realizar una prueba de una cola o de dos colas?
Use dos colas cuando solo le importe que B difiera de A en cualquier dirección. Use una cola cuando tenga una hipótesis direccional decidida de antemano, como que se espera que B supere a A, y esté dispuesto a ignorar cualquier señal en la dirección opuesta. La mayoría de los equipos de producto deberían usar dos colas por defecto.
¿Cómo se calcula el valor p?
La tasa combinada p̂ se calcula a partir de las conversiones y visitantes conjuntos. El error estándar es √[p̂(1−p̂)(1/n₁ + 1/n₂)]. El estadístico z es la diferencia de tasas dividida por ese error estándar. El valor p de dos colas es 2 × (1 − Φ(|z|)) donde Φ es la función de distribución acumulativa normal estándar.
¿Qué es la potencia estadística y por qué es importante?
La potencia es la probabilidad de que la prueba detecte un efecto real del tamaño observado dado el tamaño de muestra actual. Una potencia por debajo del 80% significa que la prueba probablemente sea demasiado pequeña para confirmar el levantamiento incluso si es real. La calculadora informa la potencia y el tamaño de muestra por rama que necesitaría para alcanzar el 80%.
¿Puedo detener la prueba tan pronto como el valor p caiga por debajo de 0.05?
No. Mirar los datos y detenerse temprano infla la tasa de falsos positivos muy por encima del α nominal. Decida el tamaño de la muestra de antemano mediante un cálculo de potencia, ejecute la prueba hasta completar el tamaño objetivo y solo entonces evalúe la significancia. El tamaño de muestra requerido que muestra esta calculadora es un buen objetivo.
¿Qué pasa si mi tasa de conversión es muy baja (por ejemplo, menos del 1%)?
La aproximación normal puede ser inexacta cuando np o n(1−p) es pequeño. Como regla general, se desea tener al menos 30 conversiones en cada rama, idealmente más de 100. Para pruebas con tasas muy bajas, considere la prueba exacta de Fisher como una alternativa más conservadora.
¿Qué significa P(B > A)?
Bajo una distribución previa no informativa (de estilo uniforme) para cada tasa, los datos implican una probabilidad posterior de que la variante B tenga una tasa de conversión real más alta que la variante A. Es un complemento bayesiano al valor p frecuentista y a menudo es más fácil de comunicar a personas no estadísticas ("85% de confianza en que B es mejor" supera a "p = 0.03").
Cite este contenido, página o herramienta como:
"Calculadora de Significancia de Pruebas A/B" en https://MiniWebtool.com/es// de MiniWebtool, https://MiniWebtool.com/
por el equipo de miniwebtool. Actualizado: 2026-05-17
También puede probar nuestro Solucionador de Matemáticas AI GPT para resolver sus problemas matemáticos mediante preguntas y respuestas en lenguaje natural.