Calculadora de Tamaño de Muestra para Test A/B
Planifique un test A/B antes de lanzarlo. Ingrese su tasa de conversión de línea base, el efecto mínimo detectable (MDE), el nivel de significación (alfa) y la potencia (1 menos beta) para obtener el tamaño de muestra requerido por variante, el tamaño de muestra total y cuánto tiempo tomará el test dado su tráfico diario.
Tu bloqueador de anuncios impide que mostremos anuncios
MiniWebtool es gratis gracias a los anuncios. Si esta herramienta te ayudó, apóyanos con Premium (sin anuncios + herramientas más rápidas) o añade MiniWebtool.com a la lista de permitidos y recarga la página.
- O pásate a Premium (sin anuncios)
- Permite anuncios para MiniWebtool.com y luego recarga
Calculadora de Tamaño de Muestra para Test A/B
La Calculadora de Tamaño de Muestra para Test A/B planifica un test A/B antes de su lanzamiento. Introduzca la tasa de conversión base, el efecto mínimo detectable (MDE) que le interesa, el nivel de significación (alpha) y la potencia estadística que desea, y la calculadora le devolverá el tamaño de muestra requerido por rama y total. Además, obtendrá una estimación automática de la duración del test a partir de su tráfico diario y cuota de tráfico, una curva de potencia que muestra cómo crece la potencia con el tamaño de la muestra, una tabla de sensibilidad que compara el coste de diferentes opciones de MDE, una visualización de la asignación de tráfico y un veredicto de viabilidad en lenguaje sencillo. Desarrollada específicamente para tests A/B de tasa de conversión (prueba z de dos proporciones, formulación de Cohen), con corrección opcional de Bonferroni para tests multivariante.
Cómo usar
- Introduzca la tasa de conversión base de la variante actual (A), medida durante un periodo representativo reciente.
- Establezca el efecto mínimo detectable (MDE): la mejora más pequeña que realmente cambiaría su decisión. Alterne entre porcentaje relativo y puntos porcentuales absolutos.
- Elija un nivel de significación (alpha): el 5% (95% de confianza) es el valor predeterminado de la industria.
- Elija una potencia estadística: el 80% es el valor predeterminado de la industria; auméntelo al 90% para lanzamientos de alto impacto.
- Elija dos colas (B es diferente de A en cualquier dirección, predeterminado) o una cola (solo se reconoce que B supera a A).
- Si está ejecutando un test multivariante, establezca el número de variantes y la calculadora aplicará automáticamente la corrección de Bonferroni.
- Introduzca los visitantes diarios de la página y la cuota de tráfico dirigida al experimento.
- Haga clic en Calcular Tamaño de Muestra para leer el tamaño de muestra por rama y total, la duración esperada del test, la curva de potencia, la tabla de sensibilidad y las matemáticas paso a paso.
Fórmula utilizada (Fórmula de potencia para dos proporciones)
p₂ = p₁ × (1 + MDE_relative) o p₂ = p₁ + MDE_absolute
p̄ = (p₁ + p₂) / 2 (tasa combinada bajo H₀)
SD₀ = √[ 2 × p̄ × (1 − p̄) ] (desviación estándar bajo la hipótesis nula)
SD₁ = √[ p₁(1 − p₁) + p₂(1 − p₂) ] (desviación estándar bajo la hipótesis alternativa)
n / arm = (zα/2 × SD₀ + zβ × SD₁)² / (p₂ − p₁)²
Para tests de una cola, reemplace zα/2 por zα. Para K variantes frente a un control, reemplace α por α / (K − 1) (corrección de Bonferroni).
Qué hace diferente a esta calculadora de tamaño de muestra
- Vista previa en vivo antes de enviar: cada pulsación de tecla actualiza el tamaño de la muestra por rama, los visitantes totales, la tasa de conversión objetivo y la estimación de la duración.
- Duración del test en tiempo real: convierte el concepto abstracto de "necesita 31,000 visitantes" en algo concreto como "su test se ejecutará durante 8 días con 4,000 visitantes/rama/día en el test".
- Curva de potencia animada: vea exactamente dónde se sitúa su tamaño de muestra objetivo en la curva de potencia y cuánta potencia adicional aportaría una semana extra de tráfico.
- Tabla de sensibilidad de MDE: compare el coste en tamaño de muestra para detectar mejoras del 2%, 5%, 10%, 15%, 20% y 25% lado a lado, de modo que pueda elegir la mejora más pequeña que siga siendo viable.
- MDE relativo o absoluto: alternancia con un solo clic entre las dos formas más comunes en que los equipos de producto especifican los objetivos de mejora.
- Soporte multivariante con Bonferroni: maneja tests A/B/C y A/B/C/D con corrección automática; muchas calculadoras aplican silenciosamente matemáticas de tests A/B simples para entradas multivariante.
- Visualización de asignación de tráfico: una barra apilada que muestra exactamente cómo se divide el tráfico del test entre el control y cada variante.
- Veredicto de viabilidad en lenguaje sencillo: un banner verde/ámbar/rojo que advierte sobre tests lentos antes del lanzamiento.
- Escenarios rápidos: ajustes preestablecidos con un solo clic para líneas base típicas de comercio electrónico, SaaS, email e instalación de aplicaciones móviles.
Cómo leer el veredicto de viabilidad
- Verde — Viable. El test se completa en dos semanas. Tiene suficiente tráfico para detectar la mejora elegida con la confianza seleccionada.
- Ámbar — Realizable. El test toma de dos a seis semanas. Planifique en torno a al menos un ciclo comercial completo y resista la tentación de echar un vistazo.
- Rojo — Lento. El test toma más de seis semanas (o no puede completarse). Los tests largos están expuestos a la estacionalidad y a los cambios en el comportamiento del usuario; aumente el MDE que le interesa o incremente la cuota de tráfico dirigida al experimento.
Por qué el tamaño de la muestra escala tan rápido
Dos relaciones son las más importantes. En primer lugar, el tamaño de muestra requerido escala con uno sobre el cuadrado del MDE: reducir a la mitad la mejora que desea detectar cuadruplica la muestra requerida. En segundo lugar, los tests con líneas base bajas cuestan más: con una base del 1% se necesitan aproximadamente 25 veces más visitantes que con una base del 5% para detectar la misma mejora relativa. Juntos, estos dos efectos explican por qué incluso los sitios con mucho tráfico tienen dificultades para detectar pequeñas mejoras en flujos con tasas bajas.
Errores comunes en la planificación de tests A/B
- Configurar un MDE demasiado pequeño. Infla el tamaño de la muestra a números que no se pueden recopilar en un tiempo razonable. Elija la mejora más pequeña que realmente cambiaría su decisión de implementación, no una estimación optimista.
- Potencia por debajo del 80%. Un test con un 60% de potencia tiene un 40% de probabilidades de pasar por alto un efecto real. El estándar para las decisiones de producto es el 80%; no lo baje solo para que el test "encaje".
- Detener el test antes de tiempo por un valor p bajo. Echar un vistazo a los resultados provisionales y detenerse en el momento en que p < 0.05 infla la tasa de falsos positivos de forma drástica. Comprométase con el tamaño de muestra planificado antes del lanzamiento.
- Ignorar el coste multivariante. Un test A/B/C/D con cuatro variantes necesita el alpha corregido por Bonferroni, lo que generalmente requiere de 2 a 3 veces la muestra por rama de un test A/B simple.
- Olvidar los efectos del fin de semana. Un test de 7 días como mínimo permite promediar la combinación de tráfico de los días de la semana; los tests muy cortos pueden verse sesgados por las diferencias entre los días laborables y el fin de semana.
- Subestimar el impacto de la asignación. Si solo dirige el 50% del tráfico al test, la tasa por rama se reduce a la mitad, lo que duplica la duración en el calendario.
Elegir Alpha y Potencia
Alpha es la tasa de falsos positivos: la probabilidad de declarar que B es el ganador cuando en realidad no lo es. La potencia es uno menos la tasa de falsos negativos: la probabilidad de detectar un ganador real del tamaño del MDE. Los valores predeterminados de la industria son alpha = 0.05 y potencia = 0.80. Use alpha = 0.01 y potencia = 0.90 para implementaciones de alto riesgo donde una decisión incorrecta resulte costosa. Ambas elecciones exigen más del test e inflan el tamaño de muestra requerido: bajar alpha de 0.05 a 0.01 duplica aproximadamente la muestra; subir la potencia de 0.80 a 0.90 la incrementa en otro 30%.
MDE relativo frente a absoluto
El MDE relativo (% de la línea base) es el enfoque más común: "Quiero detectar una mejora del 10% en mi tasa de conversión actual del 5%", lo que significa p₂ = 5.5%. El MDE absoluto (puntos porcentuales) es el enfoque adecuado cuando el impacto comercial se expresa en puntos: "Quiero detectar una mejora de +0.5 pp en mi línea base del 5%", lo que significa p₂ = 5.5%. Ambos son equivalentes; elija el que coincida con la forma en que los interesados piensan sobre la métrica.
Tests multivariante y corrección de Bonferroni
Si compara K variantes contra un control, está ejecutando K − 1 tests simultáneos. La tasa ingenua de falsos positivos se infla con cada comparación adicional: tres tests independientes con un alpha = 0.05 tienen una probabilidad combinada de falsos positivos de aproximadamente el 14%, no del 5%. La solución estándar es la corrección de Bonferroni: divida su alpha nominal por el número de comparaciones antes de calcular el valor crítico de z. Esta calculadora aplica la corrección automáticamente cuando establece el número de variantes por encima de 2. El resultado es un tamaño de muestra requerido por rama más grande: los tests multivariante cuestan más tráfico por rama que los tests A/B simples.
Preguntas frecuentes
¿Qué tamaño de muestra necesito para un test A/B?
Depende de cuatro números: la tasa de conversión base, el efecto mínimo detectable (MDE), el nivel de significación (alpha) y la potencia estadística. Para un test típico de comercio electrónico con una base del 5%, un objetivo de mejora relativa del 10%, un alpha de 0.05 y un 80% de potencia, necesita aproximadamente 31,000 visitantes por variante. Las líneas base más bajas y los MDE más pequeños inflan drásticamente el tamaño de muestra requerido.
¿Qué es el efecto mínimo detectable (MDE) y cómo elijo uno?
El MDE es la mejora más pequeña que desea que el test detecte de manera confiable. Elíjalo en función del impacto comercial: la mejora más pequeña que cambiaría su decisión de implementación. Puntos de partida comunes: del 5 al 10% relativo para flujos de pago y registro de alto tráfico, del 15 al 25% relativo para funciones con menor tráfico. Un MDE más pequeño significa un tamaño de muestra mucho mayor, así que no lo configure demasiado bajo.
¿Qué nivel de significación y potencia debo usar?
Un alpha de 0.05 (95% de confianza) y un 80% de potencia son los valores predeterminados de la industria para tests de productos y marketing. Use un alpha de 0.01 y un 90% de potencia para lanzamientos de alto impacto. Reducir el alpha o el beta requiere un tamaño de muestra mayor; el compromiso es entre falsos positivos (alpha), falsos negativos (beta) y cuánto tiempo toma el test.
¿Por qué mi test necesita tantos visitantes por variante?
Dos factores dominan. En primer lugar, las tasas de conversión base más bajas inflan el tamaño de muestra requerido: detectar una pequeña mejora en una base del 1% requiere aproximadamente 25 veces más visitantes que en una base del 5%. En segundo lugar, el tamaño de muestra requerido escala con uno sobre el cuadrado del MDE: reducir el MDE a la mitad cuadruplica la muestra requerida. Aumente el MDE que le interesa o acepte un test más largo.
¿Cómo se deriva la fórmula?
Es la fórmula estándar de potencia para dos proporciones basada en la aproximación normal. El tamaño de muestra por rama es igual al cuadrado de (zα multiplicado por la desviación estándar combinada bajo la hipótesis nula más zβ multiplicado por la desviación estándar bajo la hipótesis alternativa), dividido por la diferencia de tasas al cuadrado. La calculadora utiliza la varianza combinada para el término nulo y la varianza no combinada para el término alternativo, que es la formulación de libro de texto más común (Cohen 1988, Fleiss et al. 1980).
¿Cómo manejo los tests multivariante con más de una variante?
Cuando compara K variantes contra un control, la calculadora aplica una corrección de Bonferroni dividiendo alpha por (K − 1) antes de calcular el valor crítico de z. Esto protege contra la tasa inflada de falsos positivos que conlleva realizar múltiples comparaciones. El resultado es un tamaño de muestra requerido por rama más grande: los tests multivariante cuestan más tráfico por rama que los tests A/B simples.
¿Debo ejecutar el test durante la cantidad de días recomendada o detenerme cuando alcance la significación?
Ejecútelo durante la duración recomendada y solo evalúe la significación al final. Detener el test en el momento en que un valor p cae por debajo de 0.05 (echar un vistazo) infla la tasa de falsos positivos muy por encima del alpha nominal. El tamaño de muestra que muestra esta calculadora es el objetivo planificado: comprométase con él antes del lanzamiento y resista la tentación de declarar un ganador antes de tiempo. Una vez finalizado el test, introduzca sus resultados en la Calculadora de Significación de Test A/B complementaria para conocer el valor p y el intervalo de confianza.
¿Qué pasa si mi tasa de conversión es muy baja (menos del 1%)?
La aproximación normal puede ser ligeramente inexacta cuando np o n(1 − p) es pequeño. Para tests con tasas muy bajas (por ejemplo, una línea base del 0.1%), la calculadora sigue ofreciendo una estimación de planificación razonable, pero considere añadir un pequeño margen adicional (10-15%) por encima del tamaño de muestra recomendado. Para muestras muy pequeñas por rama, el test exacto de Fisher es una alternativa más conservadora para la etapa de análisis.
Cite este contenido, página o herramienta como:
"Calculadora de Tamaño de Muestra para Test A/B" en https://MiniWebtool.com/es// de MiniWebtool, https://MiniWebtool.com/
por el equipo de miniwebtool. Actualizado: 2026-05-17
También puede probar nuestro Solucionador de Matemáticas AI GPT para resolver sus problemas matemáticos mediante preguntas y respuestas en lenguaje natural.