Calculadora de Tamanho de Amostra para Teste A/B
Planeje um teste A/B antes do lançamento. Insira sua taxa de conversão de linha de base, o efeito mínimo detectável (MDE), o nível de significância (alfa) e o poder estatístico (1 menos beta) para obter o tamanho de amostra necessário por variante, o tamanho total da amostra e quanto tempo o teste levará considerando seu tráfego diário.
Embed Calculadora de Tamanho de Amostra para Teste A/B Widget
Seu bloqueador de anúncios está impedindo a exibição de anúncios
O MiniWebtool é gratuito graças aos anúncios. Se esta ferramenta ajudou você, apoie-nos indo para o Premium (sem anúncios + ferramentas mais rápidas) ou coloque MiniWebtool.com na lista de permissões e recarregue a página.
- Ou faça upgrade para o Premium (sem anúncios)
- Permita anúncios para MiniWebtool.com e recarregue
Calculadora de Tamanho de Amostra para Teste A/B
A Calculadora de Tamanho de Amostra para Teste A/B planeja um teste A/B antes de você lançá-lo. Insira a taxa de conversão de linha de base, o efeito mínimo detectável (MDE) com o qual você se importa, o nível de significância (alfa) e o poder estatístico que deseja, e a calculadora retorna o tamanho de amostra exigido por braço e total — além de uma estimativa automática de duração do teste com base no seu tráfego diário e participação no tráfego, uma curva de poder mostrando como o poder cresce com o tamanho da amostra, uma tabela de sensibilidade que compara o custo de diferentes escolhas de MDE, uma visualização da alocação de tráfego e um veredito de viabilidade em linguagem simples. Desenvolvida especificamente para testes A/B de taxa de conversão (teste z de duas proporções, formulação de Cohen), com correção opcional de Bonferroni para testes multivariados.
Como Usar
- Insira a taxa de conversão de linha de base da variante atual (A), medida em uma janela representativa recente.
- Defina o efeito mínimo detectável (MDE) — o menor levantamento que realmente mudaria sua decisão. Alterne entre porcentagem relativa e pontos percentuais absolutos.
- Escolha um nível de significância (alfa) — 5% (95% de confiança) é o padrão do setor.
- Escolha um poder estatístico — 80% é o padrão do setor; aumente para 90% para implementações de alto impacto.
- Escolha entre bicaudal (B diferente de A em qualquer direção, padrão) ou unicaudal (apenas credita se B vencer A).
- Se estiver executando um teste multivariado, defina o número de variantes — a calculadora aplica a correção de Bonferroni automaticamente.
- Insira os visitantes diários na página e a participação no tráfego direcionada para o experimento.
- Clique em Calcular Tamanho da Amostra para ler o tamanho da amostra por braço e total, a duração esperada do teste, a curva de poder, a tabela de sensibilidade e a matemática passo a passo.
Fórmula Utilizada (Fórmula de Poder de Duas Proporções)
p₂ = p₁ × (1 + MDE_relative) ou p₂ = p₁ + MDE_absolute
p̄ = (p₁ + p₂) / 2 (taxa combinada sob H₀)
SD₀ = √[ 2 × p̄ × (1 − p̄) ] (desvio padrão sob a hipótese nula)
SD₁ = √[ p₁(1 − p₁) + p₂(1 − p₂) ] (desvio padrão sob a hipótese alternativa)
n / braço = (zα/2 × SD₀ + zβ × SD₁)² / (p₂ − p₁)²
Para testes unicaudais, substitua zα/2 por zα. Para K variantes vs um controle, substitua α por α / (K − 1) (correção de Bonferroni).
O Que Torna Esta Calculadora de Tamanho de Amostra Diferente
- Visualização ao vivo antes de enviar — cada tecla digitada atualiza o tamanho da amostra por braço, visitantes totais, taxa de conversão alvo e estimativa de duração.
- Duração do teste em tempo real — transforma o conceito abstrato de "você precisa de 31.000 visitantes" no dado concreto de "seu teste rodará por 8 dias com 4.000 visitantes/dia no teste".
- Curva de poder animada — veja exatamente onde o seu tamanho de amostra alvo fica na curva de poder e quanto mais poder uma semana extra de tráfego traria.
- Tabela de sensibilidade ao MDE — compare o custo em tamanho de amostra para detectar levantamentos de 2%, 5%, 10%, 15%, 20% e 25% lado a lado, para que você possa escolher o menor levantamento que ainda seja viável.
- MDE relativo ou absoluto — alternância com um clique entre as duas formas mais comuns de as equipes de produto especificarem as metas de levantamento.
- Suporte multivariado com Bonferroni — lida com testes A/B/C e A/B/C/D com correção automática; muitas calculadoras usam silenciosamente a matemática de A/B simples para entradas multivariadas.
- Visualização da alocação de tráfego — uma barra empilhada mostrando exatamente como o tráfego do teste se divide entre o controle e cada variante.
- Veredito de viabilidade em linguagem simples — banner verde/âmbar/vermelho que sinaliza testes lentos antes do lançamento.
- Cenários rápidos — predefinições de um clique para linhas de base típicas de e-commerce, SaaS, e-mail e instalação móvel.
Lendo o Veredito de Viabilidade
- Verde — Viável. O teste é concluído em duas semanas. Você tem tráfego amplo para detectar o levantamento escolhido com a confiança escolhida.
- Âmbar — Praticável. O teste leva de duas a seis semanas. Planeje com base em pelo menos um ciclo de negócios completo e resista ao impulso de espiar os dados.
- Vermelho — Lento. O teste leva mais de seis semanas (o não pode ser concluído). Testes longos ficam expostos à sazonalidade e a mudanças no comportamento do usuário — aumente o MDE com o qual se importa ou aumente a participação no tráfego direcionada para o experimento.
Por Que o Tamanho da Amostra Escala Tão Rápido
Duas relações importam mais. Primeiro, o tamanho da amostra exigido escala com um sobre o quadrado do MDE — reduzir pela metade o levantamento que você deseja detectar quadruplica a amostra necessária. Segundo, testes com linhas de base baixas custam mais — em uma linha de base de 1% você precisa de cerca de 25 vezes mais visitantes do que em uma linha de base de 5% para detectar o mesmo levantamento relativo. Juntos, esses dois efeitos explicam por que até mesmo sites de alto tráfego lutam para detectar pequenos levantamentos em fluxos de taxas baixas.
Armadilhas Comuns no Planejamento de Testes A/B
- Definir um MDE muito pequeno. Infla o tamanho da amostra para números que você não consegue coletar em um tempo razoável. Escolha o menor levantamento que realmente mudaria sua decisão de implementação — e não um palpite esperançoso.
- Poder abaixo de 80%. Um teste com 60% de poder tem 40% de chance de perder um efeito real. O padrão para decisões de produto é 80%; não o diminua apenas para fazer o teste "caber".
- Parar mais cedo por conta de um valor-p baixo. Espiar os resultados provisórios e parar no momento em que p < 0,05 infla a taxa de falsos positivos drasticamente. Comprometa-se com o tamanho de amostra planejado antes do lançamento.
- Ignorar o custo multivariado. Um teste A/B/C/D com quatro variantes precisa do alfa corrigido por Bonferroni — geralmente de 2 a 3 vezes a amostra por braço de um teste A/B simples.
- Esquecer os efeitos de fim de semana. Um teste de no mínimo 7 dias permite calcular a média do mix de tráfego dos dias da semana; testes muito curtos podem ser distorcidos por diferenças entre dias úteis e fins de semana.
- Subestimar a sobrecarga de alocação. Se você direcionar apenas 50% do tráfego para o teste, a taxa por braço cai pela metade — o que dobra a duração no calendário.
Escolhendo o Alfa e o Poder
Alfa é a taxa de falsos positivos — a probabilidade de declarar B como vencedor quando na verdade ele não é. Poder é um menos a taxa de falsos negativos — a probabilidade de detectar um vencedor real do tamanho do MDE. Os padrões do setor são alfa = 0,05 e poder = 0,80. Use alfa = 0,01 e poder = 0,90 para implementações de alto risco, onde uma decisão errada custa caro. Ambas as escolhas tornam o teste mais rigoroso e inflam o tamanho de amostra exigido: diminuir o alfa de 0,05 para 0,01 praticamente dobra a amostra; aumentar o poder de 0,80 para 0,90 a eleva em mais 30%.
MDE Relativo vs Absoluto
O MDE Relativo (% da linha de base) é a abordagem mais comum: "Quero detectar um levantamento de 10% sobre minha taxa de conversão atual de 5%", significando p₂ = 5,5%. O MDE Absoluto (pontos percentuais) é a abordagem correta quando o impacto comercial é expresso em pontos: "Quero detectar um levantamento de +0,5 pp sobre minha linha de base de 5%", significando p₂ = 5,5%. Ambos são equivalentes — escolha aquele que corresponda à forma como os seus stakeholders pensam sobre a métrica.
Testes Multivariados e Correção de Bonferroni
Se você comparar K variantes contra um controle, estará executando K − 1 testes simultâneos. A taxa ingênua de falsos positivos infla a cada comparação extra — três testes independentes com alfa = 0,05 têm uma probabilidade combinada de falsos positivos de aproximadamente 14%, e não de 5%. A solução padrão é a correção de Bonferroni: divida seu alfa nominal pelo número de comparações antes de computar o valor z crítico. Esta calculadora aplica a correção automaticamente quando você define o número de variantes acima de 2. O resultado é um tamanho de amostra exigido maior por braço — testes multivariados custam mais tráfego por braço do que testes A/B simples.
Perguntas Frequentes
Qual tamanho de amostra eu preciso para um teste A/B?
Depende de quatro números: taxa de conversão de linha de base, efeito mínimo detectável (MDE), nível de significância (alfa) e poder estatístico. Para um teste de e-commerce típico com uma linha de base de 5%, uma meta de levantamento relativo de 10%, alfa de 0,05 e 80% de poder, você precisa de aproximadamente 31.000 visitantes por variante. Linhas de base mais baixas e MDEs menores inflam o tamanho de amostra exigido drasticamente.
O que é o efeito mínimo detectável (MDE) e como escolho um?
O MDE é o menor levantamento que você deseja que o teste detecte com segurança. Escolha-o com base no impacto comercial — a menor melhoria que mudaria sua decisão de implementação. Pontos de partida comuns: 5 a 10% relativo para fluxos de checkout e inscrição de alto tráfego, 15 a 25% relativo para recursos de menor tráfego. Um MDE menor significa um tamanho de amostra muito maior, portanto, não o defina abaixo do necessário.
Qual nível de significância e poder devo usar?
Alfa de 0,05 (95% de confiança) e 80% de poder são os padrões do setor para testes de produtos e marketing. Use alfa de 0,01 e 90% de poder para implementações de alto impacto. Diminuir o alfa ou o beta exige um tamanho de amostra maior — a compensação é entre falsos positivos (alfa), falsos negativos (beta) e o tempo de duração do teste.
Por que meu teste precisa de tantos visitantes por variante?
Dois fatores dominam. Primeiro, taxas de conversão de linha de base mais baixas inflam o tamanho de amostra exigido — detectar um pequeno levantamento em uma linha de base de 1% exige cerca de 25× mais visitantes do que em uma linha de base de 5%. Segundo, o tamanho de amostra exigido escala com um sobre o quadrado do MDE — reduzir o MDE pela metade quadruplica a amostra necessária. Aumente o MDE com o qual você se importa ou aceite um teste mais longo.
Como a fórmula é derivada?
É a fórmula padrão de poder de duas proporções baseada na aproximação normal. O tamanho da amostra por braço é igual ao quadrado de (zα vezes o desvio padrão combinado sob a hipótese nula mais zβ vezes o desvio padrão sob a hipótese alternativa), dividido pela diferença de taxa ao quadrado. A calculadora usa a variância combinada para o termo nulo e a variância não combinada para o termo alternativo — a formulação mais comum dos livros didáticos (Cohen 1988, Fleiss et al. 1980).
Como faço para lidar com testes multivariados com mais de uma variante?
Quando você compara K variantes contra um controle, a calculadora aplica uma correção de Bonferroni dividindo o alfa por (K − 1) antes de computar o valor z crítico. Isso protege contra a taxa inflada de falsos positivos que decorre da realização de múltiplas comparações. O resultado é um tamanho de amostra exigido maior por braço — testes multivariados custam mais tráfego por braço do que testes A/B simples.
Devo rodar o teste pelo número recomendado de dias ou parar quando atingir a significância?
Rode o teste pela duração recomendada e avalie a significância apenas no final. Parar no momento em que um valor-p cai abaixo de 0,05 (espiar) infla a taxa de falsos positivos bem acima do alfa nominal. O tamanho de amostra exibido por esta calculadora é a meta planejada — comprometa-se com ela antes do lançamento e resista ao impulso de declarar o vencedor antes da hora. Após o término do teste, insira seus resultados na Calculadora de Significância de Teste A/B complementar para ler o valor-p e o intervalo de confiança.
E se minha taxa de conversão for muito baixa (abaixo de 1%)?
A aproximação normal pode ser um pouco imprecisa quando np ou n(1 − p) é pequeno. Para testes de taxas muito baixas (por exemplo, uma linha de base de 0,1%), a calculadora ainda fornece uma estimativa razoável de planejamento, mas considere uma pequena margem extra (10-15%) além do tamanho de amostra recomendado. Para amostras muito pequenas por braço, o teste exato de Fisher é uma alternativa mais conservadora para a fase de análise.
Cite este conteúdo, página ou ferramenta como:
"Calculadora de Tamanho de Amostra para Teste A/B" em https://MiniWebtool.com/br// de MiniWebtool, https://MiniWebtool.com/
pela equipe miniwebtool. Atualizado: 2026-05-17
Você também pode experimentar nosso Solucionador de Matemática AI GPT para resolver seus problemas de matemática através de perguntas e respostas em linguagem natural.