Calculadora de Significância de Teste A/B
Determine se a diferença entre as variantes do teste A/B é estatisticamente significativa. Insira visitantes e conversões para os grupos de controle e variante para obter o p-value, nível de confiança, uplift e um veredito claro de vitória/derrota.
Seu bloqueador de anúncios está impedindo a exibição de anúncios
O MiniWebtool é gratuito graças aos anúncios. Se esta ferramenta ajudou você, apoie-nos indo para o Premium (sem anúncios + ferramentas mais rápidas) ou coloque MiniWebtool.com na lista de permissões e recarregue a página.
- Ou faça upgrade para o Premium (sem anúncios)
- Permita anúncios para MiniWebtool.com e recarregue
Calculadora de Significância de Teste A/B
A Calculadora de Significância de Teste A/B aplica um teste z de duas proporções aos dados do seu experimento e informa se a diferença observada entre a variante de controle (A) e a variante desafiante (B) é estatisticamente significativa. Insira os visitantes e conversões para ambos os grupos e a ferramenta retornará o p-valor, o intervalo de confiança para a diferença de taxa, o lift absoluto e relativo, o poder estatístico para o efeito observado, o tamanho da amostra por braço necessário para confirmar o lift com 80% de poder e um veredito em linguagem clara de vitória / derrota / inconclusivo — apoiado por uma visualização animada de onde o seu escore z se enquadra na distribuição normal padrão.
Como Usar
- Insira o número de visitantes e conversões para a variante de controle (A).
- Insira os mesmos dois números para a variante que está sendo testada (B), medidos na mesma janela de tempo.
- Escolha um nível de confiança — 95% é o padrão, 99% é mais rigoroso, 90% é para exploração inicial.
- Escolha bicaudal (B diferente de A em qualquer direção) ou unicaudal (apenas creditar B se vencer A).
- Clique em Calcular Significância para ler o veredito, p-valor, intervalos de confiança, poder e a matemática passo a passo.
Fórmula Utilizada (Teste Z de Duas Proporções)
p₁ = c₁ / n₁ · p₂ = c₂ / n₂
p̂ = (c₁ + c₂) / (n₁ + n₂) (taxa combinada sob H₀)
SE = √[ p̂ × (1 − p̂) × (1/n₁ + 1/n₂) ]
z = (p₂ − p₁) / SE
p-valor (bicaudal) = 2 × (1 − Φ(|z|))
IC para (p₂ − p₁) no nível (1 − α) = (p₂ − p₁) ± zα/2 × √[ p₁(1−p₁)/n₁ + p₂(1−p₂)/n₂ ]
O Que Torna Esta Calculadora de Teste A/B Diferente
- Visualização ao vivo antes de enviar — digite qualquer uma das quatro contagens e veja as taxas, lift, escore z, p-valor e veredito serem atualizados em tempo real.
- Verificação visual de significância — uma curva normal padrão animada mostra exatamente onde a sua estatística z cai em relação às regiões de rejeição.
- Gráfico de floresta do intervalo de confiança — veja os intervalos de 95% para ambas as taxas lado a lado. Barras que não se sobrepõem são o sinal visual de um vencedor.
- Veredito em linguagem clara — um banner verde/âmbar/vermelho em vez de apenas um p-valor puro. Dizer "Variante B vence" é muito melhor do que dizer "p = 0.028" para a maioria dos stakeholders.
- Leitura do poder estatístico — identifica quando o teste tem baixo poder e recomenda o tamanho de amostra por braço necessário para atingir 80% de poder.
- "P(B > A)" de estilo Bayesiano — uma visão complementar ao p-valor frequentista que muitas equipes de produto consideram mais intuitiva.
- Predefinições de exemplos rápidos — carregue um cenário de vitória clara, resultado apertado, sem sinal ou derrota com um clique e explore como os números se movem.
Lendo o Veredito
- Verde — Vitória significativa. p-valor ≤ α e taxa da variante > taxa de controle. É improvável que o lift seja devido ao acaso; você pode lançar a variante B.
- Vermelho — Derrota significativa. p-valor ≤ α mas taxa da variante < taxa de controle. A variante B é genuinamente pior; mantenha a variante A e investigue.
- Âmbar — Perto do limite. p-valor está próximo de α. Colete mais tráfego antes de decidir.
- Cinza — Sem sinal ainda. Os dados são consistentes com nenhuma diferença real. Continue executando o teste ou pare e tente uma mudança maior.
Por Que Você Não Deve Parar Mais Cedo com um P-Valor Significativo
Verificar repetidamente um teste e pará-lo no momento em que o p-valor < 0.05 (frequentemente chamado de "espiar" ou "peeking") infla a taxa de falsos positivos drasticamente — às vezes para 30% ou mais em um teste nominal de 5%. Decida o tamanho da amostra com antecedência com um cálculo de poder, execute o experimento até essa meta e só então avalie a significância. O tamanho de amostra por braço necessário mostrado por esta calculadora é uma boa meta ao planejar testes futuros.
Planejamento do Tamanho de Amostra
Se o seu teste estiver com baixo poder, a calculadora recomenda um tamanho de amostra por braço usando a fórmula de poder padrão para duas proporções:
n / braço ≈ (zα/2 · √[2p̄(1−p̄)] + zβ · √[p₁(1−p₁) + p₂(1−p₂)])² / (p₂ − p₁)²
onde p̄ é a média de p₁ e p₂ e zβ é o quantil normal padrão para o poder do público-alvo (0.84 para 80%).
Insira a sua taxa de linha de base histórica e o menor lift com o qual você se importaria na fórmula — esse é o tamanho de amostra ideal antes de lançar um novo teste.
Armadilhas Comuns em Testes A/B
- Espiar (Peeking) — verificar os resultados diariamente e parar no primeiro p-valor significativo infla os falsos positivos. Use testes sequenciais ou aguarde o tamanho de amostra planejado.
- Amostras minúsculas — com menos de algumas centenas de conversões por braço, a aproximação normal falha. Considere o teste exato de Fisher como alternativa.
- Múltiplas comparações — executar dez testes e relatar apenas o vencedor infla a taxa de falsos positivos. Aplique uma correção de Bonferroni ou execute testes confirmatórios pré-registrados.
- Efeitos de novidade — a variante B pode parecer ótima na primeira semana puramente porque os usuários notaram a mudança. Deixe o teste rodar tempo suficiente para o efeito se estabilizar.
- Viés de sobrevivência — filtrar os visitantes após a randomização quebra o teste. Sempre compute o teste sobre a população randomizada total.
- Janela de medição desalinhada — colete dados para ambos os braços em janelas de tempo idênticas. A mistura de tráfego de fins de semana e dias úteis altera a taxa de linha de base.
Testes Unicaudais vs Bicaudais
Um teste bicaudal pergunta se B difere de A em qualquer direção. É o padrão correto quando você genuinamente poderia lançar qualquer uma das variantes. Um teste unicaudal apenas credita um resultado na direção pré-especificada (normalmente: B vence A) e reduz o p-valor pela metade quando os dados apontam para esse lado — mas você deve se comprometer com a direção antes de olhar os dados. Mudar para unicaudal após ver o resultado é uma forma comum de p-hacking.
Lendo o Intervalo de Confiança
O intervalo de confiança de 95% para a diferença nas taxas indica a faixa plausível de lifts reais. Se o intervalo estiver inteiramente acima de zero, B é um vencedor; inteiramente abaixo de zero, B é um perdedor; cruzando o zero, os dados são consistentes com nenhuma diferença real. A largura do intervalo é uma medida de quão precisa é a sua estimativa — mais estreito significa mais dados.
FAQ
O que a calculadora de significância de teste A/B faz?
Ela aplica um teste z de duas proporções aos dados de conversão do seu controle e variante e informa se a diferença observada nas taxas de conversão é improvável de ser explicada pelo acaso. Ela relata o p-valor, um intervalo de confiança para a diferença, o poder estatístico para o efeito observado, o lift e um veredito em linguagem clara.
Qual nível de confiança devo usar para um teste A/B?
95% de confiança (α = 0.05) é o padrão da indústria para testes de produto e marketing. Use 99% para lançamentos de alto impacto onde um falso positivo custa caro, e 90% apenas para exploração inicial onde você aceita um risco maior de falso positivo.
Devo executar um teste unicaudal ou bicaudal?
Use bicaudal quando você se importa apenas que B seja diferente de A em qualquer direção. Use unicaudal quando você tiver uma hipótese direcional decidida com antecedência, como esperar que B supere A, e estiver disposto a ignorar qualquer sinal na direção oposta. A maioria das equipes de produto deve usar bicaudal por padrão.
Como o p-valor é calculado?
A taxa combinada p̂ é calculada a partir das conversões e visitantes combinados. O erro padrão é √[p̂(1−p̂)(1/n₁ + 1/n₂)]. A estatística z é a diferença de taxa dividida por esse erro padrão. O p-valor bicaudal é 2 × (1 − Φ(|z|)) onde Φ é a função de distribuição acumulada normal padrão.
O que é poder estatístico e por que ele importa?
O poder é a probabilidade de que o teste detecte um efeito real do tamanho observado, dado o tamanho atual da amostra. Um poder abaixo de 80% significa que o teste provavelmente é pequeno demais para confirmar o lift, mesmo que ele seja real. A calculadora relata o poder e o tamanho de amostra por braço que você precisaria para atingir 80%.
Posso parar o teste assim que o p-valor cair abaixo de 0.05?
Não. Espiar e parar mais cedo infla a taxa de falsos positivos bem acima do α nominal. Decida o tamanho da amostra com antecedência usando um cálculo de poder, execute o teste até o fim e só então avalie a significância. O tamanho de amostra necessário mostrado por esta calculadora é uma boa meta.
E se a minha taxa de conversão for muito baixa (ex: abaixo de 1%)?
A aproximação normal pode ser imprecisa quando np ou n(1−p) é pequeno. Como regra geral, você quer pelo menos 30 conversões em cada braço, idealmente mais de 100. Para testes com taxas muito baixas, considere o teste exato de Fisher como uma alternativa mais conservadora.
O que significa P(B > A)?
Sob uma distribuição a priori não informativa (estilo uniforme) para cada taxa, os dados implicam uma probabilidade a posteriori de que a variante B tenha uma taxa de conversão real maior do que a variante A. É um complemento bayesiano ao p-valor frequentista e costuma ser mais fácil de comunicar para não estatísticos ("85% de confiança de que B é melhor" supera "p = 0.03").
Cite este conteúdo, página ou ferramenta como:
"Calculadora de Significância de Teste A/B" em https://MiniWebtool.com/br// de MiniWebtool, https://MiniWebtool.com/
pela equipe miniwebtool. Atualizado: 2026-05-17
Você também pode experimentar nosso Solucionador de Matemática AI GPT para resolver seus problemas de matemática através de perguntas e respostas em linguagem natural.