Calculadora de Significância de Teste A/B

Determine se a diferença entre as variantes do teste A/B é estatisticamente significativa. Insira visitantes e conversões para os grupos de controle e variante para obter o p-value, nível de confiança, uplift e um veredito claro de vitória/derrota.

Exemplos rápidosToque para carregar um cenário típico e ajuste qualquer campo antes de calcular.

Visualização ao vivo — adicione dados

Taxa do Controle —

Taxa da Variante —

Lift relativo —

z = — · p-valor pendente

Controle (A)

Original

Visitantes

Conversões Deve ser no máximo o número de visitantes acima.

Variante (B)

Desafiante

Visitantes

Conversões Mesma janela de tempo que a medição do controle.

Nível de confiança

Tipo de teste

Embed Calculadora de Significância de Teste A/B Widget

Calculadora de Significância de Teste A/B

A Calculadora de Significância de Teste A/B aplica um teste z de duas proporções aos dados do seu experimento e informa se a diferença observada entre a variante de controle (A) e a variante desafiante (B) é estatisticamente significativa. Insira os visitantes e conversões para ambos os grupos e a ferramenta retornará o p-valor, o intervalo de confiança para a diferença de taxa, o lift absoluto e relativo, o poder estatístico para o efeito observado, o tamanho da amostra por braço necessário para confirmar o lift com 80% de poder e um veredito em linguagem clara de vitória / derrota / inconclusivo — apoiado por uma visualização animada de onde o seu escore z se enquadra na distribuição normal padrão.

Como Usar

Insira o número de visitantes e conversões para a variante de controle (A).
Insira os mesmos dois números para a variante que está sendo testada (B), medidos na mesma janela de tempo.
Escolha um nível de confiança — 95% é o padrão, 99% é mais rigoroso, 90% é para exploração inicial.
Escolha bicaudal (B diferente de A em qualquer direção) ou unicaudal (apenas creditar B se vencer A).
Clique em Calcular Significância para ler o veredito, p-valor, intervalos de confiança, poder e a matemática passo a passo.

Fórmula Utilizada (Teste Z de Duas Proporções)

p₁ = c₁ / n₁ · p₂ = c₂ / n₂

p̂ = (c₁ + c₂) / (n₁ + n₂) (taxa combinada sob H₀)

SE = √[ p̂ × (1 − p̂) × (1/n₁ + 1/n₂) ]

z = (p₂ − p₁) / SE

p-valor (bicaudal) = 2 × (1 − Φ(|z|))

IC para (p₂ − p₁) no nível (1 − α) = (p₂ − p₁) ± z_α/2 × √[ p₁(1−p₁)/n₁ + p₂(1−p₂)/n₂ ]

O Que Torna Esta Calculadora de Teste A/B Diferente

Visualização ao vivo antes de enviar — digite qualquer uma das quatro contagens e veja as taxas, lift, escore z, p-valor e veredito serem atualizados em tempo real.
Verificação visual de significância — uma curva normal padrão animada mostra exatamente onde a sua estatística z cai em relação às regiões de rejeição.
Gráfico de floresta do intervalo de confiança — veja os intervalos de 95% para ambas as taxas lado a lado. Barras que não se sobrepõem são o sinal visual de um vencedor.
Veredito em linguagem clara — um banner verde/âmbar/vermelho em vez de apenas um p-valor puro. Dizer "Variante B vence" é muito melhor do que dizer "p = 0.028" para a maioria dos stakeholders.
Leitura do poder estatístico — identifica quando o teste tem baixo poder e recomenda o tamanho de amostra por braço necessário para atingir 80% de poder.
"P(B > A)" de estilo Bayesiano — uma visão complementar ao p-valor frequentista que muitas equipes de produto consideram mais intuitiva.
Predefinições de exemplos rápidos — carregue um cenário de vitória clara, resultado apertado, sem sinal ou derrota com um clique e explore como os números se movem.

Lendo o Veredito

Verde — Vitória significativa. p-valor ≤ α e taxa da variante > taxa de controle. É improvável que o lift seja devido ao acaso; você pode lançar a variante B.
Vermelho — Derrota significativa. p-valor ≤ α mas taxa da variante < taxa de controle. A variante B é genuinamente pior; mantenha a variante A e investigue.
Âmbar — Perto do limite. p-valor está próximo de α. Colete mais tráfego antes de decidir.
Cinza — Sem sinal ainda. Os dados são consistentes com nenhuma diferença real. Continue executando o teste ou pare e tente uma mudança maior.

Por Que Você Não Deve Parar Mais Cedo com um P-Valor Significativo

Verificar repetidamente um teste e pará-lo no momento em que o p-valor < 0.05 (frequentemente chamado de "espiar" ou "peeking") infla a taxa de falsos positivos drasticamente — às vezes para 30% ou mais em um teste nominal de 5%. Decida o tamanho da amostra com antecedência com um cálculo de poder, execute o experimento até essa meta e só então avalie a significância. O tamanho de amostra por braço necessário mostrado por esta calculadora é uma boa meta ao planejar testes futuros.

Planejamento do Tamanho de Amostra

Se o seu teste estiver com baixo poder, a calculadora recomenda um tamanho de amostra por braço usando a fórmula de poder padrão para duas proporções:

n / braço ≈ (z_α/2 · √[2p̄(1−p̄)] + z_β · √[p₁(1−p₁) + p₂(1−p₂)])² / (p₂ − p₁)²

onde p̄ é a média de p₁ e p₂ e z_β é o quantil normal padrão para o poder do público-alvo (0.84 para 80%).

Insira a sua taxa de linha de base histórica e o menor lift com o qual você se importaria na fórmula — esse é o tamanho de amostra ideal antes de lançar um novo teste.

Armadilhas Comuns em Testes A/B

Espiar (Peeking) — verificar os resultados diariamente e parar no primeiro p-valor significativo infla os falsos positivos. Use testes sequenciais ou aguarde o tamanho de amostra planejado.
Amostras minúsculas — com menos de algumas centenas de conversões por braço, a aproximação normal falha. Considere o teste exato de Fisher como alternativa.
Múltiplas comparações — executar dez testes e relatar apenas o vencedor infla a taxa de falsos positivos. Aplique uma correção de Bonferroni ou execute testes confirmatórios pré-registrados.
Efeitos de novidade — a variante B pode parecer ótima na primeira semana puramente porque os usuários notaram a mudança. Deixe o teste rodar tempo suficiente para o efeito se estabilizar.
Viés de sobrevivência — filtrar os visitantes após a randomização quebra o teste. Sempre compute o teste sobre a população randomizada total.
Janela de medição desalinhada — colete dados para ambos os braços em janelas de tempo idênticas. A mistura de tráfego de fins de semana e dias úteis altera a taxa de linha de base.

Testes Unicaudais vs Bicaudais

Um teste bicaudal pergunta se B difere de A em qualquer direção. É o padrão correto quando você genuinamente poderia lançar qualquer uma das variantes. Um teste unicaudal apenas credita um resultado na direção pré-especificada (normalmente: B vence A) e reduz o p-valor pela metade quando os dados apontam para esse lado — mas você deve se comprometer com a direção antes de olhar os dados. Mudar para unicaudal após ver o resultado é uma forma comum de p-hacking.

Lendo o Intervalo de Confiança

O intervalo de confiança de 95% para a diferença nas taxas indica a faixa plausível de lifts reais. Se o intervalo estiver inteiramente acima de zero, B é um vencedor; inteiramente abaixo de zero, B é um perdedor; cruzando o zero, os dados são consistentes com nenhuma diferença real. A largura do intervalo é uma medida de quão precisa é a sua estimativa — mais estreito significa mais dados.

FAQ

O que a calculadora de significância de teste A/B faz?

Ela aplica um teste z de duas proporções aos dados de conversão do seu controle e variante e informa se a diferença observada nas taxas de conversão é improvável de ser explicada pelo acaso. Ela relata o p-valor, um intervalo de confiança para a diferença, o poder estatístico para o efeito observado, o lift e um veredito em linguagem clara.

Qual nível de confiança devo usar para um teste A/B?

95% de confiança (α = 0.05) é o padrão da indústria para testes de produto e marketing. Use 99% para lançamentos de alto impacto onde um falso positivo custa caro, e 90% apenas para exploração inicial onde você aceita um risco maior de falso positivo.

Devo executar um teste unicaudal ou bicaudal?

Use bicaudal quando você se importa apenas que B seja diferente de A em qualquer direção. Use unicaudal quando você tiver uma hipótese direcional decidida com antecedência, como esperar que B supere A, e estiver disposto a ignorar qualquer sinal na direção oposta. A maioria das equipes de produto deve usar bicaudal por padrão.

Como o p-valor é calculado?

A taxa combinada p̂ é calculada a partir das conversões e visitantes combinados. O erro padrão é √[p̂(1−p̂)(1/n₁ + 1/n₂)]. A estatística z é a diferença de taxa dividida por esse erro padrão. O p-valor bicaudal é 2 × (1 − Φ(|z|)) onde Φ é a função de distribuição acumulada normal padrão.

O que é poder estatístico e por que ele importa?

O poder é a probabilidade de que o teste detecte um efeito real do tamanho observado, dado o tamanho atual da amostra. Um poder abaixo de 80% significa que o teste provavelmente é pequeno demais para confirmar o lift, mesmo que ele seja real. A calculadora relata o poder e o tamanho de amostra por braço que você precisaria para atingir 80%.

Posso parar o teste assim que o p-valor cair abaixo de 0.05?

Não. Espiar e parar mais cedo infla a taxa de falsos positivos bem acima do α nominal. Decida o tamanho da amostra com antecedência usando um cálculo de poder, execute o teste até o fim e só então avalie a significância. O tamanho de amostra necessário mostrado por esta calculadora é uma boa meta.

E se a minha taxa de conversão for muito baixa (ex: abaixo de 1%)?

A aproximação normal pode ser imprecisa quando np ou n(1−p) é pequeno. Como regra geral, você quer pelo menos 30 conversões em cada braço, idealmente mais de 100. Para testes com taxas muito baixas, considere o teste exato de Fisher como uma alternativa mais conservadora.

O que significa P(B > A)?

Sob uma distribuição a priori não informativa (estilo uniforme) para cada taxa, os dados implicam uma probabilidade a posteriori de que a variante B tenha uma taxa de conversão real maior do que a variante A. É um complemento bayesiano ao p-valor frequentista e costuma ser mais fácil de comunicar para não estatísticos ("85% de confiança de que B é melhor" supera "p = 0.03").

Cite este conteúdo, página ou ferramenta como:

"Calculadora de Significância de Teste A/B" em https://MiniWebtool.com/br/calculadora-de-significancia-de-teste-ab/ de MiniWebtool, https://MiniWebtool.com/

pela equipe miniwebtool. Atualizado: 2026-05-17

Você também pode experimentar nosso Solucionador de Matemática AI GPT para resolver seus problemas de matemática através de perguntas e respostas em linguagem natural.

Calculadora de Significância de Teste A/B

Controle (A)

Variante (B)

Calculadora de Significância de Teste A/B

Como Usar

Fórmula Utilizada (Teste Z de Duas Proporções)

O Que Torna Esta Calculadora de Teste A/B Diferente

Lendo o Veredito

Por Que Você Não Deve Parar Mais Cedo com um P-Valor Significativo

Planejamento do Tamanho de Amostra

Armadilhas Comuns em Testes A/B

Testes Unicaudais vs Bicaudais

Lendo o Intervalo de Confiança

FAQ

O que a calculadora de significância de teste A/B faz?

Qual nível de confiança devo usar para um teste A/B?

Devo executar um teste unicaudal ou bicaudal?

Como o p-valor é calculado?

O que é poder estatístico e por que ele importa?

Posso parar o teste assim que o p-valor cair abaixo de 0.05?

E se a minha taxa de conversão for muito baixa (ex: abaixo de 1%)?

O que significa P(B > A)?

Estatísticas e análise de dados:

Ferramentas em destaque: