Calcolatore di Significatività Test A/B
Determina se la differenza tra le varianti del test A/B è statisticamente significativa. Inserisci visitatori e conversioni per i gruppi di controllo e variante per ottenere il p-value, il livello di confidenza, l'uplift e un verdetto chiaro di vittoria/sconfitta.
Il tuo ad blocker ci impedisce di mostrare annunci
MiniWebtool è gratuito grazie agli annunci. Se questo strumento ti è stato utile, sostienici con Premium (senza annunci + più veloce) oppure inserisci MiniWebtool.com nella whitelist e ricarica la pagina.
- Oppure passa a Premium (senza annunci)
- Consenti gli annunci per MiniWebtool.com, poi ricarica
Calcolatore di Significatività Test A/B
Il Calcolatore di Significatività Test A/B applica uno z-test a due proporzioni ai dati del tuo esperimento e riferisce se la differenza osservata tra la variante di controllo (A) e la variante sfidante (B) è statisticamente significativa. Inserisci visitatori e conversioni per entrambi i gruppi e lo strumento restituirà il p-value, l'intervallo di confidenza per la differenza di tasso, il lift assoluto e relativo, la potenza statistica per l'effetto osservato, la dimensione del campione per braccio necessaria per confermare il lift con una potenza dell'80% e un verdetto in linguaggio semplice di vittoria / sconfitta / inconcludente — supportato da una visualizzazione animata di dove il tuo punteggio z si colloca sulla distribuzione normale standard.
Come utilizzare
- Inserisci il numero di visitatori e conversioni per la variante di controllo (A).
- Inserisci gli stessi due numeri per la variante da testare (B), misurati nella stessa finestra temporale.
- Scegli un livello di confidenza — il 95% è lo standard, il 99% è più rigoroso, il 90% è per l'esplorazione iniziale.
- Scegli a due code (B diverso da A in entrambe le direzioni) o a una coda (attribuisci valore a B solo se supera A).
- Fai clic su Calcola Significatività per leggere il verdetto, il p-value, gli intervalli di confidenza, la potenza e i passaggi matematici dettagliati.
Formula utilizzata (Z-Test a due proporzioni)
p₁ = c₁ / n₁ · p₂ = c₂ / n₂
p̂ = (c₁ + c₂) / (n₁ + n₂) (tasso combinato sotto H₀)
SE = √[ p̂ × (1 − p̂) × (1/n₁ + 1/n₂) ]
z = (p₂ − p₁) / SE
p-value (a due code) = 2 × (1 − Φ(|z|))
IC per (p₂ − p₁) al livello (1 − α) = (p₂ − p₁) ± zα/2 × √[ p₁(1−p₁)/n₁ + p₂(1−p₂)/n₂ ]
Cosa rende diverso questo calcolatore per test A/B
- Anteprima in tempo reale prima dell'invio — digita uno qualsiasi dei quattro conteggi e osserva l'aggiornamento in tempo reale di tassi, lift, punteggio z, p-value e verdetto.
- Verifica visiva della significatività — una curva normale standard animata mostra esattamente dove si colloca la tua statistica z rispetto alle regioni di rifiuto.
- Forest plot dell'intervallo di confidenza — visualizza gli intervalli al 95% per entrambi i tassi l'uno accanto all'altro. Le barre che non si sovrappongono sono il segnale visivo di un vincitore.
- Verdetto in linguaggio semplice — un banner verde/ambra/rosso invece di un semplice p-value. Dire "La variante B vince" è preferibile rispetto a dire "p = 0.028" per la maggior parte degli stakeholder.
- Lettura della potenza statistica — rileva quando il test ha una potenza insufficiente e raccomanda la dimensione del campione per braccio necessaria con una potenza dell'80%.
- "P(B > A)" in stile bayesiano — una vista complementare al p-value frequentista che molti team di prodotto trovano più intuitiva.
- Preimpostazioni di esempio rapido — carica uno scenario di vittoria netta, in bilico, nessun segnale o sconfitta in un solo clic ed esplora come cambiano i numeri.
Leggere il verdetto
- Verde — Vittoria significativa. p-value ≤ α e tasso della variante > tasso di controllo. È improbabile che il lift sia dovuto al caso; puoi implementare B.
- Rosso — Sconfitta significativa. p-value ≤ α ma tasso della variante < tasso di controllo. B è genuinamente peggiore; mantieni A e indaga.
- Ambra — Vicino alla soglia. Il p-value è vicino a α. Raccogli più traffico prima di decidere.
- Grigio — Nessun segnale ancora. I dati sono coerenti con l'assenza di una differenza reale. Continua a eseguire il test oppure fermati e prova una modifica più sostanziale.
Perché non dovresti interrompere in anticipo un test in base a un p-value significativo
Controllare ripetutamente un test e interromperlo nel momento in cui il p-value < 0.05 (spesso chiamato "peeking") gonfia drammaticamente il tasso di falsi positivi — talvolta fino al 30% o più per un test nominale al 5%. Decidi in anticipo la dimensione del campione con un calcolo della potenza, esegui l'esperimento fino a tale obiettivo e solo allora valuta la significatività. La dimensione del campione per braccio richiesta mostrata da questo calcolatore è un buon punto di riferimento per la pianificazione dei test futuri.
Pianificazione della dimensione del campione
Se il tuo test ha una potenza insufficiente, il calcolatore raccomanda una dimensione del campione per braccio utilizzando la formula standard della potenza per due proporzioni:
n / braccio ≈ (zα/2 · √[2p̄(1−p̄)] + zβ · √[p₁(1−p₁) + p₂(1−p₂)])² / (p₂ − p₁)²
dove p̄ è la media di p₁ e p₂ e zβ è il quantile normale standard per la potenza obiettivo (0.84 per l'80%).
Inserisci il tuo tasso di base storico e il lift minimo che riterresti rilevante nella formula — questa è la dimensione del campione da mirare prima di lanciare un nuovo test.
Errori comuni nei test A/B
- Peeking — controllare i risultati quotidianamente e interrompere al primo p-value significativo gonfia i falsi positivi. Utilizza test sequenziali o attendi la dimensione del campione pianificata.
- Campioni minuscoli — con meno di poche centinaia di conversioni per braccio l'approssimazione normale viene meno. Prendi invece in considerazione il test esatto di Fisher.
- Confronti multipli — eseguire dieci test e riportare solo il vincitore gonfia il tasso di falsi positivi. Applica una correzione di Bonferroni o esegui test di conferma pre-registrati.
- Effetti novità — la variante B può apparire fantastica nella prima settimana puramente perché gli utenti notano il cambiamento. Lascia che il test rimanga in esecuzione abbastanza a lungo da consentire all'effetto di stabilizzarsi.
- Bias di sopravvivenza — filtrare i visitatori dopo la randomizzazione invalida il test. Calcola sempre il test sull'intera popolazione randomizzata.
- Finestra di misurazione disallineata — raccogli i dati per entrambi i bracci in finestre temporali identiche. Il mix di traffico nei fine settimana e nei giorni feriali sposta il tasso di base.
Test a una coda vs test a due code
Un test a due code si chiede se B differisce da A in qualsiasi direzione. È l'impostazione predefinita corretta quando potresti effettivamente implementare una qualsiasi delle due varianti. Un test a una coda attribuisce valore solo a un risultato nella direzione specificata in precedenza (tipicamente: B supera A) e dimezza all'incirca il p-value quando i dati puntano in quella direzione — ma devi impegnarti sulla direzione prima di guardare i dati. Passare a un test a una coda dopo aver visto il risultato è una forma comune di p-hacking.
Leggere l'intervallo di confidenza
L'intervallo di confidenza al 95% per la differenza dei tassi indica l'intervallo plausibile dei veri lift. Se l'intervallo è interamente sopra lo zero, B è un vincitore; se è interamente sotto lo zero, B è un perdente; se attraversa lo zero, i dati sono coerenti con l'assenza di una differenza reale. L'ampiezza dell'intervallo è una misura di quanto sia precisa la tua stima — più è stretto, più dati sono presenti.
FAQ
Cosa fa il calcolatore di significatività test A/B?
Applica uno z-test a due proporzioni ai dati di conversione del controllo e della variante e indica se la differenza osservata nei tassi di conversione è improbabile che sia spiegata dal caso. Riporta il p-value, un intervallo di confidenza per la differenza, la potenza statistica per l'effetto osservato, il lift e un verdetto in linguaggio semplice.
Quale livello di confidenza dovrei usare per un test A/B?
La confidenza al 95% (α = 0.05) è lo standard del settore per i test di prodotto e marketing. Usa il 99% per i rilasci ad alto impatto in cui un falso positivo è costoso, e il 90% solo per l'esplorazione iniziale in cui si accetta un rischio di falso positivo più elevato.
Dovrei eseguire un test a una coda o a due code?
Usa il test a due code quando ti interessa solo che B differisca da A in entrambe le direzioni. Usa il test a una coda quando hai un'ipotesi direzionale decisa in anticipo, come ad esempio ci si aspetta che B superi A, e sei disposto a ignorare qualsiasi segnale nella direzione opposta. La maggior parte dei team di prodotto dovrebbe utilizzare come impostazione predefinita il test a due code.
Come viene calcolato il p-value?
Il tasso combinato p̂ viene calcolato dalle conversioni e dai visitatori combinati. L'errore standard è √[p̂(1−p̂)(1/n₁ + 1/n₂)]. La statistica z è la differenza dei tassi divisa per tale errore standard. Il p-value a due code è 2 × (1 − Φ(|z|)) dove Φ è la funzione di distribuzione cumulativa normale standard.
Cos'è la potenza statistica e perché è importante?
La potenza è la probabilità che il test rilevi un effetto reale della dimensione osservata, data l'attuale dimensione del campione. Una potenza inferiore all'80% significa che il test è probabilmente troppo piccolo per confermare il lift anche se è reale. Il calcolatore riporta la potenza e la dimensione del campione per braccio necessaria per raggiungere l'80%.
Posso interrompere il test non appena il p-value scende sotto 0.05?
No. Sbirciare e interrompere anticipatamente gonfia il tasso di falsi positivi ben al di sopra dell'alpha nominale. Decidi in anticipo la dimensione del campione utilizzando un calcolo della potenza, esegui il test fino al completamento e solo allora valuta la significatività. La dimensione del campione richiesta mostrata da questo calcolatore è un buon obiettivo.
Cosa succede se il mio tasso di conversione è molto basso (ad esempio inferiore all'1%)?
L'approssimazione normale può essere imprecisa quando np o n(1−p) è piccolo. Come regola generale, si desiderano almeno 30 conversioni in ciascun braccio, idealmente più di 100. For i test con tassi molto bassi, considera il test esatto di Fisher come un'alternativa più conservativa.
Cosa significa P(B > A)?
Sotto una distribuzione a priori non informativa (di tipo uniforme) su ciascun tasso, i dati implicano una probabilità a posteriori che la variante B abbia un tasso di conversione reale più elevato rispetto alla variante A. È un complemento bayesiano al p-value frequentista ed è spesso più facile da comunicare ai non statistici ("confidenza all'85% che B sia migliore" supera "p = 0.03").
Cita questo contenuto, pagina o strumento come:
"Calcolatore di Significatività Test A/B" su https://MiniWebtool.com/it// di MiniWebtool, https://MiniWebtool.com/
dal team miniwebtool. Aggiornato: 2026-05-17
Puoi anche provare il nostro Risolutore di Matematica AI GPT per risolvere i tuoi problemi matematici attraverso domande e risposte in linguaggio naturale.