Comment la valeur p est-elle calculée ?

Le taux global p-chapeau est calculé à partir de l'ensemble des conversions et des visiteurs. L'erreur standard est la racine carrée de p-chapeau multiplié par un moins p-chapeau, le tout multiplié par la somme de un sur chaque taille d'échantillon. La statistique z est la différence entre les taux divisée par cette erreur standard. La valeur p est la probabilité de queue de la distribution normale standard au-delà du score z.

Calculateur de Signification de Test A/B

Déterminez si la différence entre les variantes d’un test A/B est statistiquement significative. Saisissez les visiteurs et les conversions pour les groupes de contrôle et de variante afin d’obtenir la p-value, le niveau de confiance, l’amélioration et un verdict clair de réussite ou d’échec.

Exemples rapidesAppuyez pour charger un scénario typique, puis ajustez n'importe quel champ avant de calculer.

Aperçu en direct — ajoutez des données

Taux contrôle —

Taux variante —

Amélioration relative —

z = — · valeur p en attente

Contrôle (A)

Original

Visiteurs

Conversions Doit être au maximum égal au nombre de visiteurs ci-dessus.

Variante (B)

Challenger

Visiteurs

Conversions Même période de mesure que le contrôle.

Niveau de confiance

Type de test

Embed Calculateur de Signification de Test A/B Widget

Calculateur de Signification de Test A/B

Le Calculateur de Signification de Test A/B applique un test z à deux proportions aux données de vos expériences et indique si la différence observée entre la variante de contrôle (A) et la variante challengeuse (B) est statistiquement significative. Saisissez les visiteurs et les conversions pour les deux groupes et l'outil renvoie la valeur p, l'intervalle de confiance pour la différence de taux, l'amélioration absolue et relative, la puissance statistique pour l'effet observé, la taille d'échantillon par groupe nécessaire pour confirmer l'amélioration à une puissance de 80%, ainsi qu'un verdict clair en langage simple (gagnant / perdant / non concluant) — appuyé par une visualisation animée de la position de votre score z sur la distribution normale standard.

Comment utiliser

Entrez le nombre de visiteurs et de conversions pour la variante de contrôle (A).
Entrez les deux mêmes chiffres pour la variante testée (B), mesurés sur la même période de temps.
Choisissez un niveau de confiance — 95% est la norme, 99% est plus strict, 90% sert à l'exploration initiale.
Choisissez bilatéral (B est différent de A dans un sens ou dans l'autre) ou unilatéral (B n'est crédité que s'il bat A).
Cliquez sur Calculer la signification pour lire le verdict, la valeur p, les intervalles de confiance, la puissance et le détail mathématique étape par étape.

Formule utilisée (Test Z à deux proportions)

p₁ = c₁ / n₁ · p₂ = c₂ / n₂

p̂ = (c₁ + c₂) / (n₁ + n₂) (taux global sous H₀)

SE = √[ p̂ × (1 − p̂) × (1/n₁ + 1/n₂) ]

z = (p₂ − p₁) / SE

valeur p (bilatérale) = 2 × (1 − Φ(|z|))

IC pour (p₂ − p₁) au niveau (1 − α) = (p₂ − p₁) ± z_α/2 × √[ p₁(1−p₁)/n₁ + p₂(1−p₂)/n₂ ]

Ce qui rend ce calculateur de test A/B différent

Aperçu en direct avant de valider — saisissez l'un des quatre nombres et observez les taux, l'amélioration, le score z, la valeur p et le verdict se mettre à jour en temps réel.
Vérification visuelle de la signification — une courbe normale standard animée montre exactement où se situe votre statistique z par rapport aux régions de rejet.
Graphique en forêt des intervalles de confiance — visualisez côte à côte les intervalles de 95% pour les deux taux. Des barres qui ne se chevauchent pas constituent le signal visuel d'un vainqueur.
Verdict en langage clair — une bannière verte/ambre/rouge plutôt qu'une simple valeur p brute. Dire « La variante B gagne » est plus parlant pour la plupart des parties prenantes que de dire « p = 0,028 ».
Lecture de la puissance statistique — l'outil sait quand le test manque de puissance et recommande la taille d'échantillon par groupe nécessaire pour atteindre 80% de puissance.
« P(B > A) » de style bayésien — une vue complémentaire de la valeur p fréquentiste que de nombreuses équipes produit trouvent plus intuitive.
Préréglages d'exemples rapides — chargez un scénario de victoire nette, de décision serrée, d'absence de signal ou de perte en un clic pour explorer l'évolution des chiffres.

Lire le verdict

Vert — Victoire significative. valeur p ≤ α et taux de la variante > taux de contrôle. L'amélioration a peu de chances d'être due au hasard ; vous pouvez déployer B.
Rouge — Perte significative. valeur p ≤ α mais taux de la variante < taux de contrôle. B est réellement moins performant ; conservez A et analysez les raisons.
Ambre — Proche du seuil. La valeur p est proche de α. Collectez plus de trafic avant de prendre une décision.
Gris — Aucun signal pour l'instant. Les données sont cohérentes avec une absence de différence réelle. Continuez le test ou arrêtez-le pour essayer un changement plus important.

Pourquoi vous ne devriez pas vous arrêter dès qu'une valeur p est significative

Vérifier de manière répétée un test et s'arrêter au moment exact où la valeur p < 0,05 (pratique souvent appelée « peeking » ou observation continue) gonfle considérablement le taux de faux positifs — parfois jusqu'à 30% ou plus pour un test nominal à 5%. Déterminez la taille de l'échantillon à l'avance à l'aide d'un calcul de puissance, menez l'expérience jusqu'à cet objectif, et évaluez seulement à ce moment-là la signification. La taille d'échantillon requise par groupe affichée par ce calculateur est une bonne cible pour planifier vos futurs tests.

Planification de la taille de l'échantillon

Si votre test manque de puissance, le calculateur vous recommande une taille d'échantillon par groupe en utilisant la formule standard de puissance pour deux proportions :

n / groupe ≈ (z_α/2 · √[2p̄(1−p̄)] + z_β · √[p₁(1−p₁) + p₂(1−p₂)])² / (p₂ − p₁)²

où p̄ est la moyenne de p₁ et p₂ et z_β est le quantile normal standard pour la puissance cible (0,84 pour 80%).

Intégrez votre taux de référence historique et la plus petite amélioration qui vous intéresse dans la formule — c'est la taille d'échantillon à cibler avant de lancer un nouveau test.

Pièges courants dans les tests A/B

Peeking (regards répétés) — analyser les résultats quotidiennement et s'arrêter au premier signe de valeur p significative multiplie les faux positifs. Utilisez des tests séquentiels ou attendez d'atteindre la taille d'échantillon prévue.
Échantillons minuscules — à moins de quelques centaines de conversions par groupe, l'approximation normale ne fonctionne plus. Envisagez plutôt le test exact de Fisher.
Comparaisons multiples — lancer dix tests et ne rapporter que le gagnant gonfle le taux de faux positifs. Appliquez une correction de Bonferroni ou menez des tests de confirmation pré-enregistrés.
Effets de nouveauté — la variante B peut sembler excellente la première semaine simplement parce que les utilisateurs remarquent le changement. Laissez le test tourner assez longtemps pour que l'effet se stabilise.
Biais de survie — filtrer les visiteurs après la répartition aléatoire fausse le test. Calculez toujours le test sur l'ensemble de la population assignée au hasard.
Période de mesure décalée — collectez les données pour les deux groupes sur des périodes strictement identiques. Le profil du trafic du week-end diffère de celui de la semaine, ce qui modifie le taux de base.

Tests unilatéraux vs tests bilatéraux

Un test bilatéral cherche à savoir si B diffère de A, quelle que soit la direction. C'est le choix par défaut idéal lorsque vous pourriez réellement déployer l'une ou l'autre des variantes. Un test unilatéral ne valide un résultat que dans la direction spécifiée à l'avance (généralement : B bat A) et divise approximativement la valeur p par deux lorsque les données vont dans ce sens — mais vous devez vous engager sur cette direction avant de regarder les données. Passer à un test unilatéral après avoir vu le résultat est une forme courante de p-hacking.

Lire l'intervalle de confiance

L'intervalle de confiance de 95% pour la différence de taux vous indique la plage plausible des améliorations réelles. Si l'intervalle est entièrement supérieur à zéro, B est gagnant ; s'il est entièrement inférieur à zéro, B est perdant ; s'il traverse zéro, les données sont cohérentes avec une absence de différence réelle. La largeur de l'intervalle mesure la précision de votre estimation — plus il est étroit, plus vous disposez de données.

FAQ

Que fait le calculateur de signification de test A/B ?

Il applique un test z à deux proportions à vos données de conversion de contrôle et de variante et vous indique s'il est peu probable que la différence observée dans les taux de conversion s'explique par le hasard. Il affiche la valeur p, un intervalle de confiance pour la différence, la puissance statistique pour l'effet observé, l'amélioration et un verdict en langage simple.

Quel niveau de confiance dois-je utiliser pour un test A/B ?

Une confiance de 95% (α = 0,05) est la norme de l'industrie pour les tests de produits et de marketing. Utilisez 99% pour les déploiements à fort impact où un faux positif coûte cher, et 90% uniquement pour l'exploration initiale où vous acceptez un risque de faux positif plus élevé.

Dois-je effectuer un test unilatéral ou bilatéral ?

Utilisez le test bilatéral lorsque vous voulez simplement savoir si B diffère de A dans un sens ou dans l'autre. Utilisez le test unilatéral lorsque vous avez une hypothèse directionnelle décidée à l'avance, par exemple que B devrait battre A, et que vous êtes prêt à ignorer tout signal dans le sens opposé. La plupart des équipes produit devraient utiliser le test bilatéral par défaut.

How is the p-value calculated?

Le taux global p̂ est calculé à partir de l'ensemble des conversions et des visiteurs. L'erreur standard est √[p̂(1−p̂)(1/n₁ + 1/n₂)]. La statistique z est la différence entre les taux divisée par cette erreur standard. La valeur p bilatérale est 2 × (1 − Φ(|z|)) où Φ est la fonction de distribution cumulative normale standard.

Qu'est-ce que la puissance statistique et pourquoi est-elle importante ?

La puissance est la probabilité que le test détecte un effet réel de la taille observée compte tenu de la taille actuelle de l'échantillon. Une puissance inférieure à 80% signifie que l'échantillon est probablement trop petit pour confirmer l'amélioration même si elle est réelle. Le calculateur affiche la puissance et la taille d'échantillon par groupe dont vous auriez besoin pour atteindre 80%.

Puis-je arrêter le test dès que la valeur p descend en dessous de 0,05 ?

No. Jeter un coup d'œil et s'arrêter prématurément gonfle le taux de faux positifs bien au-dessus de l'alpha nominal. Déterminez la taille de l'échantillon à l'avance à l'aide d'un calcul de puissance, menez le test jusqu'à son terme, et évaluez seulement ensuite la signification. La taille d'échantillon requise indiquée par ce calculateur est une bonne cible.

Que se passe-t-il si mon taux de conversion est très bas (ex. moins de 1%) ?

L'approximation normale peut manquer de précision lorsque np ou n(1−p) est petit. En règle générale, il est préférable d'avoir au moins 30 conversions dans chaque groupe, et idéalement plus de 100. Pour les tests à taux très bas, considérez le test exact de Fisher comme une alternative plus prudente.

Que signifie P(B > A) ?

Sous un a priori non informatif (de type uniforme) sur chaque taux, les données impliquent une probabilité a posteriori que la variante B ait un taux de conversion réel supérieur à la variante A. C'est un pendant bayésien à la valeur p fréquentiste et il est souvent plus facile à communiquer aux non-statisticiens (« sûr à 85% que B est meilleur » est plus clair que « p = 0,03 »).

Citez ce contenu, cette page ou cet outil comme suit :

"Calculateur de Signification de Test A/B" sur https://MiniWebtool.com/fr/calculateur-de-signification-de-test-ab/ de MiniWebtool, https://MiniWebtool.com/

par l'équipe miniwebtool. Mis à jour : 2026-05-17

Vous pouvez également essayer notre Résolveur Mathématique IA GPT pour résoudre vos problèmes mathématiques grâce à des questions-réponses en langage naturel.

Autres outils connexes:

Calculateur de Taille d'Échantillon pour Test A/BNouveau

Calculatrice de distribution binomiale

Calculateur du Théorème Central Limite

Calculatrice de test du khi-deuxEn vedette

Calculatrice de d de Cohen

Calculateur d'intervalle de confiance pour proportion

Calculateur de taux de conversionNouveau

Calculateur de ROI InfluenceurNouveau

Calculateur de Valeur pNouveau

Calculatrice de la taille de l'échantillon

Calculateur de Signification de Test A/B

Contrôle (A)

Variante (B)

Calculateur de Signification de Test A/B

Comment utiliser

Formule utilisée (Test Z à deux proportions)

Ce qui rend ce calculateur de test A/B différent

Lire le verdict

Pourquoi vous ne devriez pas vous arrêter dès qu'une valeur p est significative

Planification de la taille de l'échantillon

Pièges courants dans les tests A/B

Tests unilatéraux vs tests bilatéraux

Lire l'intervalle de confiance

FAQ

Que fait le calculateur de signification de test A/B ?

Quel niveau de confiance dois-je utiliser pour un test A/B ?

Dois-je effectuer un test unilatéral ou bilatéral ?

How is the p-value calculated?

Qu'est-ce que la puissance statistique et pourquoi est-elle importante ?

Puis-je arrêter le test dès que la valeur p descend en dessous de 0,05 ?

Que se passe-t-il si mon taux de conversion est très bas (ex. moins de 1%) ?

Que signifie P(B > A) ?

Autres outils connexes:

Statistiques et analyse de données:

Outils en vedette: