A/B测试显著性计算器

确定A/B测试版本之间的差异在统计学上是否显著。输入对照组和变体组的访客数与转化数，即可获得P值、置信水平、提升率以及明确的胜负结论。

A/B测试显著性计算器

快速示例点击加载典型场景，然后在计算前调整任一字段。

实时预览 — 请添加数据

对照组转化率 —

实验组转化率 —

相对提升度 —

z = — · p 值待定

对照组 (A)

原始版

访客数

转化数必须小于或等于上方的访客数。

实验组 (B)

挑战版

访客数

转化数与对照组测量相同的时间窗口。

置信水平

检验类型

Embed A/B测试显著性计算器 Widget

A/B测试显著性计算器

A/B 测试显著性计算器对您的实验数据进行双比例 z 检验，并报告对照组原始版本（A）和实验组挑战版本（B）之间的观测差异是否具有统计学显著性。输入两组的访客数和转化数，该工具将返回 p 值、转化率差异的置信区间、绝对和相对提升度、观测效应的统计功效、在 80% 统计功效下确认提升所需的每组样本量，以及一个通俗易懂的胜出 / 落败 / 结论不明确的结论——并辅以您的 z 得分落在标准正态分布上何处位置的动态可视化图形。

如何使用

输入对照组原始版本（A）的访客数量和转化数量。
输入正在测试的实验组挑战版本（B）的相同两组数字，这些数据应在相同的时间窗口内测得。
选择一个置信水平——95% 是标准值，99% 更严格，90% 用于早期探索。
选择双尾检验（B 在任一方向上与 A 不同）或单尾检验（仅在 B 击败 A 时计入）。
点击计算显著性来读取结论、p 值、置信区间、统计功效以及逐步拆解的数学计算。

所用公式（双比例 Z 检验）

p₁ = c₁ / n₁ · p₂ = c₂ / n₂

p̂ = (c₁ + c₂) / (n₁ + n₂) (零假设 H₀ 下的合并转化率)

SE = √[ p̂ × (1 − p̂) × (1/n₁ + 1/n₂) ]

z = (p₂ − p₁) / SE

p-value (双尾) = 2 × (1 − Φ(|z|))

在置信水平 (1 − α) 下 (p₂ − p₁) 的置信区间 = (p₂ − p₁) ± z_α/2 × √[ p₁(1−p₁)/n₁ + p₂(1−p₂)/n₂ ]

是什么让这款 A/B 测试计算器与众不同

提交前的实时预览——输入四个计数中的任意一个，即可实时查看转化率、提升度、z 得分、p 值和结论的更新。
视觉显著性检查——动态标准正态曲线精准展示了您的 z 统计量相对于拒绝域落在何处。
置信区间森林图——并排查看两组转化率的 95% 置信区间。互不重叠的条形图是判定胜出者的直观视觉信号。
通俗易懂的结论——采用绿/黄/红横幅代替枯燥的 p 值数字。对大多数利益相关者来说，说“实验组 B 胜出”比说“p = 0.028”更易于理解。
统计功效读数——自动识别测试何时统计功效不足，并推荐在 80% 功效下所需的每组样本量。
贝叶斯风格的“P(B > A)”——作为频率学派 p 值的补充视角，许多产品团队发现这种方式更为直观。
快速示例预设——一键加载明显胜出、结果险胜、暂无信号或落败场景，探索数字是如何变化的。

如何解读结论

绿色 — 显著胜出。p 值 ≤ α 且实验组转化率 > 对照组转化率。这种提升不太可能是偶然造成的；您可以推行版本 B。
红色 — 显著落败。p 值 ≤ α 但实验组转化率 < 对照组转化率。B 的效果确实更差；请保留 A 并调查原因。
黄色 — 接近临界值。p 值接近 α。在做出决定前，建议收集更多流量数据。
灰色 — 暂无信号。数据表明目前没有实质性差异。您可以选择继续运行测试，或者停止测试并尝试更大胆的改动。

为什么不应该在 p 值一达到显著时就提前停止测试

频繁地检查测试并在 p 值 < 0.05 的那一刻停止（通常被称为“中途窥视”）会显著抬高假阳性率——有时对于名义上为 5% 的检验，假阳性率会上升到 30% 或更高。应当在测试前使用功效计算来决定样本量，将实验运行到该目标，然后再评估显著性。该计算器显示的所需每组样本量是规划未来测试的一个很好目标。

样本量规划

如果您的测试统计功效不足，计算器会使用标准的双比例功效公式推荐每组的样本量：

每组 n ≈ (z_α/2 · √[2p̄(1−p̄)] + z_β · √[p₁(1−p₁) + p₂(1−p₂)])² / (p₂ − p₁)²

其中 p̄ 是 p₁ 和 p₂ 的平均值，z_β 是目标功效的标准正态分位数（80% 功效时为 0.84）。

将您的历史基线转化率以及您关心的最小提升度代入该公式——这就是在启动新测试前需要瞄准的目标样本量。

A/B 测试中的常见陷阱

中途窥视 (Peeking)——每天查看结果并在第一个显著的 p 值出现时停止测试，这会使假阳性结果激增。请使用序贯检验或等待达到计划的样本量。
样本量过小——当每组的转化数少于几百个时，正态近似可能会失效。此时可以考虑使用 Fisher 精确检验作为替代。
多重比较——运行十个测试却只报告获胜的那一个，这会夸大假阳性率。应当应用 Bonferroni 校正或运行预先登记的验证性测试。
新奇效应 (Novelty effects)——实验组 B 在第一周表现极佳可能纯粹是因为用户注意到了新变化。应当让测试运行足够长的时间以使效应稳定下来。
幸存者偏差——在随机分组后过滤访客会破坏测试的严谨性。务必始终基于完整的随机抽样人群计算测试结果。
错位的测量窗口——确保对照组和实验组在完全相同的时间窗口内收集数据。周末和工作日的流量组合差异会改变基线转化率。

单尾检验与双尾检验

双尾检验询问的是 B 是否在任何方向上与 A 存在差异。当您确实可能推行任一版本时，它是正确的默认选择。单尾检验仅在预先指定的方向（通常是：B 击败 A）上对结果进行确认，并且当数据指向该方向时，它会将 p 值折半——但您必须在查看数据之前就确定好方向。在看到结果后切换到单尾检验是一种常见形式的 p 修正（p-hacking）。

如何读取置信区间

转化率差异的 95% 置信区间告诉您真实提升度可能落在的合理范围。如果该区间完全大于零，则 B 胜出；完全小于零，则 B 落败；如果跨越零点，则数据表明目前没有真实的差异。区间的宽度是衡量估计精准度的一个指标——区间越窄意味着数据越充足。

常见问题解答

A/B 测试显著性计算器有什么作用？

它对您的对照组和实验组转化数据进行双比例 z 检验，并告诉您所观测到的转化率差异是否不太可能由随机偶然解释。它会报告 p 值、差异的置信区间、观测效应的统计功效、提升度以及通俗易懂的结论。

A/B 测试应该使用什么置信水平？

95% 的置信度（α = 0.05）是产品和营销测试的行业标准。对于错误阳性代价高昂的高影响投放，请使用 99%；而 90% 仅用于您可以接受较高假阳性风险的早期探索。

我应该运行单尾检验还是双尾检验？

当您只关心 B 是否在任一方向上与 A 不同时，请使用双尾检验。当您预先确定了方向性假设（例如预期 B 会击败 A），并且愿意忽略任何相反方向的信号时，请使用单尾检验。大多数产品团队应默认使用双尾检验。

p 值是如何计算的？

综合转化数和访客数计算出合并转化率 p̂。标准误差是 √[p̂(1−p̂)(1/n₁ + 1/n₂)]。z 统计量是转化率差异除以该标准误差。双尾 p 值是 2 × (1 − Φ(|z|))，其中 Φ 是标准正态累积分布函数。

什么是统计功效，为什么它很重要？

功效是在当前样本量下，检验能够检测出观测到的真实效应大小的概率。功效低于 80% 意味着测试规模可能太小，即使提升是真实的，也无法确认。计算器会报告统计功效以及达到 80% 功效所需的每组样本量。

一旦 p 值降到 0.05 以下，我可以立即停止测试吗？

不能。中途窥视并提前停止会使假阳性率远高于名义上的 α。应在测试前通过功效计算决定样本量，将测试运行至结束，然后才评估显著性。此计算器显示的所需样本量是一个很好的目标。

如果我的转化率非常低（例如低于 1%）该怎么办？

当 np 或 n(1−p) 很小时，正态近似可能不够准确。作为经验法则，您希望每组至少有 30 个转化，理想情况下是 100 个以上。对于极低转化率的测试，可以考虑使用 Fisher 精确检验作为更保守的替代方案。

P(B > A) 是什么意思？

在对每个转化率采用无信息（均匀分布型）先验的前提下，数据推导出了一个后验概率，即实验组 B 的真实转化率高于对照组 A 的真实转化率。它是频率学派 p 值的贝叶斯补充，通常更容易向非统计人员传达（“有 85% 的把握 B 更好”比“p = 0.03”更容易沟通）。

引用此内容、页面或工具为：

"A/B测试显著性计算器" 于 https://MiniWebtool.com/zh-cn/a-b测试显著性计算器/，来自 MiniWebtool，https://MiniWebtool.com/

由 miniwebtool 团队提供。更新时间：2026-05-17

您还可以尝试我们的 AI数学解题器 GPT，通过自然语言问答解决您的数学问题。

A/B测试显著性计算器

对照组 (A)

实验组 (B)

A/B测试显著性计算器

如何使用

所用公式（双比例 Z 检验）

是什么让这款 A/B 测试计算器与众不同

如何解读结论

为什么不应该在 p 值一达到显著时就提前停止测试

样本量规划

A/B 测试中的常见陷阱

单尾检验与双尾检验

如何读取置信区间

常见问题解答

A/B 测试显著性计算器有什么作用？

A/B 测试应该使用什么置信水平？

我应该运行单尾检验还是双尾检验？

p 值是如何计算的？

什么是统计功效，为什么它很重要？

一旦 p 值降到 0.05 以下，我可以立即停止测试吗？

如果我的转化率非常低（例如低于 1%）该怎么办？

P(B > A) 是什么意思？

统计与数据分析:

常用工具: