A/B测试显著性计算器
确定A/B测试版本之间的差异在统计学上是否显著。输入对照组和变体组的访客数与转化数,即可获得P值、置信水平、提升率以及明确的胜负结论。
检测到广告拦截,导致我们无法展示广告
MiniWebtool 依靠广告收入免费提供服务。如果这个工具帮到了你,欢迎开通 Premium(无广告 + 更快),或将 MiniWebtool.com 加入白名单后刷新页面。
- 或升级 Premium(无广告)
- 允许 MiniWebtool.com 显示广告,然后刷新
A/B测试显著性计算器
A/B 测试显著性计算器对您的实验数据进行双比例 z 检验,并报告对照组原始版本(A)和实验组挑战版本(B)之间的观测差异是否具有统计学显著性。输入两组的访客数和转化数,该工具将返回 p 值、转化率差异的置信区间、绝对和相对提升度、观测效应的统计功效、在 80% 统计功效下确认提升所需的每组样本量,以及一个通俗易懂的胜出 / 落败 / 结论不明确的结论——并辅以您的 z 得分落在标准正态分布上何处位置的动态可视化图形。
如何使用
- 输入对照组原始版本(A)的访客数量和转化数量。
- 输入正在测试的实验组挑战版本(B)的相同两组数字,这些数据应在相同的时间窗口内测得。
- 选择一个置信水平——95% 是标准值,99% 更严格,90% 用于早期探索。
- 选择双尾检验(B 在任一方向上与 A 不同)或单尾检验(仅在 B 击败 A 时计入)。
- 点击计算显著性来读取结论、p 值、置信区间、统计功效以及逐步拆解的数学计算。
所用公式(双比例 Z 检验)
p₁ = c₁ / n₁ · p₂ = c₂ / n₂
p̂ = (c₁ + c₂) / (n₁ + n₂) (零假设 H₀ 下的合并转化率)
SE = √[ p̂ × (1 − p̂) × (1/n₁ + 1/n₂) ]
z = (p₂ − p₁) / SE
p-value (双尾) = 2 × (1 − Φ(|z|))
在置信水平 (1 − α) 下 (p₂ − p₁) 的置信区间 = (p₂ − p₁) ± zα/2 × √[ p₁(1−p₁)/n₁ + p₂(1−p₂)/n₂ ]
是什么让这款 A/B 测试计算器与众不同
- 提交前的实时预览——输入四个计数中的任意一个,即可实时查看转化率、提升度、z 得分、p 值和结论的更新。
- 视觉显著性检查——动态标准正态曲线精准展示了您的 z 统计量相对于拒绝域落在何处。
- 置信区间森林图——并排查看两组转化率的 95% 置信区间。互不重叠的条形图是判定胜出者的直观视觉信号。
- 通俗易懂的结论——采用绿/黄/红横幅代替枯燥的 p 值数字。对大多数利益相关者来说,说“实验组 B 胜出”比说“p = 0.028”更易于理解。
- 统计功效读数——自动识别测试何时统计功效不足,并推荐在 80% 功效下所需的每组样本量。
- 贝叶斯风格的“P(B > A)”——作为频率学派 p 值的补充视角,许多产品团队发现这种方式更为直观。
- 快速示例预设——一键加载明显胜出、结果险胜、暂无信号或落败场景,探索数字是如何变化的。
如何解读结论
- 绿色 — 显著胜出。p 值 ≤ α 且实验组转化率 > 对照组转化率。这种提升不太可能是偶然造成的;您可以推行版本 B。
- 红色 — 显著落败。p 值 ≤ α 但实验组转化率 < 对照组转化率。B 的效果确实更差;请保留 A 并调查原因。
- 黄色 — 接近临界值。p 值接近 α。在做出决定前,建议收集更多流量数据。
- 灰色 — 暂无信号。数据表明目前没有实质性差异。您可以选择继续运行测试,或者停止测试并尝试更大胆的改动。
为什么不应该在 p 值一达到显著时就提前停止测试
频繁地检查测试并在 p 值 < 0.05 的那一刻停止(通常被称为“中途窥视”)会显著抬高假阳性率——有时对于名义上为 5% 的检验,假阳性率会上升到 30% 或更高。应当在测试前使用功效计算来决定样本量,将实验运行到该目标,然后再评估显著性。该计算器显示的所需每组样本量是规划未来测试的一个很好目标。
样本量规划
如果您的测试统计功效不足,计算器会使用标准的双比例功效公式推荐每组的样本量:
每组 n ≈ (zα/2 · √[2p̄(1−p̄)] + zβ · √[p₁(1−p₁) + p₂(1−p₂)])² / (p₂ − p₁)²
其中 p̄ 是 p₁ 和 p₂ 的平均值,zβ 是目标功效的标准正态分位数(80% 功效时为 0.84)。
将您的历史基线转化率以及您关心的最小提升度代入该公式——这就是在启动新测试前需要瞄准的目标样本量。
A/B 测试中的常见陷阱
- 中途窥视 (Peeking)——每天查看结果并在第一个显著的 p 值出现时停止测试,这会使假阳性结果激增。请使用序贯检验或等待达到计划的样本量。
- 样本量过小——当每组的转化数少于几百个时,正态近似可能会失效。此时可以考虑使用 Fisher 精确检验作为替代。
- 多重比较——运行十个测试却只报告获胜的那一个,这会夸大假阳性率。应当应用 Bonferroni 校正或运行预先登记的验证性测试。
- 新奇效应 (Novelty effects)——实验组 B 在第一周表现极佳可能纯粹是因为用户注意到了新变化。应当让测试运行足够长的时间以使效应稳定下来。
- 幸存者偏差——在随机分组后过滤访客会破坏测试的严谨性。务必始终基于完整的随机抽样人群计算测试结果。
- 错位的测量窗口——确保对照组和实验组在完全相同的时间窗口内收集数据。周末和工作日的流量组合差异会改变基线转化率。
单尾检验与双尾检验
双尾检验询问的是 B 是否在任何方向上与 A 存在差异。当您确实可能推行任一版本时,它是正确的默认选择。单尾检验仅在预先指定的方向(通常是:B 击败 A)上对结果进行确认,并且当数据指向该方向时,它会将 p 值折半——但您必须在查看数据之前就确定好方向。在看到结果后切换到单尾检验是一种常见形式的 p 修正(p-hacking)。
如何读取置信区间
转化率差异的 95% 置信区间告诉您真实提升度可能落在的合理范围。如果该区间完全大于零,则 B 胜出;完全小于零,则 B 落败;如果跨越零点,则数据表明目前没有真实的差异。区间的宽度是衡量估计精准度的一个指标——区间越窄意味着数据越充足。
常见问题解答
A/B 测试显著性计算器有什么作用?
它对您的对照组和实验组转化数据进行双比例 z 检验,并告诉您所观测到的转化率差异是否不太可能由随机偶然解释。它会报告 p 值、差异的置信区间、观测效应的统计功效、提升度以及通俗易懂的结论。
A/B 测试应该使用什么置信水平?
95% 的置信度(α = 0.05)是产品和营销测试的行业标准。对于错误阳性代价高昂的高影响投放,请使用 99%;而 90% 仅用于您可以接受较高假阳性风险的早期探索。
我应该运行单尾检验还是双尾检验?
当您只关心 B 是否在任一方向上与 A 不同时,请使用双尾检验。当您预先确定了方向性假设(例如预期 B 会击败 A),并且愿意忽略任何相反方向的信号时,请使用单尾检验。大多数产品团队应默认使用双尾检验。
p 值是如何计算的?
综合转化数和访客数计算出合并转化率 p̂。标准误差是 √[p̂(1−p̂)(1/n₁ + 1/n₂)]。z 统计量是转化率差异除以该标准误差。双尾 p 值是 2 × (1 − Φ(|z|)),其中 Φ 是标准正态累积分布函数。
什么是统计功效,为什么它很重要?
功效是在当前样本量下,检验能够检测出观测到的真实效应大小的概率。功效低于 80% 意味着测试规模可能太小,即使提升是真实的,也无法确认。计算器会报告统计功效以及达到 80% 功效所需的每组样本量。
一旦 p 值降到 0.05 以下,我可以立即停止测试吗?
不能。中途窥视并提前停止会使假阳性率远高于名义上的 α。应在测试前通过功效计算决定样本量,将测试运行至结束,然后才评估显著性。此计算器显示的所需样本量是一个很好的目标。
如果我的转化率非常低(例如低于 1%)该怎么办?
当 np 或 n(1−p) 很小时,正态近似可能不够准确。作为经验法则,您希望每组至少有 30 个转化,理想情况下是 100 个以上。对于极低转化率的测试,可以考虑使用 Fisher 精确检验作为更保守的替代方案。
P(B > A) 是什么意思?
在对每个转化率采用无信息(均匀分布型)先验的前提下,数据推导出了一个后验概率,即实验组 B 的真实转化率高于对照组 A 的真实转化率。它是频率学派 p 值的贝叶斯补充,通常更容易向非统计人员传达(“有 85% 的把握 B 更好”比“p = 0.03”更容易沟通)。
引用此内容、页面或工具为:
"A/B测试显著性计算器" 于 https://MiniWebtool.com/zh-cn//,来自 MiniWebtool,https://MiniWebtool.com/
由 miniwebtool 团队提供。更新时间:2026-05-17
您还可以尝试我们的 AI数学解题器 GPT,通过自然语言问答解决您的数学问题。