A/Bテスト有意性電卓
A/Bテストのバリアント間の差が統計的に有意であるかどうかを判定します。統制群(コントロール)と実験群(バリアント)の訪問者数とコンバージョン数を入力するだけで、P値、信頼度、アップリフト、および明確な勝敗の判定結果を取得できます。
広告ブロッカーにより広告が表示できません
MiniWebtool は広告収益で無料提供しています。このツールが役に立ったら、Premium(広告なし+高速)をご利用いただくか、MiniWebtool.com を許可リストに追加して再読み込みしてください。
- または Premium(広告なし)にアップグレード
- MiniWebtool.com の広告を許可してから再読み込みしてください
A/Bテスト有意性電卓
A/Bテスト有意性電卓は、実験データに2つの母比率のz検定を適用し、コントロールバリアント(A)とチャレンジャーバリアント(B)の間で観察された差が統計的に有意であるかどうかを報告します。両方のグループの訪問者数とコンバージョン数を入力すると、このツールはp値、比率の差の信頼区間、絶対リフトおよび相対リフト、観察された効果に対する統計的検定力、80%の検定力でリフトを確認するために必要な1グループあたりのサンプルサイズ、および判りやすいと言葉による勝利 / 敗北 / 判定不能の結論を返します。また、標準正規分布上でzスコアがどこに位置するかをアニメーション視覚化して示します。
使い方
- コントロールバリアント(A)の訪問者数とコンバージョン数を入力します。
- 同じ期間内に測定された、テスト対象のバリアント(B)について、同じ2つの数値を入力します。
- 信頼度を選択します。95%が標準的、99%はより厳格、90%は初期段階の探索用です。
- 両側検定(Bがどちらの方向であってもAと異なる)または片側検定(BがAに勝つ場合のみを評価)を選択します。
- 「有意性を計算」をクリックして、結論、p値、信頼区間、検定力、およびステップバイステップの数式を確認します。
使用される数式(2つの母比率のZ検定)
p₁ = c₁ / n₁ · p₂ = c₂ / n₂
p̂ = (c₁ + c₂) / (n₁ + n₂) (帰無仮説 H₀ の下での統合比率)
SE = √[ p̂ × (1 − p̂) × (1/n₁ + 1/n₂) ]
z = (p₂ − p₁) / SE
p値 (両側検定) = 2 × (1 − Φ(|z|))
水準 (1 − α) における (p₂ − p₁) の信頼区間 = (p₂ − p₁) ± zα/2 × √[ p₁(1−p₁)/n₁ + p₂(1−p₂)/n₂ ]
このA/Bテスト電卓の特徴
- 送信前のライブプレビュー — 4つの数値のいずれかを入力すると、比率、リフト、zスコア、p値、および結論がリアルタイムで更新されます。
- 視覚的な有意性チェック — アニメーション付きの標準正規分布曲線により、z統計量が棄却域に対して正確にどこの位置に落ちるかが示されます。
- 信頼区間のフォレストプロット — 両方の比率の 95% 信頼区間を並べて確認できます。バーが重なっていないことが、勝者を視覚的に示すシグナルとなります。
- 判りやすい言葉による結論 — 単なるp値の表示ではなく、緑/黄/赤のバナーで表示されます。多くのステークホルダーにとって、「p = 0.028」と言うよりも「バリアントBの勝利」と伝える方が明確です。
- 統計的検定力の表示 — テストが検定力不足であるかどうかを識別し、80%の検定力に達するために必要な1グループあたりのサンプルサイズを推奨します。
- ベイズ流の「P(B > A)」 — 頻度主義的なp値を補完する見方であり、多くのプロダクトチームにとってより直感的に理解できます。
- クイックサンプルのプリセット — 明確な勝利、きわどい判定、シグナルなし、または敗北のシナリオをワンクリックで読み込み、数値がどのように変化するかを探索できます。
結論の読み方
- 緑 — 有意な勝利。 p値 ≤ α かつ バリアントの比率 > コントロールの比率。リフトが偶然によるものである可能性は低く、Bをロールアウトすることができます。
- 赤 — 有意な敗北。 p値 ≤ α ですが バリアントの比率 < コントロールの比率。Bは明らかに悪化しています。Aを維持して原因を調査してください。
- 黄 — 閾値付近。 p値が α に近いです。判断を下す前により多くのトラフィックを集めてください。
- 灰色 — シグナルなし。 データは真の差がない状態と一致しています。テストをそのまま継続するか、あるいは停止してより大きな変更を試みてください。
有意なP値が出ても早期に停止すべきではない理由
テストを繰り返し確認し、p値 < 0.05 になった瞬間に停止すること(いわゆる「覗き見」)は、偽陽性率を劇的に上昇させます。名目上5%のテストであっても、実際には30%以上に跳ね上がることがあります。事前に検定力計算を用いてサンプルサイズを決定し、その目標まで実験を実行し、その後初めて有意性を評価してください。この電卓に表示される必要な1グループあたりのサンプルサイズは、将来のテストを計画する際の良い目標になります。
サンプルサイズの計画
テストが検定力不足の場合、電卓は標準的な2つの母比率の検定力公式を使用して、1グループあたりのサンプルサイズを推奨します。
n / グループ ≈ (zα/2 · √[2p̄(1−p̄)] + zβ · √[p₁(1−p₁) + p₂(1−p₂)])² / (p₂ − p₁)²
ここで p̄ は p₁ と p₂ の平均であり、zβ は目標とする検定力に対する標準正規分布の分位数です(80%の場合は 0.84)。
過去のベースライン比率と、関心のある最小限のリフト(改善率)をこの数式に当てはめてください。それが新しいテストを開始する前に目標とすべきサンプルサイズになります。
A/Bテストにおける一般的な落とし穴
- 覗き見(ピーキング) — 毎日結果を確認し、最初に有意になったp値で停止することは、偽陽性を増加させます。逐次検定を使用するか、計画されたサンプルサイズに達するまで待ってください。
- 極小のサンプル — 1グループあたりのコンバージョン数が数百未満の場合、正規近似が崩れる可能性があります。代わりにフィッシャーの正確確率検定を検討してください。
- 多重比較 — 10個のテストを実行して勝ったものだけを報告することは、偽陽性率を跳ね上げます。ボンフェローニ補正を適用するか、事前に登録された実証テストを実行してください。
- 目新しさ効果(ノベルティ効果) — ユーザーが単に変更に気づいたという理由だけで、最初の1週間はバリアントBが素晴らしく見えることがあります。効果が安定するまで、十分な期間テストを実行してください。
- 生存者バイアス — ランダム化の後に訪問者をフィルタリングするとテストが壊れます。常にランダム化された全人口に基づいてテストを計算してください。
- 不一致な測定期間 — 両方のグループのデータを全く同じ期間にわたって収集してください。週末と平日のトラフィック比率の変化は、ベースラインの比率を変動させます。
片側検定 vs 両側検定
両側検定は、Bがどちらの方向であってもAと異なるかどうかを問いめます。どちらのバリアントもロールアウトする可能性が本当にある場合、これが正しいデフォルトの設定です。片側検定は、あらかじめ指定された方向(通常は:BがAに勝つ)の結果のみを評価し、データがその方向を指している場合にp値をほぼ半分にします。ただし、データを検討する前にその方向にコミットする必要があります。結果を見た後に片側検定に切り替えることは、一般的なpハッキング(データの改ざん)の一種です。
信頼区間の読み方
比率の差に対する 95% 信頼区間は、真のリフトとして考えられる妥当な範囲を示しています。区間が完全にゼロを上回っている場合、Bの勝利です。完全にゼロを下回っている場合、Bの敗北です。ゼロをまたいでいる場合、データは真の差がない状態と一致しています。区間の幅は、推定がどれだけ正確であるかの尺度であり、幅が狭いほどデータが多いことを意味します。
FAQ
A/Bテスト有意性電卓は何をするものですか?
コントロールとバリアントのコンバージョンデータに2つの母比率のz検定を適用し、観察されたコンバージョン率の差が偶然の確率で説明できないものであるかどうかを判定します。p値、差の信頼区間、観察された効果に対する統計的検定力、リフト、および判りやすい言葉による結論を報告します。
A/Bテストにはどの信頼度を使用すべきですか?
95%の信頼度(α = 0.05)が、プロダクトやマーケティングのテストにおける業界標準です。偽陽性のコストが高い影響の大きなロールアウトには99%を使用し、高い偽陽性リスクを許容する初期段階の探索のみに90%を使用します。
片側検定と両側検定のどちらを実行すべきですか?
Bがどちらの方向であってもAと異なることだけに関心がある場合は、両側検定を使用します。BがAに勝つことが予想されるなど、事前に方向性のある仮説が決まっており、逆方向のシグナルを無視しても構わない場合は、片側検定を使用します。ほとんどのプロダクトチームは、デフォルトで両側検定を使用すべきです。
p値はどのように計算されますか?
統合比率 p̂ は、合計コンバージョン数と合計訪問者数から算出されます。標準誤差は √[p̂(1−p̂)(1/n₁ + 1/n₂)] です。z統計量は、比率の差をその標準誤差で割ったものです。両側検定のp値は 2 × (1 − Φ(|z|)) であり、ここで Φ は標準正規分布の累積分布関数です。
統計的検定力とは何ですか?なぜ重要なのですか?
検定力とは、現在のサンプルサイズにおいて、観察された大きさの真の効果をテストが検出できる確率です。検定力が80%未満の場合、たとえ効果が本物であっても、テストが小さすぎてリフトを確認できない可能性が高くなります。この電卓は、検定力と80%に達するために必要な1グループあたりのサンプルサイズを報告します。
p値が0.05を下回ったらすぐにテストを停止してもいいですか?
いいえ。途中で結果を覗き見て早期に停止すると、偽陽性率が名目上の α を大幅に上回ってしまいます。事前に検定力計算を用いてサンプルサイズを決定し、テストを最後まで実行し、その後初めて有意性を評価してください。この電卓に表示される必要なサンプルサイズは、良い目標になります。
コンバージョン率が非常に低い場合(例: 1%未満)はどうすればよいですか?
np または n(1−p) が小さい場合、正規近似は不正確になる可能性があります。目安として、各グループで少なくとも30個、理想的には100個以上のコンバージョンが必要です。比率が非常に低いテストの場合は、より保守的な代替手段としてフィッシャーの正確確率検定を検討してください。
P(B > A) は何を意味しますか?
各比率に対する無情報(一様スタイル)事前分布の下で、データから導き出されるバリアントBがコントロールAよりも高い真のコンバージョン率を持つ事後確率を意味します。これは頻度主義的なp値を補完するベイズ的なアプローチであり、統計の専門家ではない人にも伝えやすい表現です(「p = 0.03」と言うよりも「Bが良いという信頼度が85%」と言う方が伝わります)。
このコンテンツ、ページ、またはツールを引用する場合は、次のようにしてください:
"A/Bテスト有意性電卓"(https://MiniWebtool.com/ja//) MiniWebtool からの引用、https://MiniWebtool.com/
by miniwebtool チーム. 更新日: 2026-05-17
また、AI 数学ソルバー GPT を使って、自然言語による質問と回答で数学の問題を解決することもできます。