A/Bテスト サンプルサイズ電卓
ローンチ前にA/Bテストの計画を立てましょう。ベースラインのコンバージョン率、最小検出可能効果(MDE)、有意水準(alpha)、検出力(1マイナスbeta)を入力すると、バリアントごとの必要サンプルサイズ、合計サンプルサイズ、および日次トラフィックに基づいたテストに必要な期間を算出します。
広告ブロッカーにより広告が表示できません
MiniWebtool は広告収益で無料提供しています。このツールが役に立ったら、Premium(広告なし+高速)をご利用いただくか、MiniWebtool.com を許可リストに追加して再読み込みしてください。
- または Premium(広告なし)にアップグレード
- MiniWebtool.com の広告を許可してから再読み込みしてください
A/Bテスト サンプルサイズ電卓
A/Bテスト サンプルサイズ電卓は、A/Bテストをローンチする前に計画を立てるためのツールです。ベースラインコンバージョン率、検出したい最小検出可能効果(MDE)、有意水準(アルファ)、および希望する統計的検出力を入力すると、グループごとおよび合計に必要なサンプルサイズが算出されます。さらに、1日のトラフィックと割り当て割合からテスト期間を自動推定し、サンプルサイズに応じた検出力の伸びを示す検出力曲線、異なるMDEの選択コストを並べて比較できる感度分析テーブル、トラフィック割り当ての視覚化チャート、そしてわかりやすい言葉による実現可能性の判定を表示します。コンバージョン率のA/Bテスト(2つの比率の z テスト、Cohenの定式化)に特化して構築されており、多変量テスト向けのオプションとしてボンフェローニ補正もサポートしています。
使い方
- 最近の代表的な期間で測定された、現在のバリアント(A)のベースラインコンバージョン率を入力します。
- 最小検出可能効果(MDE)を設定します。これは、実際の意思決定を左右する最小のリフト(改善幅)です。相対パーセント(%)と絶対パーセンテージポイント(pp)をワンクリックで切り替えられます。
- 有意水準(アルファ)を選択します。業界標準のデフォルトは5%(信頼度95%)です。
- 統計的検出力を選択します。業界標準のデフォルトは80%ですが、ビジネスへの影響が大きいリリースでは90%に引き上げることをお勧めします。
- 両側テスト(バリアントBがAとどちらの方向にも異なる可能性を考慮する、デフォルト)または片側テスト(バリアントBがAに勝つ場合のみを評価する)を選択します。
- 多変量テストを実施する場合は、バリアント数を設定します。電卓が自動的にボンフェローニ補正を適用します。
- ページの1日あたり訪問者数と、実験に誘導するトラフィックの割り当て割合を入力します。
- 「サンプルサイズを計算する」をクリックして、グループごとおよび合計のサンプルサイズ、予想されるテスト期間、検出力曲線、感度分析テーブル、ステップごとの計算詳細を確認します。
使用されている計算式(2つの比率の検出力計算式)
p₂ = p₁ × (1 + MDE_relative) または p₂ = p₁ + MDE_absolute
p̄ = (p₁ + p₂) / 2 (帰無仮説 H₀ の下でのプールされた割合)
SD₀ = √[ 2 × p̄ × (1 − p̄) ] (帰無仮説下での標準偏差)
SD₁ = √[ p₁(1 − p₁) + p₂(1 − p₂) ] (対立仮説下での標準偏差)
n / グループ = (zα/2 × SD₀ + zβ × SD₁)² / (p₂ − p₁)²
片側テストの場合は、zα/2 を zα に置き換えます。1つのコントロール群に対して K 個のバリアントを比較する場合は、α を α / (K − 1) に置き換えます(ボンフェローニ補正)。
このサンプルサイズ電卓の特長
- 送信前のライブプレビュー — キー入力ごとに入力内容が反映され、グループごとのサンプルサイズ、合計訪問者数、目標コンバージョン率、推定期間がリアルタイムに更新されます。
- 具体的なテスト期間の提示 — 「31,000人の訪問者が必要です」という抽象的な数字を、「1日4,000人がテストに参加する場合、テスト期間は8日間になります」という具体的なスケジュールに変換します。
- 動的な検出力曲線 — 目標とするサンプルサイズが検出力曲線上のどこにあるか、またトラフィックをもう1週間増やした場合にどれだけ検出力を高められるかを視覚的に確認できます。
- MDE感度分析テーブル — 2%、5%、10%、15%、20%、25%の改善幅を検出するために必要なサンプルサイズを横並びで比較できるため、実現可能な範囲で最小のMDEを選択できます。
- 相対または絶対MDEの切り替え — プロダクトチームが改善目標を設定する際の2つの主要なアプローチを、1クリックで切り替えることができます。
実現可能性(Feasibility)判定の読み方
- グリーン(緑) — 実施可能(Feasible)。 テストは2週間以内に完了します。選択した信頼度で選択したリフトを検出するのに十分なトラフィックがあります。
- アンバー(黄) — 実行可能(Doable)。 テスト完了に2〜6週間かかります。少なくとも1つの完全なビジネスサイクルをまたぐように計画し、途中で結果を覗き見たい衝動を抑えてください。
- レッド(赤) — 低速(Slow)。 テスト完了に6週間以上かかるか、完了が困難です。長期にわたるテストは季節変動やユーザー行動の変化の影響を受けやすくなります。検出したいMDEを上げるか、実験に割り当てるトラフィックの割合を増やしてください。
サンプルサイズが急激に大きくなる理由
最も重要な関係性は2つあります。第一に、必要なサンプルサイズはMDEの2乗に反比例して大きくなります。つまり、検出したい改善幅を半分にすると、必要なサンプルサイズは4倍になります。第二に、ベースラインが低いテストほどコストがかかります。1%のベースラインで同じ相対リフトを検出するには、5%のベースラインと比較して約25倍の訪問者が必要です。これら2つの相乗効果により、トラフィックの多いサイトであっても、CV率の低いフローで小さなリフトを検出することに苦戦する理由が説明できます。
A/Bテスト計画におけるよくある罠
- MDEを小さく設定しすぎる。 合理的な期間内では集めきれないレベルまでサンプルサイズが膨れ上がります。希望的観測ではなく、実際のリリース判断を変える最小のリフト幅を設定してください。
- 検出力を80%未満に下げる。 検出力が60%のテストでは、実際の改善効果を見落とす確率が40%もあります。プロダクトの意思決定における標準は80%です。テストを期間内に「収める」ためだけに数値を下げないでください。
- 低いp値を見て早期にテストを終了する。 途中の経過データを覗き見して、p < 0.05 になった瞬間にテストを止める行為は、偽陽性率を劇的に上昇させます。開始前に計画したサンプルサイズまで必ずやり遂げてください。
- 多変量テストのコストを無視する。 4つのバリアントがある A/B/C/D テストでは、ボンフェローニ補正されたアルファが必要になり、通常、単純なA/Bテストの2〜3倍のグループあたりサンプルサイズが必要になります。
- 週末効果の失念。 最低でも7日間のテストを実施することで、曜日によるトラフィック特性の偏りを平均化できます。短すぎるテストは平日と週末のユーザー層の違いによって歪む可能性があります。
- 割り当てオーバーヘッドの過小評価。 トラフィック全体の50%しかテストに割り当てない場合、グループごとの蓄積ペースは半分になり、カレンダー上の必要期間は2倍になります。
有意水準(アルファ)と検出力の選び方
アルファ(α)は偽陽性率、つまりバリアントBに本当は効果がないのに勝者であると誤って判断してしまう確率です。検出力(1 − β)は偽陰性率の裏返しであり、設定したMDE規模の真の改善を正しく検出できる確率です。業界のデフォルト設定は アルファ = 0.05、検出力 = 0.80 です。判断を誤った場合のコストが大きい重要なリリースでは、アルファ = 0.01、検出力 = 0.90 のような厳しい設定を使用します。どちらの設定もテストの精度を高めますが、必要なサンプルサイズを押し上げます。アルファを 0.05 から 0.01 に下げるとサンプルサイズは約2倍になり、検出力を 0.80 から 0.90 に上げるとさらに約30%増加します。
相対MDE vs 絶対MDE
相対MDE(ベースラインに対する割合)は最も一般的な表現です。「現在の5%のコンバージョン率に対して10%のリフトを検出したい」という場合、目標レートは p₂ = 5.5% になります。絶対MDE(パーセンテージポイント)は、ビジネスインパクトがポイント数で表現される場合に適しています。「5%のベースラインに対して +0.5 pp のリフトを検出したい」という場合も、目標レートは p₂ = 5.5% になります。この2つは数学的に等価であるため、ステークホルダーが指標を検討する際の思考様式に合致する方を選択してください。
多変量テストとボンフェローニ補正
1つのコントロール群に対して K 個のバリアントを比較する場合、K − 1 個のテストを同時に実行していることになります。単純に比較を増やすと全体の偽陽性率が膨れ上がります。アルファ = 0.05 で3つの独立した比較を行うと、全体の偽陽性確率は5%ではなく約14%に達します。この問題に対する標準的な解決策がボンフェローニ補正です。限界 z 値を計算する前に、公称アルファを比較の数で除算します。この電卓では、バリアント数を2より大きく設定すると自動的にこの補正が適用されます。結果として必要なグループごとのサンプルサイズは大きくなります。多変量テストは、シンプルなA/Bテストよりもグループあたりにより多くのトラフィックコストがかかります。
FAQ
A/Bテストにはどのくらいのサンプルサイズが必要ですか?
それはベースラインコンバージョン率、最小検出可能効果(MDE)、有意水準(アルファ)、および統計的検出力の4つの数値によって決まります。一般的なECサイトのテストで、ベースラインが5%、相対リフト目標が10%、アルファが0.05、検出力が80%の場合、バリアントごとに約31,000人の訪問者が必要です。ベースラインが低い場合やMDEが小さい場合は、必要なサンプルサイズが劇的に増加します。
最小検出可能効果(MDE)とは何ですか?また、どのように選べばよいですか?
MDEは、テストで確実に検出したい最小のリフト(改善幅)です。ビジネスへの影響、つまり正式リリースに踏み切る判断を変える最小の改善幅に基づいて決定します。一般的な目安として、トラフィックの多い購入手続きや会員登録フローでは相対的な5〜10%、トラフィックの少ない機能では相対的な15〜25%から始めます。MDEを小さく設定するとサンプルサイズが大幅に大きくなるため、低く設定しすぎないようにしてください。
有意水準と検出力はどの値を使用すべきですか?
プロダクトやマーケティングのテストでは、アルファ0.05(信頼度95%)と検出力80%が業界のデフォルトです。影響の大きいリリースでは、アルファ0.01と検出力90%を使用します。アルファまたはベータのいずれかを厳しくすると、より大きなサンプルサイズが必要になります。これは、偽陽性(アルファ)、偽陰性(ベータ)、およびテストにかかる時間の間のトレードオフです。
なぜ私のテストにはバリアントごとにこれほど多くの訪問者が必要なのですか?
2つの要因が大きく影響しています。第一に、ベースラインコンバージョン率が低いほど、必要なサンプルサイズは膨れ上がります。1%のベースラインで小さなリフトを検出するには、5%のベースラインの約25倍の訪問者が必要です。第二に、必要なサンプルサイズはMDEの2乗に反比例します。MDEを半分にすると、必要なサンプルサイズは4倍になります。検出したいMDEを上げるか、より長いテスト期間を受け入れる必要があります。
計算式はどのように導出されていますか?
正規近似に基づく、標準的な2つの比率の検出力計算式です。グループごとのサンプルサイズは、(帰無仮説下でのプールされた標準偏差にzαを掛けたもの + 対立仮説下での標準偏差にzβを掛けたもの)の2乗を、率の差の2乗で割ったものに等しくなります。この電卓では、帰無仮説の項にはプールされた分散を、対立仮説の項にはプールされていない分散を使用しており、これは最も一般的な教科書通りの定式化です(Cohen 1988, Fleiss et al. 1980)。
複数のバリアントがある多変量テストはどのように処理すればよいですか?
1つのコントロール群に対して K 個のバリアントを比較する場合、この電卓は限界 z 値を計算する前にアルファを (K − 1) で割るボンフェローニ補正を適用します。これにより、複数の比較を行うことで発生する偽陽性率の上昇を防ぎます。その結果、必要なグループごとのサンプルサイズは大きくなります。多変量テストは、シンプルなA/Bテストよりもグループあたりにより多くのトラフィックを必要とします。
テストは推奨された日数だけ実施すべきですか?それとも有意差が出た時点で止めてもよいですか?
推奨された期間中ずっとテストを実施し、最後にのみ有意性を評価してください。p値が0.05を下回った瞬間にテストを終了する行為(覗き見)は、偽陽性率を公称アルファより大幅に上昇させます。この電卓が示すサンプルサイズは計画された目標値です。開始前にこの数まで実施することを決定し、早期に勝者を判定したい衝動を抑えてください。テスト終了後は、結果を姉妹ツールの「A/Bテスト有意差判定電卓」に入力して、p値や信頼区間を確認してください。
コンバージョン率が非常に低い(1%未満)場合はどうなりますか?
np または n(1 − p) が小さい場合、正規近似の正確性がわずかに低下する可能性があります。非常に低いコンバージョンレート(例:ベースライン 0.1%)のテストにおいて、この電卓は依然として妥当な計画の目安を提供しますが、推奨されるサンプルサイズの上に少しの余分なバッファ(10-15%)を上乗せすることを検討してください。また、グループあたりのサンプルサイズが非常に小さい場合の分析ステージでは、より保守的な選択肢としてフィッシャーの正確確率テストが挙げられます。
このコンテンツ、ページ、またはツールを引用する場合は、次のようにしてください:
"A/Bテスト サンプルサイズ電卓"(https://MiniWebtool.com/ja//) MiniWebtool からの引用、https://MiniWebtool.com/
by miniwebtool チーム。更新日: 2026-05-17
また、AI 数学ソルバー GPT を使って、自然言語による質問と回答で数学の問題を解決することもできます。