A/B測試樣本數計算機
在啟動 A/B 測試前進行規劃。輸入您的基準轉換率、最小可偵測效應 (MDE)、顯著水準 (alpha) 及檢定力 (1 減 beta),即可計算出每個變體所需的樣本數、總樣本數,以及在既每日流量下測試所需花費的時間。
偵測到廣告封鎖,導致我們無法顯示廣告
MiniWebtool 依靠廣告收入免費提供服務。如果這個工具幫到你,歡迎升級 Premium(無廣告 + 更快),或將 MiniWebtool.com 加入允許清單後重新整理頁面。
- 或升級 Premium(無廣告)
- 允許 MiniWebtool.com 顯示廣告,然後重新載入
A/B測試樣本數計算機
A/B 測試樣本數計算機可在您啟動 A/B 測試之前對其進行规划。輸入基準轉換率、您關心的最小可檢測效應 (MDE)、顯著水準 (alpha) 以及您想要的統計考驗力,計算機就會返回所需的每組樣本數和總樣本數 —— 此外還會根據您的每日流量與流量份額自動估算測試時長、提供顯示考驗力如何隨樣本數增長的考驗力曲線圖、比較不同 MDE 選擇成本的敏感度分析表、流量分配視覺化圖表以及通俗易懂的可行性評估結論。專為轉換率 A/B 測試(雙比例 z 檢定,Cohen 公式表述)打造,並針對多變量測試提供選用的 Bonferroni 校正。
如何使用
- 輸入目前版本 (A) 的基準轉換率,該數值應在最近一個具代表性的時間窗口內測得。
- 設定最小可檢測效應 (MDE) —— 即實際上會改變您決策的最小提升幅度。可在相對百分比和絕對百分點之間進行切換。
- 選擇顯著水準 (alpha) —— 行業預設值為 5%(95% 信心水準)。
- 選擇統計考驗力 —— 行業預設值為 80%;對於高影響力的發佈,可將其提高至 90%。
- 選擇雙尾(預設,變體 B 與 A 在任一方向上存在差異)或單尾(僅在變體 B 勝過 A 時計入)。
- 如果您正在運行多變量測試,請設定變體數量 —— 計算機會自動應用 Bonferroni 校正。
- 輸入頁面的每日訪客數以及引導至實驗中的流量份額。
- 點擊計算樣本數以讀取每組和總樣本數、預期測試時長、考驗力曲線、敏感度分析表以及逐步數學計算步驟。
使用的公式(雙比例考驗力公式)
p₂ = p₁ × (1 + MDE_relative) 或 p₂ = p₁ + MDE_absolute
p̄ = (p₁ + p₂) / 2(H₀ 下的合併比率)
SD₀ = √[ 2 × p̄ × (1 − p̄) ](虛無假設下的標準差)
SD₁ = √[ p₁(1 − p₁) + p₂(1 − p₂) ](對立假設下的標準差)
n / arm = (zα/2 × SD₀ + zβ × SD₁)² / (p₂ − p₁)²
對於單尾測試,請將 zα/2 替換為 zα。對於 K 個變體對抗一個控制組,請將 α 替換為 α / (K − 1)(Bonferroni 校正)。
是什麼讓這款樣本數計算機與眾不同
- 提交前即時預覽 —— 每次按鍵都會更新每組樣本數、總訪客數、目標轉換率和預估時長。
- 即時轉換測試時長 —— 將抽象的「您需要 31,000 名訪客」轉化為具體的「您的測試將在測試流量為 4,000 訪客/天的情況下運行 8 天」。
- 動態考驗力曲線 —— 準確查看您的目標樣本數落在考驗力曲線上的位置,以及額外一週的流量可以換取多少考驗力。
- MDE 敏感度分析表 —— 並排比較檢測 2%、5%, 10%、15%、20% 和 25% 提升幅度所需的樣本數成本,以便您選擇最具可行性的最小提升幅度。
- 相對或絕對 MDE —— 一鍵切換產品團隊指定提升目標的兩種最常用方式。
- 支援 Bonferroni 的多變量支援 —— 處理 A/B/C 和 A/B/C/D 測試並提供自動校正;許多計算機在處理多變量輸入時會默默使用簡單的 A/B 數學公式。
- 流量分配視覺化 —— 堆疊條形圖準確顯示了測試流量在控制組與各個變體之間的分配情況。
- 通俗易懂的可行性評估結論 —— 綠/黃/紅橫幅可在您啟動測試前提醒進度緩慢的測試。
- 快速情境 —— 針對典型的電子商務、SaaS、電子郵件和行動應用安裝基準提供一鍵預設。
解讀可行性評估結論
- 綠色 —— 可行。 測試將在兩週內完成。您擁有充足的流量,可以在選定的信心水準下檢測出選定的提升幅度。
- 黃色 —— 尚可。 測試需要二至六週。請圍繞至少一個完整的業務週期進行規劃,並克制偷看結果的衝動。
- 紅色 —— 緩慢。 測試耗時超過六週(或無法完成)。長時間的測試很容易受到季節性和用戶行為變化的影響 —— 請提高您關心的 MDE,或者增加引導至實驗中的流量份額。
為什麼樣本數規模增長得如此之快
主要有兩個關鍵關係。第一,所需的樣本數與 MDE 平方的倒數成正比 —— 將您想要檢測的提升幅度減半會使所需的樣本數增加四倍。第二,低基準測試的成本更高 —— 在 1% 的基準下,您需要大約 5% 基準下 25 倍的訪客數才能檢測到相同的相對提升幅度。這兩個效應共同解釋了為什麼即使是高流量的網站,也很難在低轉換率的流程中檢測到微小的提升。
A/B 測試規劃中的常見陷阱
- 將 MDE 設定得太小。 這會使樣本數膨脹到您無法在合理時間內收集到的數字。請選擇實際會改變您發佈決策的最小提升幅度 —— 而不是憑空猜想。
- 考驗力低於 80%。 考驗力為 60% 的測試有 40% 的機率錯失 MDE 大小的真實效應。產品決策的標準是 80%;請勿為了讓測試「契合時長」而降低它。
- 在低 p 值時過早停止。 偷看中期結果並在 p < 0.05 的瞬間停止測試會使偽陽性率急劇上升。請在啟動前堅持規劃好的樣本數。
- 忽略多變量成本。 包含四個變體的 A/B/C/D 測試需要經過 Bonferroni 校正的 alpha —— 通常是簡單 A/B 測試每組樣本數的 2-3 倍。
- 忘記週末效應。 測試至少運行 7 天可以讓您平均分配一週內各天的流量組合;非常短的測試可能會因工作日/週末的差異而產生偏差。
- 低估分配開銷。 如果您只將 50% 的流量引導至測試中,則每組的比率會減半 —— 曆法時長將會翻倍。
選擇 Alpha 和考驗力
Alpha 是偽陽性率 —— 即在變體 B 實際上並未獲勝時宣布其獲勝的機率。考驗力是 1 減去偽陰性率 —— 即檢測到具有 MDE 大小的真實獲勝變體的機率。行業預設值為 alpha = 0.05 且考驗力 = 0.80。對於錯誤決策代價高昂的高風險發佈,請使用 alpha = 0.01 且考驗力 = 0.90。這兩種選擇都會使測試更嚴格並使所需的樣本數膨脹:將 alpha 從 0.05 降低到 0.01 大約會使樣本數翻倍;將考驗力從 0.80 提高到 0.90 會使其再增加 30%。
相對 MDE 與絕對 MDE
相對 MDE(基準的 %)是最常見的表述方式:「我想在目前 5% 的轉換率基礎上檢測到 10% 的提升」,這意味著 p₂ = 5.5%。絕對 MDE(百分點)是在業務影響以點數表示時的正確表述方式:「我想在 5% 的基準上檢測到 +0.5 pp 的提升」,這意味著 p₂ = 5.5%。兩者是等價的 —— 請選擇符合您的利害關係人思考該指標的方式即可。
多變量測試與 Bonferroni 校正
如果您將 K 個變體與一個控制組進行比較,您實際上是在同時運行 K − 1 個測試。隨著每次額外的比較,天真的偽陽性率都會上升 —— 在 alpha = 0.05 下進行的三個獨立測試具有大約 14% 的組合偽陽性機率,而不是 5%。標準的修正方法是 Bonferroni 校正:在計算臨界 z 值之前,將您的名義 alpha 除以比較次數。當您將變體數量設定為 2 以上時,此計算機會自動應用該校正。其結果是需要更大的每組樣本數 —— 與簡單的 A/B 測試相比,多變量測試在每組上會消耗更多流量。
FAQ
A/B 測試需要多少樣本數?
這取決於四個數值:基準轉換率、最小可檢測效應 (MDE)、顯著水準 (alpha) 和統計考驗力。對於一個典型的電子商務測試,基準轉換率為 5%,相對提升目標為 10%,alpha 為 0.05 且考驗力為 80%,您大約需要每個變體 31,000 名訪客。較低的基準和較小的 MDE 都會使所需的樣本數急劇增加。
什麼是最小可檢測效應 (MDE)?該如何選擇?
MDE 是您希望測試能夠可靠檢測到的最小提升幅度。請根據業務影響力來選擇它 —— 即會改變您發佈決策的最小改進幅度。常見的起步點:高流量的結帳和註冊流程為相對 5% 到 10%,流量較低的功能為相對 15% 到 25%。較小的 MDE 意味著需要大得多的樣本數,因此請勿設定得太低。
我應該使用什麼顯著水準和考驗力?
Alpha 0.05(95% 信心水準)和 80% 考驗力是產品和行銷測試的行業預設值。對於高影響力的發佈,請使用 alpha 0.01 和 90% 考驗力。降低 alpha 或 beta 都需要更大的樣本數 —— 這是偽陽性 (alpha)、偽陰性 (beta) 與測試耗時之間的權衡。
為什麼我的測試每個變體需要這麼多訪客?
主要有兩個因素。第一,較低的基準轉換率會使所需的樣本數急劇增加 —— 在 1% 的基準上檢測微小提升所需的訪客數大約是在 5% 基準上的 25 倍。第二,所需的樣本數與 MDE 平方的倒數成正比 —— 將 MDE 減半會使所需的樣本數增加四倍。您可以提高您關心的 MDE,或者接受更長的測試時間。
這個公式是如何推導出來的?
它是基於常態逼近的標準雙比例考驗力公式。每組樣本數等於 (zα 乘以虛無假設下的合併標準差加上 zβ 乘以對立假設下的非合併標準差) 的平方,再除以比率差的平方。計算機在虛無假設項中使用合併變異數,在對立假設項中使用非合併變異數 —— 這是最常見的教科書公式表述(Cohen 1988, Fleiss et al. 1980)。
如何處理包含多個變體的多變量測試?
當您將 K 個變體與一個控制組進行比較時,計算機會在計算臨界 z 值之前,透過將 alpha 除以 (K − 1) 來應用 Bonferroni 校正。這可以防止因進行多次比較而導致偽陽性率上升。其結果是需要更大的每組樣本數 —— 與簡單的 A/B 測試相比,多變量測試在每組上會消耗更多流量。
我應該運行測試達到建議的天數,還是當它達到顯著時就停止?
請運行建議的時長,並且僅在結束時評估顯著性。在 p 值降至 0.05 以下的瞬間立即停止(偷看結果)會使偽陽性率遠高於名義 alpha。此計算機顯示的樣本數是規劃的目標 —— 請在啟動前堅持這一目標,並克制提前宣佈獲勝者的衝動。測試結束後,將您的結果輸入配套的 A/B 測試顯著性計算機中以讀取 p 值和信賴區間。
如果我的轉換率非常低(低於 1%)該怎麼辦?
當 np 或 n(1 − p) 較小時,常態逼近可能會略有不準確。對於極低轉換率的測試(例如 0.1% 的基準),計算機仍然可以提供合理的規劃估算值,但建議在建議的樣本數基礎上考慮增加一小部分額外的緩衝(10-15%)。對於每組樣本數非常小的情況,費雪精確檢定 (Fisher's exact test) 是分析階段更保守的替代方案。
引用此內容、頁面或工具為:
"A/B測試樣本數計算機" 於 https://MiniWebtool.com/zh-tw//,來自 MiniWebtool,https://MiniWebtool.com/
由 miniwebtool 團隊編製。更新日期:2026-05-17
您還可以嘗試我們的 AI數學解題器 GPT,通過自然語言問答解決您的數學問題。