A/B測試顯著性計算機
判斷 A/B 測試組別之間的差異是否具有統計顯著性。輸入控制組與實驗組的訪客數和轉換數,即可獲得 P值、信心水準、提升率以及明確的勝負判定結果。
偵測到廣告封鎖,導致我們無法顯示廣告
MiniWebtool 依靠廣告收入免費提供服務。如果這個工具幫到你,歡迎升級 Premium(無廣告 + 更快),或將 MiniWebtool.com 加入允許清單後重新整理頁面。
- 或升級 Premium(無廣告)
- 允許 MiniWebtool.com 顯示廣告,然後重新載入
A/B測試顯著性計算機
A/B 測試顯著性計算機對您的實驗數據應用雙比例 z 檢定,並報告對照組(原始版本 A)與實驗組(挑戰版本 B)之間觀測到的差異是否具有統計顯著性。輸入兩組的訪客數與轉換數後,本工具會傳回 p 值、轉換率差異的信賴區間、絕對與相對提升度、觀測效應的統計考驗力、在 80% 考驗力下確認提升所需的每組樣本大小,以及通俗易懂的勝/敗/不確定結論 — 同時輔以 z 分數在標準常態分配上落點的動態視覺化圖表。
如何使用
- 輸入對照組 (A) 的訪客人數與轉換次數。
- 輸入實驗組 (B) 在相同時間窗口內測得的訪客人數與轉換次數。
- 選擇信賴水準 — 95% 為標準水準,99% 更為嚴格,90% 適用於早期探索。
- 選擇雙尾檢定(關心 B 與 A 在任一方向上是否有差異)或單尾檢定(僅在 B 擊敗 A 時給予肯定)。
- 點擊「計算顯著性」以閱讀結論、p 值、信賴區間、統計考驗力以及按部就班的數學拆解。
使用公式(雙比例 Z 檢定)
p₁ = c₁ / n₁ · p₂ = c₂ / n₂
p̂ = (c₁ + c₂) / (n₁ + n₂) (虛無假設 H₀ 下的合併轉換率)
SE = √[ p̂ × (1 − p̂) × (1/n₁ + 1/n₂) ]
z = (p₂ − p₁) / SE
p 值 (雙尾) = 2 × (1 − Φ(|z|))
在水準 (1 − α) 下 (p₂ − p₁) 的信賴區間 = (p₂ − p₁) ± zα/2 × √[ p₁(1−p₁)/n₁ + p₂(1−p₂)/n₂ ]
本 A/B 測試計算機的獨特之處
- 提交前的即時預覽 — 隨意輸入四個計數中的任何一個,即可即時看到轉換率、提升度、z 分數、p 值和結論的動態更新。
- 視覺化顯著性檢查 — 動態標準常態曲線準確顯示您的 z 統計量相對於拒絕域的落點。
- 信賴區間森林圖 — 並排查看兩組轉換率的 95% 信賴區間。不重疊的條形是辨識贏家的直觀視覺訊號。
- 通俗易懂的結論 — 以綠/橘/紅橫幅代替生硬的 p 值數字。對大多數利益相關者來說,看見「實驗組 B 勝出」遠比看到「p = 0.028」更具溝通效率。
- 統計考驗力解讀 — 能識別測試何時考驗力不足,並推薦在 80% 考驗力下所需的每組樣本大小。
- 貝氏風格的 「P(B > A)」 — 作為頻率論 p 值的補充視角,許多產品團隊發現這種解讀方式更符合直覺。
- 快速範例預設值 — 一鍵載入「顯著勝出」、「結果接近」、「無顯著訊號」或「表現落後」等情境,探索數字如何隨之變化。
解讀結論
- 綠色 — 顯著勝出:p 值 ≤ α 且實驗組轉換率 > 對照組轉換率。提升度不太可能是由偶然產生的;您可以正式發布版本 B。
- 紅色 — 顯著落後:p 值 ≤ α 但實驗組轉換率 < 對照組轉換率。B 的表現確實較差;請保留版本 A 並調查原因。
- 橘色 — 接近臨界值:p 值接近 α。建議在做決定前收集更多流量數據。
- 灰色 — 目前無顯著訊號:數據表明兩者無實質差異。您可以選擇繼續執行測試,或停止並嘗試更大膽的改動。
為什麼不應該在 P 值達到顯著時立即停止測試
在測試執行過程中頻繁檢查結果,並在 p 值 < 0.05 的瞬間停止測試(通常稱為「偷看」或 Peeking),會使偽陽性率急劇膨脹 — 有時在名義上為 5% 的檢定中,實際偽陽性率會高達 30% 或更高。正確做法是預先透過考驗力計算決定好樣本大小,將實驗執行到該目標,然後才評估顯著性。本計算機顯示的每組所需樣本大小是規劃未來測試時的良好指標。
樣本大小規劃
如果您的測試統計考驗力不足,計算機會使用標準的雙比例考驗力公式來建議每組樣本大小:
每組 n ≈ (zα/2 · √[2p̄(1−p̄)] + zβ · √[p₁(1−p₁) + p₂(1−p₂)])² / (p₂ − p₁)²
其中 p̄ 是 p₁ 和 p₂ 的平均值,而 zβ 是目標考驗力的標準常態分位數(80% 考驗力時為 0.84)。
將您的歷史基準轉換率和您關心的最小提升度代入公式中 — 這便是啟動新測試前應鎖定的目標樣本大小。
A/B 測試的常見陷阱
- 過早偷看 (Peeking) — 每天查看結果並在第一次出現顯著 p 值時停止,會導致偽陽性大幅增加。應使用序列測試方法或等待達到預定的樣本大小。
- 樣本量過小 — 當每組的轉換數少於幾百次時,常態近似可能會失效。此時應考慮使用 Fisher 精確檢定。
- 多重比較問題 — 同時執行十個測試卻只報告勝出的那一個,會使偽陽性率失真。應應用 Bonferroni 校正或執行預先註冊的驗證性檢定。
- 新奇效應 (Novelty effects) — 實驗組 B 在第一週表現出色可能單純是因為用戶注意到了新變化。應讓測試執行足夠長的時間以使效應穩定。
- 存活者偏差 — 在隨機分流後篩選訪客會破壞測試。請務必基於完整的隨機分流人群來計算測試。
- 測量時間窗口錯位 — 必須在完全相同的時間窗口內收集兩組的數據。週末和工作日的流量結構不同,會擾亂基準率。
單尾檢定 vs 雙尾檢定
雙尾檢定詢問的是 B 與 A 在任何方向上是否存在差異。當不論結果好壞您都能正式採用相應版本時,這是一個正確的預設選項。單尾檢定僅對預先指定的方向(通常是:B 優於 A)進行判定,並在數據符合該方向時將 p 值減半 — 但您必須在觀察數據之前決定好方向。在看到結果後才切換到單尾檢定是常見的 P 駭客行為 (P-hacking)。
解讀信賴區間
轉換率差異的 95% 信賴區間告訴您真實提升度的合理範圍。如果該區間完全大於零,代表 B 顯著勝出;完全小於零,代表 B 顯著落後;若是跨越零點,則數據表明兩者無實質真實差異。區間的寬度反映了估計的精確度 — 區間越窄意味著數據量越充足。
常見問答
A/B 測試顯著性計算機的作用是什麼?
它對您的對照組與實驗組轉換數據應用雙比例 z 檢定,並告訴您所觀測到的轉換率差異是否不太可能用隨機巧合來解釋。它會報告 p 值、差異的信賴區間、觀測效應的統計考驗力、提升度以及通俗易懂的結論。
A/B 測試應該使用什麼信賴水準?
95% 信賴水準(α = 0.05)是產品和行銷測試的行業標準。對於偽陽性代價高昂的高影響力發布,請使用 99%;而 90% 僅用於早期探索,此時您願意承擔較高的偽陽性風險。
我應該執行單尾檢定還是雙尾檢定?
當您只關心 B 在任一方向上是否與 A 不同時,請使用雙尾檢定。當您預先確定了方向性假設(例如預期 B 會擊敗 A),並且願意忽略任何相反方向的訊號時,請使用單尾檢定。大多數產品團隊應預設使用雙尾檢定。
p 值是如何計算的?
合併轉換率 p̂ 是由總轉換數和總訪客數計算得出。標準誤差是 √[p̂(1−p̂)(1/n₁ + 1/n₂)]。z 統計量是轉換率差異除以該標準誤差。雙尾 p 值為 2 × (1 − Φ(|z|)),其中 Φ 是標準常態累積分配函數。
什麼是統計考驗力,為什麼它很重要?
考驗力是在給定當前樣本大小的情況下,測試檢測出觀測到之真實效應大小的機率。考驗力低於 80% 意味著測試規模可能太小,即使提升是真實的也無法確認。本計算機會報告考驗力以及達到 80% 所需的每組樣本大小。
一旦 p 值降到 0.05 以下,我可以立即停止測試嗎?
不行。偷看並過早停止會使偽陽性率大幅膨脹,遠高於名義上的 α。應事先使用考驗力計算來決定樣本大小,將測試執行完畢,然後才評估顯著性。本計算機顯示的所需樣本大小是一個很好的目標。
如果我的轉換率非常低(例如低於 1%)該怎麼辦?
當 np 或 n(1−p) 較小時,常態近似可能不夠準確。經驗法則要求每組至少要有 30 次轉換,理想情況下是 100 次以上。對於轉換率極低的測試,可以考慮使用 Fisher 精確檢定作為更保守 alternative 選擇。
P(B > A) 代表什麼意思?
在對各轉換率採用無先驗資訊(均勻分布風格)的先驗機率下,數據推導出實驗組 B 的真實轉換率高於對照組 A 的事後機率。它是頻率論 p 值的貝氏補充觀點,通常更容易向非統計人員傳達(「有 85% 的把握 B 更好」比「p = 0.03」更容易理解)。
引用此內容、頁面或工具為:
"A/B測試顯著性計算機" 於 https://MiniWebtool.com/zh-tw//,來自 MiniWebtool,https://MiniWebtool.com/
由 miniwebtool 團隊維護。更新日期:2026-05-17
您還可以嘗試我們的 AI數學解題器 GPT,通過自然語言問答解決您的數學問題。