A/B測試顯著性計算機

判斷 A/B 測試組別之間的差異是否具有統計顯著性。輸入控制組與實驗組的訪客數和轉換數，即可獲得 P值、信心水準、提升率以及明確的勝負判定結果。

A/B測試顯著性計算機

快速範例點擊載入典型情境，即可在計算前調整任何欄位。

即時預覽 — 請輸入數據

對照組轉換率 —

實驗組轉換率 —

相對提升度 —

z = — · p 值計算中

對照組 (A)

原始版本

訪客數

轉換數必須小於或等於上方的訪客數。

實驗組 (B)

挑戰版本

訪客數

轉換數須與對照組測量使用相同的時間窗口。

信賴水準

檢定類型

Embed A/B測試顯著性計算機 Widget

A/B測試顯著性計算機

A/B 測試顯著性計算機對您的實驗數據應用雙比例 z 檢定，並報告對照組（原始版本 A）與實驗組（挑戰版本 B）之間觀測到的差異是否具有統計顯著性。輸入兩組的訪客數與轉換數後，本工具會傳回 p 值、轉換率差異的信賴區間、絕對與相對提升度、觀測效應的統計考驗力、在 80% 考驗力下確認提升所需的每組樣本大小，以及通俗易懂的勝／敗／不確定結論 — 同時輔以 z 分數在標準常態分配上落點的動態視覺化圖表。

如何使用

輸入對照組 (A) 的訪客人數與轉換次數。
輸入實驗組 (B) 在相同時間窗口內測得的訪客人數與轉換次數。
選擇信賴水準 — 95% 為標準水準，99% 更為嚴格，90% 適用於早期探索。
選擇雙尾檢定（關心 B 與 A 在任一方向上是否有差異）或單尾檢定（僅在 B 擊敗 A 時給予肯定）。
點擊「計算顯著性」以閱讀結論、p 值、信賴區間、統計考驗力以及按部就班的數學拆解。

使用公式（雙比例 Z 檢定）

p₁ = c₁ / n₁ · p₂ = c₂ / n₂

p̂ = (c₁ + c₂) / (n₁ + n₂) (虛無假設 H₀ 下的合併轉換率)

SE = √[ p̂ × (1 − p̂) × (1/n₁ + 1/n₂) ]

z = (p₂ − p₁) / SE

p 值 (雙尾) = 2 × (1 − Φ(|z|))

在水準 (1 − α) 下 (p₂ − p₁) 的信賴區間 = (p₂ − p₁) ± z_α/2 × √[ p₁(1−p₁)/n₁ + p₂(1−p₂)/n₂ ]

本 A/B 測試計算機的獨特之處

提交前的即時預覽 — 隨意輸入四個計數中的任何一個，即可即時看到轉換率、提升度、z 分數、p 值和結論的動態更新。
視覺化顯著性檢查 — 動態標準常態曲線準確顯示您的 z 統計量相對於拒絕域的落點。
信賴區間森林圖 — 並排查看兩組轉換率的 95% 信賴區間。不重疊的條形是辨識贏家的直觀視覺訊號。
通俗易懂的結論 — 以綠／橘／紅橫幅代替生硬的 p 值數字。對大多數利益相關者來說，看見「實驗組 B 勝出」遠比看到「p = 0.028」更具溝通效率。
統計考驗力解讀 — 能識別測試何時考驗力不足，並推薦在 80% 考驗力下所需的每組樣本大小。
貝氏風格的「P(B > A)」 — 作為頻率論 p 值的補充視角，許多產品團隊發現這種解讀方式更符合直覺。
快速範例預設值 — 一鍵載入「顯著勝出」、「結果接近」、「無顯著訊號」或「表現落後」等情境，探索數字如何隨之變化。

解讀結論

綠色 — 顯著勝出：p 值 ≤ α 且實驗組轉換率 > 對照組轉換率。提升度不太可能是由偶然產生的；您可以正式發布版本 B。
紅色 — 顯著落後：p 值 ≤ α 但實驗組轉換率 < 對照組轉換率。B 的表現確實較差；請保留版本 A 並調查原因。
橘色 — 接近臨界值：p 值接近 α。建議在做決定前收集更多流量數據。
灰色 — 目前無顯著訊號：數據表明兩者無實質差異。您可以選擇繼續執行測試，或停止並嘗試更大膽的改動。

為什麼不應該在 P 值達到顯著時立即停止測試

在測試執行過程中頻繁檢查結果，並在 p 值 < 0.05 的瞬間停止測試（通常稱為「偷看」或 Peeking），會使偽陽性率急劇膨脹 — 有時在名義上為 5% 的檢定中，實際偽陽性率會高達 30% 或更高。正確做法是預先透過考驗力計算決定好樣本大小，將實驗執行到該目標，然後才評估顯著性。本計算機顯示的每組所需樣本大小是規劃未來測試時的良好指標。

樣本大小規劃

如果您的測試統計考驗力不足，計算機會使用標準的雙比例考驗力公式來建議每組樣本大小：

每組 n ≈ (z_α/2 · √[2p̄(1−p̄)] + z_β · √[p₁(1−p₁) + p₂(1−p₂)])² / (p₂ − p₁)²

其中 p̄ 是 p₁ 和 p₂ 的平均值，而 z_β 是目標考驗力的標準常態分位數（80% 考驗力時為 0.84）。

將您的歷史基準轉換率和您關心的最小提升度代入公式中 — 這便是啟動新測試前應鎖定的目標樣本大小。

A/B 測試的常見陷阱

過早偷看 (Peeking) — 每天查看結果並在第一次出現顯著 p 值時停止，會導致偽陽性大幅增加。應使用序列測試方法或等待達到預定的樣本大小。
樣本量過小 — 當每組的轉換數少於幾百次時，常態近似可能會失效。此時應考慮使用 Fisher 精確檢定。
多重比較問題 — 同時執行十個測試卻只報告勝出的那一個，會使偽陽性率失真。應應用 Bonferroni 校正或執行預先註冊的驗證性檢定。
新奇效應 (Novelty effects) — 實驗組 B 在第一週表現出色可能單純是因為用戶注意到了新變化。應讓測試執行足夠長的時間以使效應穩定。
存活者偏差 — 在隨機分流後篩選訪客會破壞測試。請務必基於完整的隨機分流人群來計算測試。
測量時間窗口錯位 — 必須在完全相同的時間窗口內收集兩組的數據。週末和工作日的流量結構不同，會擾亂基準率。

單尾檢定 vs 雙尾檢定

雙尾檢定詢問的是 B 與 A 在任何方向上是否存在差異。當不論結果好壞您都能正式採用相應版本時，這是一個正確的預設選項。單尾檢定僅對預先指定的方向（通常是：B 優於 A）進行判定，並在數據符合該方向時將 p 值減半 — 但您必須在觀察數據之前決定好方向。在看到結果後才切換到單尾檢定是常見的 P 駭客行為 (P-hacking)。

解讀信賴區間

轉換率差異的 95% 信賴區間告訴您真實提升度的合理範圍。如果該區間完全大於零，代表 B 顯著勝出；完全小於零，代表 B 顯著落後；若是跨越零點，則數據表明兩者無實質真實差異。區間的寬度反映了估計的精確度 — 區間越窄意味著數據量越充足。

常見問答

A/B 測試顯著性計算機的作用是什麼？

它對您的對照組與實驗組轉換數據應用雙比例 z 檢定，並告訴您所觀測到的轉換率差異是否不太可能用隨機巧合來解釋。它會報告 p 值、差異的信賴區間、觀測效應的統計考驗力、提升度以及通俗易懂的結論。

A/B 測試應該使用什麼信賴水準？

95% 信賴水準（α = 0.05）是產品和行銷測試的行業標準。對於偽陽性代價高昂的高影響力發布，請使用 99%；而 90% 僅用於早期探索，此時您願意承擔較高的偽陽性風險。

我應該執行單尾檢定還是雙尾檢定？

當您只關心 B 在任一方向上是否與 A 不同時，請使用雙尾檢定。當您預先確定了方向性假設（例如預期 B 會擊敗 A），並且願意忽略任何相反方向的訊號時，請使用單尾檢定。大多數產品團隊應預設使用雙尾檢定。

p 值是如何計算的？

合併轉換率 p̂ 是由總轉換數和總訪客數計算得出。標準誤差是 √[p̂(1−p̂)(1/n₁ + 1/n₂)]。z 統計量是轉換率差異除以該標準誤差。雙尾 p 值為 2 × (1 − Φ(|z|))，其中 Φ 是標準常態累積分配函數。

什麼是統計考驗力，為什麼它很重要？

考驗力是在給定當前樣本大小的情況下，測試檢測出觀測到之真實效應大小的機率。考驗力低於 80% 意味著測試規模可能太小，即使提升是真實的也無法確認。本計算機會報告考驗力以及達到 80% 所需的每組樣本大小。

一旦 p 值降到 0.05 以下，我可以立即停止測試嗎？

不行。偷看並過早停止會使偽陽性率大幅膨脹，遠高於名義上的 α。應事先使用考驗力計算來決定樣本大小，將測試執行完畢，然後才評估顯著性。本計算機顯示的所需樣本大小是一個很好的目標。

如果我的轉換率非常低（例如低於 1%）該怎麼辦？

當 np 或 n(1−p) 較小時，常態近似可能不夠準確。經驗法則要求每組至少要有 30 次轉換，理想情況下是 100 次以上。對於轉換率極低的測試，可以考慮使用 Fisher 精確檢定作為更保守 alternative 選擇。

P(B > A) 代表什麼意思？

在對各轉換率採用無先驗資訊（均勻分布風格）的先驗機率下，數據推導出實驗組 B 的真實轉換率高於對照組 A 的事後機率。它是頻率論 p 值的貝氏補充觀點，通常更容易向非統計人員傳達（「有 85% 的把握 B 更好」比「p = 0.03」更容易理解）。

引用此內容、頁面或工具為：

"A/B測試顯著性計算機" 於 https://MiniWebtool.com/zh-tw/a-b測試顯著性計算機/，來自 MiniWebtool，https://MiniWebtool.com/

由 miniwebtool 團隊維護。更新日期：2026-05-17

您還可以嘗試我們的 AI數學解題器 GPT，通過自然語言問答解決您的數學問題。

A/B測試顯著性計算機

對照組 (A)

實驗組 (B)

A/B測試顯著性計算機

如何使用

使用公式（雙比例 Z 檢定）

本 A/B 測試計算機的獨特之處

解讀結論

為什麼不應該在 P 值達到顯著時立即停止測試

樣本大小規劃

A/B 測試的常見陷阱

單尾檢定 vs 雙尾檢定

解讀信賴區間

常見問答

A/B 測試顯著性計算機的作用是什麼？

A/B 測試應該使用什麼信賴水準？

我應該執行單尾檢定還是雙尾檢定？

p 值是如何計算的？

什麼是統計考驗力，為什麼它很重要？

一旦 p 值降到 0.05 以下，我可以立即停止測試嗎？

如果我的轉換率非常低（例如低於 1%）該怎麼辦？

P(B > A) 代表什麼意思？

統計與數據分析:

常用工具: