Máy tính Kích thước Mẫu Kiểm định A/B
Lập kế hoạch kiểm định A/B trước khi khởi chạy. Nhập tỷ lệ chuyển đổi cơ sở, hiệu ứng tối thiểu có thể phát hiện (MDE), mức ý nghĩa (alpha) và lực lượng thống kê (1 trừ beta) để có được kích thước mẫu yêu cầu cho mỗi phiên bản, tổng kích thước mẫu và thời gian cần thiết để thực hiện kiểm định dựa trên lưu lượng truy cập hàng ngày của bạn.
Trình chặn quảng cáo đang ngăn chúng tôi hiển thị quảng cáo
MiniWebtool miễn phí nhờ quảng cáo. Nếu công cụ này hữu ích, hãy ủng hộ bằng Premium (không quảng cáo + nhanh hơn) hoặc cho phép MiniWebtool.com rồi tải lại trang.
- Hoặc nâng cấp Premium (không quảng cáo)
- Cho phép quảng cáo cho MiniWebtool.com, rồi tải lại
Giới thiệu về Máy tính Kích thước Mẫu Kiểm định A/B
Máy tính Kích thước Mẫu Kiểm định A/B lập kế hoạch cho một kiểm định A/B trước khi bạn khởi chạy nó. Nhập tỷ lệ chuyển đổi cơ sở, hiệu ứng tối thiểu có thể phát hiện (MDE) bạn quan tâm, mức ý nghĩa (alpha) và công suất thống kê bạn muốn, máy tính sẽ trả về kích thước mẫu yêu cầu trên mỗi nhánh và tổng số số lượng mẫu — đi kèm một ước tính tự động về thời lượng kiểm định dựa trên lưu lượng truy cập hàng ngày và tỷ lệ phân bổ của bạn, một đường cong công suất hiển thị cách công suất tăng theo kích thước mẫu, một bảng độ nhạy so sánh chi phí của các lựa chọn MDE khác nhau, một trình trực quan hóa phân bổ lưu lượng truy cập và một nhận định tính khả thi bằng ngôn ngữ bình dị. Công cụ được xây dựng riêng cho các kiểm định A/B tỷ lệ chuyển đổi (kiểm định z hai tỷ lệ, công thức Cohen), với hiệu chỉnh Bonferroni tùy chọn cho các kiểm định đa biến.
Cách sử dụng
- Nhập tỷ lệ chuyển đổi cơ sở của biến thể hiện tại (A), được đo lường trong một khoảng thời gian đại diện gần đây.
- Thiết lập hiệu ứng tối thiểu có thể phát hiện (MDE) — mức tăng trưởng nhỏ nhất mà thực sự có thể làm thay đổi quyết định của bạn. Chuyển đổi linh hoạt giữa phần trăm tương đối và điểm phần trăm tuyệt đối.
- Chọn một mức ý nghĩa (alpha) — 5% (độ tin cậy 95%) là giá trị mặc định của ngành.
- Chọn một công suất thống kê — 80% là giá trị mặc định của ngành; hãy nâng lên 90% cho các đợt triển khai có tác động cao.
- Chọn hai phía (B khác biệt với A theo bất kỳ hướng nào, mặc định) hoặc một phía (chỉ ghi nhận khi B vượt trội hơn A).
- Nếu bạn đang thực hiện kiểm định đa biến, hãy thiết lập số lượng biến thể — máy tính sẽ tự động áp dụng hiệu chỉnh Bonferroni.
- Nhập số lượng khách truy cập hàng ngày vào trang và tỷ lệ phân bổ lưu lượng được định tuyến vào thử nghiệm.
- Nhấp vào Tính Kích Thước Mẫu để đọc kích thước mẫu trên mỗi nhánh và tổng số, thời lượng kiểm định dự kiến, đường cong công suất, bảng độ nhạy và toán học từng bước.
Công thức được sử dụng (Công thức công suất hai tỷ lệ)
p₂ = p₁ × (1 + MDE_relative) hoặc p₂ = p₁ + MDE_absolute
p̄ = (p₁ + p₂) / 2 (tỷ lệ gộp dưới H₀)
SD₀ = √[ 2 × p̄ × (1 − p̄) ] (độ lệch chuẩn dưới giả thuyết không)
SD₁ = √[ p₁(1 − p₁) + p₂(1 − p₂) ] (độ lệch chuẩn dưới giả thuyết đối nghịch)
n / nhánh = (zα/2 × SD₀ + zβ × SD₁)² / (p₂ − p₁)²
Đối với các kiểm định một phía, thay thế zα/2 bằng zα. Đối với K biến thể so với một nhóm đối chứng, thay thế α bằng α / (K − 1) (hiệu chỉnh Bonferroni).
Điều làm nên sự khác biệt của Máy tính Kích thước Mẫu này
- Xem trước trực tiếp trước khi gửi — mỗi phím bấm đều cập nhật kích thước mẫu trên mỗi nhánh, tổng số khách truy cập, tỷ lệ chuyển đổi mục tiêu và ước tính thời lượng.
- Thời lượng kiểm định trong thời gian thực — biến con số trừu tượng "bạn cần 31.000 khách truy cập" thành con số cụ thể "kiểm định của bạn sẽ chạy trong 8 ngày với 4.000 khách/ngày trong kiểm định."
- Đường cong công suất động — xem chính xác kích thước mẫu mục tiêu của bạn nằm ở đâu trên đường cong công suất và một tuần lưu lượng truy cập tăng thêm sẽ mang lại bao nhiêu công suất.
- Bảng độ nhạy MDE — so sánh song song chi phí kích thước mẫu để phát hiện các mức tăng trưởng 2%, 5%, 10%, 15%, 20% và 25%, nhờ đó bạn có thể chọn mức tăng trưởng nhỏ nhất mà vẫn khả thi.
- MDE tương đối hoặc tuyệt đối — chuyển đổi bằng một cú nhấp chuột giữa hai cách phổ biến nhất mà các nhóm sản phẩm chỉ định mục tiêu tăng trưởng.
- Hỗ trợ đa biến với Bonferroni — xử lý các kiểm định A/B/C và A/B/C/D với tính năng hiệu chỉnh tự động; nhiều máy tính khác thường âm thầm sử dụng toán học A/B đơn giản cho các đầu vào đa biến.
- Trực quan hóa phân bổ lưu lượng truy cập — một thanh biểu đồ xếp chồng hiển thị chính xác cách lưu lượng kiểm định phân chia giữa nhóm đối chứng và từng biến thể.
- Nhận định tính khả thi bằng ngôn ngữ bình dị — biểu ngữ màu xanh/hổ phách/đỏ cảnh báo các kiểm định chậm trước khi bạn bắt đầu khởi chạy.
- Kịch bản nhanh — các thiết lập sẵn một cú nhấp chuột cho các mức cơ sở điển hình của thương mại điện tử, SaaS, email và cài đặt ứng dụng di động.
Đọc nhận định tính khả thi
- Màu xanh — Khả thi. Kiểm định hoàn thành trong vòng hai tuần. Bạn có lượng lưu lượng truy cập dồi dào để phát hiện mức tăng trưởng đã chọn ở độ tin cậy mong muốn.
- Màu hổ phách — Có thể thực hiện. Kiểm định mất từ hai đến sáu tuần. Hãy lập kế hoạch xoay quanh ít nhất một chu kỳ kinh doanh đầy đủ và kiềm chế ý muốn nhìn lén kết quả.
- Màu đỏ — Chậm. Kiểm định mất nhiều hơn sáu tuần (hoặc không thể hoàn thành). Các kiểm định kéo dài dễ bị ảnh hưởng bởi tính thời vụ và sự thay đổi hành vi của người dùng — hãy tăng MDE bạn quan tâm hoặc tăng tỷ lệ lưu lượng truy cập được điều hướng vào thử nghiệm.
Tại sao kích thước mẫu lại tăng nhanh đến vậy
Hai mối quan hệ quan trọng nhất cần lưu ý. Đầu tiên, kích thước mẫu yêu cầu tỷ lệ thuận với một chia cho bình phương của MDE — giảm một nửa mức tăng trưởng bạn muốn phát hiện sẽ làm tăng gấp bốn lần mẫu yêu cầu. Thứ hai, các kiểm định có mức cơ sở thấp sẽ tốn kém hơn — ở mức cơ sở 1%, bạn cần lượng khách truy cập gấp khoảng 25 lần so với ở mức cơ sở 5% để phát hiện cùng một mức tăng trưởng tương đối. Cùng nhau, hai hiệu ứng này giải thích tại sao ngay cả các trang web có lưu lượng truy cập cao cũng gặp khó khăn khi phát hiện các mức tăng trưởng nhỏ trên các luồng có tỷ lệ thấp.
Các cạm bẫy phổ biến khi lập kế hoạch kiểm định A/B
- Đặt MDE quá nhỏ. Thổi phồng kích thước mẫu lên các con số mà bạn không thể thu thập trong một thời gian hợp lý. Hãy chọn mức tăng trưởng nhỏ nhất thực sự có thể thay đổi quyết định triển khai của bạn — thay vì một phỏng đoán đầy hy vọng.
- Công suất dưới 80%. Một kiểm định với công suất 60% có 40% cơ hội bỏ lỡ một hiệu ứng thực tế. Tiêu chuẩn cho các quyết định sản phẩm là 80%; đừng hạ thấp nó chỉ để làm cho kiểm định vừa vặn với thời gian.
- Dừng sớm dựa trên giá trị p thấp. Việc xem lướt qua kết quả tạm thời và dừng lại ngay khi p < 0.05 làm thổi phồng tỷ lệ dương tính giả một cách nghiêm trọng. Hãy cam kết với kích thước mẫu đã lập kế hoạch trước khi khởi chạy.
- Bỏ qua chi phí đa biến. Một kiểm định A/B/C/D với bốn biến thể cần áp dụng alpha hiệu chỉnh Bonferroni — thường yêu cầu mẫu trên mỗi nhánh gấp 2-3 lần so với kiểm định A/B đơn giản.
- Quên hiệu ứng cuối tuần. Một kiểm định chạy tối thiểu 7 ngày cho phép bạn trung hòa sự xáo trộn lưu lượng truy cập giữa các ngày trong tuần; các kiểm định quá ngắn có thể bị sai lệch bởi sự khác biệt giữa ngày trong tuần và cuối tuần.
- Đánh giá thấp hao hụt phân bổ. Nếu bạn chỉ điều hướng 50% lưu lượng truy cập vào kiểm định, tỷ lệ trên mỗi nhánh sẽ giảm một nửa — làm kéo dài gấp đôi thời gian thực tế trên lịch.
Chọn Alpha và Công suất
Alpha là tỷ lệ dương tính giả — xác suất tuyên bố B là người chiến thắng khi thực tế không phải vậy. Công suất là một trừ đi tỷ lệ âm tính giả — xác suất phát hiện một người chiến thắng thực sự ở quy mô MDE. Các giá trị mặc định của ngành là alpha = 0.05 và công suất = 0.80. Sử dụng alpha = 0.01 và công suất = 0.90 cho các đợt triển khai có rủi ro cao, nơi mà một quyết định sai lầm sẽ phải trả giá đắt. Cả hai lựa chọn này đều thắt chặt kiểm định và làm tăng kích thước mẫu yêu cầu: hạ thấp alpha từ 0.05 xuống 0.01 làm tăng khoảng gấp đôi mẫu; nâng công suất từ 0.80 lên 0.90 làm tăng thêm 30% nữa.
MDE tương đối so với tuyệt đối
MDE tương đối (% của mức cơ sở) là cách đặt vấn đề phổ biến nhất: "Tôi muốn phát hiện mức tăng trưởng 10% trên tỷ lệ chuyển đổi 5% hiện tại của mình," nghĩa là p₂ = 5.5%. MDE tuyệt đối (điểm phần trăm) là cách đặt vấn đề chính xác khi tác động kinh doanh được thể hiện bằng điểm số: "Tôi muốn phát hiện mức tăng trưởng +0.5 pp trên mức cơ sở 5% của mình," nghĩa là p₂ = 5.5%. Cả hai đều tương đương nhau — hãy chọn bất kỳ cách nào phù hợp với cách các bên liên quan của bạn tư duy về chỉ số.
Kiểm định đa biến và Hiệu chỉnh Bonferroni
Nếu bạn so sánh K biến thể với một nhóm đối chứng, bạn đang chạy K − 1 kiểm định đồng thời. Tỷ lệ dương tính giả ngây thơ sẽ tăng lên với mỗi so sánh thêm vào — ba kiểm định độc lập ở mức alpha = 0.05 có xác suất dương tính giả kết hợp khoảng 14%, chứ không phải 5%. Giải pháp tiêu chuẩn là hiệu chỉnh Bonferroni: chia alpha danh nghĩa của bạn cho số lượng so sánh trước khi tính giá trị z tới hạn. Máy tính này tự động áp dụng hiệu chỉnh khi bạn đặt số lượng biến thể lớn hơn 2. Kết quả là kích thước mẫu yêu cầu trên mỗi nhánh lớn hơn — kiểm định đa biến tốn nhiều lưu lượng truy cập trên mỗi nhánh hơn so với kiểm định A/B đơn giản.
Câu hỏi thường gặp
Tôi cần kích thước mẫu bao nhiêu cho một kiểm định A/B?
Nó phụ thuộc vào bốn con số: tỷ lệ chuyển đổi cơ sở, hiệu ứng tối thiểu có thể phát hiện (MDE), mức ý nghĩa (alpha) và công suất thống kê. Đối với một kiểm định thương mại điện tử điển hình với mức cơ sở 5%, mục tiêu tăng trưởng tương đối 10%, alpha 0.05 và công suất 80%, bạn cần khoảng 31.000 khách truy cập cho mỗi biến thể. Mức cơ sở thấp hơn và MDE nhỏ hơn đều làm tăng kích thước mẫu yêu cầu một cách đáng kể.
Hiệu ứng tối thiểu có thể phát hiện (MDE) là gì và làm thế nào để chọn một mức phù hợp?
MDE là mức tăng trưởng nhỏ nhất mà bạn muốn kiểm định có thể phát hiện một cách đáng tin cậy. Hãy chọn nó dựa trên tác động kinh doanh — cải tiến nhỏ nhất có thể thay đổi quyết định triển khai của bạn. Các điểm khởi đầu phổ biến: tương đối từ 5 đến 10% cho các luồng thanh toán và đăng ký có lưu lượng truy cập cao, tương đối từ 15 đến 25% cho các tính năng có lưu lượng truy cập thấp hơn. MDE nhỏ hơn có nghĩa là kích thước mẫu lớn hơn nhiều, vì vậy đừng đặt nó quá thấp.
Tôi nên sử dụng mức ý nghĩa và công suất nào?
Alpha 0.05 (độ tin cậy 95%) và công suất 80% là các giá trị mặc định của ngành cho các kiểm định sản phẩm và tiếp thị. Sử dụng alpha 0.01 và công suất 90% cho các đợt triển khai có tác động cao. Việc hạ thấp alpha hoặc beta đều yêu cầu kích thước mẫu lớn hơn — sự đánh đổi là giữa kết quả dương tính giả (alpha), âm tính giả (beta) và thời gian thực hiện kiểm định.
Tại sao kiểm định của tôi lại cần nhiều khách truy cập trên mỗi biến thể như vậy?
Hai yếu tố chi phối điều này. Đầu tiên, tỷ lệ chuyển đổi cơ sở thấp hơn làm tăng kích thước mẫu yêu cầu — việc phát hiện một mức tăng trưởng nhỏ trên mức cơ sở 1% cần lượng khách truy cập gấp khoảng 25 lần so với mức cơ sở 5%. Thứ hai, kích thước mẫu yêu cầu tỷ lệ nghịch với bình phương của MDE — giảm một nửa MDE sẽ tăng gấp bốn lần mẫu yêu cầu. Hãy tăng MDE mà bạn quan tâm hoặc chấp nhận một kiểm định kéo dài hơn.
Công thức được gộp lại như thế nào?
Đó là công thức công suất hai tỷ lệ tiêu chuẩn dựa trên xấp xỉ chuẩn. Kích thước mẫu trên mỗi nhánh bằng bình phương của (zα nhân với độ lệch chuẩn gộp dưới giả thuyết không cộng với zβ nhân với độ lệch chuẩn không gộp dưới giả thuyết đối nghịch), chia cho bình phương chênh lệch tỷ lệ. Máy tính sử dụng phương sai gộp cho số hạng giả thuyết không và phương sai không gộp cho số hạng giả thuyết đối nghịch — công thức sách giáo khoa phổ biến nhất (Cohen 1988, Fleiss et al. 1980).
Làm cách nào để xử lý các kiểm định đa biến có nhiều hơn một biến thể?
Khi bạn so sánh K biến thể với một nhóm đối chứng, máy tính sẽ áp dụng hiệu chỉnh Bonferroni bằng cách chia alpha cho (K − 1) trước khi tính giá trị z tới hạn. Điều này bảo vệ chống lại tỷ lệ dương tính giả bị thổi phồng do thực hiện nhiều so sánh đồng thời. Kết quả là kích thước mẫu yêu cầu trên mỗi nhánh lớn hơn — kiểm định đa biến tốn nhiều lưu lượng truy cập trên mỗi nhánh hơn so với kiểm định A/B đơn giản.
Tôi nên chạy kiểm định trong số ngày được khuyến nghị hay dừng lại khi nó đạt được mức ý nghĩa?
Hãy chạy kiểm định trong suốt thời lượng được khuyến nghị và chỉ đánh giá mức ý nghĩa ở giai đoạn cuối. Dừng lại ngay khi giá trị p giảm xuống dưới 0.05 (nhìn lén) làm tăng tỷ lệ dương tính giả vượt xa mức alpha danh nghĩa. Kích thước mẫu hiển thị bởi máy tính này là mục tiêu được lập kế hoạch — hãy cam kết thực hiện nó trước khi khởi chạy và kiềm chế ý muốn tuyên bố người chiến thắng sớm. Sau khi kiểm định kết thúc, hãy nhập kết quả của bạn vào Máy tính Mức Ý nghĩa Kiểm định A/B đi kèm để đọc giá trị p và khoảng tin cậy.
Điều gì xảy ra nếu tỷ lệ chuyển đổi của tôi rất thấp (dưới 1%)?
Xấp xỉ chuẩn có thể hơi thiếu chính xác khi np hoặc n(1 − p) nhỏ. Đối với các kiểm định có tỷ lệ rất thấp (ví dụ: mức cơ sở 0.1%), máy tính vẫn đưa ra một ước tính lập kế hoạch hợp lý, nhưng bạn nên cân nhắc bổ sung một khoảng dự phòng nhỏ (10-15%) bên trên kích thước mẫu được khuyến nghị. Đối với các mẫu có kích thước rất nhỏ trên mỗi nhánh, kiểm định chính xác của Fisher là một giải pháp thay thế thận trọng hơn cho giai đoạn phân tích.
Tham khảo nội dung, trang hoặc công cụ này như sau:
"Máy tính Kích thước Mẫu Kiểm định A/B" tại https://MiniWebtool.com/vi// từ MiniWebtool, https://MiniWebtool.com/
bởi đội ngũ miniwebtool. Cập nhật: 2026-05-17
Bạn cũng có thể thử AI Giải Toán GPT của chúng tôi để giải quyết các vấn đề toán học của bạn thông qua câu hỏi và trả lời bằng ngôn ngữ tự nhiên.