เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B

วางแผนการทดสอบ A/B ก่อนที่คุณจะเริ่มเปิดใช้งาน ป้อนอัตราการแปลงที่เป็นเกณฑ์มาตรฐาน (Baseline Conversion Rate), ผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE), ระดับนัยสำคัญ (Alpha) และอำนาจการทดสอบ (1 ลบ Beta) เพื่อคำนวณขนาดตัวอย่างที่จำเป็นต่อหนึ่งตัวแปร ขนาดตัวอย่างทั้งหมด และระยะเวลาที่ต้องใช้ในการทดสอบเมื่อเทียบกับปริมาณผู้เข้าชมรายวันของคุณ

สถานการณ์จำลองด่วนแตะเพื่อโหลดเกณฑ์มาตรฐานและ MDE ทั่วไปของอุตสาหกรรม จากนั้นคุณสามารถปรับแต่งช่องข้อมูลใดก็ได้ก่อนเริ่มคำนวณ

ตัวอย่างแบบไลฟ์สด — เพิ่มข้อมูล

ต่อกลุ่ม —

ผู้เข้าชมทั้งหมด —

ระยะเวลาทดสอบ —

อัตราเป้าหมาย — · กำหนดค่าเกณฑ์มาตรฐาน + MDE

เกณฑ์มาตรฐาน (กลุ่มควบคุม A)

ปัจจุบัน

อัตราการแปลงที่เป็นเกณฑ์มาตรฐาน

อัตราการแปลงปัจจุบันของตัวแปร A — ที่วัดได้เมื่อเร็วๆ นี้

ผลกระทบต่ำสุดที่ต้องการตรวจจับ

สัมพัทธ์

การยกระดับที่น้อยที่สุดที่คุณต้องการตรวจจับ

% สัมพัทธ์

MDE ยิ่งเล็ก → กลุ่มตัวอย่างยิ่งใหญ่ขึ้นมาก (n แปรผันตาม 1/MDE²)

นัยสำคัญ (α)

อำนาจการทดสอบ (1 − β)

ประเภทการทดสอบ

จำนวนตัวแปร

ผู้เข้าชมหน้าเว็บรายวัน

/วัน

ปริมาณการเข้าชมรายวันทั้งหมดในหน้าเว็บที่กำลังทำการทดสอบ

ปริมาณการเข้าชมในการทดสอบ

% ของปริมาณการเข้าชมรายวันที่ถูกส่งไปยังการทดลอง

Embed เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B Widget

เกี่ยวกับ เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B

เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B ช่วยในการวางแผนการทดสอบ A/B ก่อนที่คุณจะเปิดใช้งานจริง เพียงกรอกอัตราการแปลงที่เป็นเกณฑ์มาตรฐาน ค่าผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE) ที่คุณสนใจ ระดับนัยสำคัญ (อัลฟา) และอำนาจการทดสอบทางสถิติที่คุณต้องการ จากนั้นเครื่องคำนวณจะแสดงผลลัพธ์ขนาดตัวอย่างที่จำเป็นต่อกลุ่มและขนาดตัวอย่างรวมทั้งหมด — พร้อมการประมาณระยะเวลาการทดสอบโดยอัตโนมัติจากปริมาณการเข้าชมรายวันและส่วนแบ่งปริมาณการเข้าชมของคุณ เส้นโค้งอำนาจการทดสอบที่แสดงการเติบโตตามขนาดตัวอย่าง ตารางความไวที่เปรียบเทียบความคุ้มค่าของการเลือกค่า MDE ในแต่ละระดับ ภาพจำลองการจัดสรรปริมาณการเข้าชม และคำตัดสินความเป็นไปได้ด้วยภาษาที่เข้าใจง่าย ถูกสร้างขึ้นโดยเฉพาะสำหรับพัฒนาระบบการทดสอบ A/B อัตราการแปลง (การทดสอบ z สองสัดส่วน, รูปแบบ Cohen) พร้อมตัวเลือกการปรับแก้แบบ Bonferroni สำหรับการทดสอบพหุตัวแปร

วิธีใช้งาน

กรอก อัตราการแปลงที่เป็นเกณฑ์มาตรฐาน ของตัวแปรปัจจุบัน (A) ที่วัดจากช่วงเวลาตัวแทนล่าสุด
ตั้งค่า ผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE) — ค่าการยกระดับที่น้อยที่สุดที่จะส่งผลต่อการตัดสินใจจริงของคุณ สลับเปลี่ยนได้ระหว่างแบบเปอร์เซ็นต์สัมพัทธ์และจุดเปอร์เซ็นต์สัมบูรณ์
เลือก ระดับนัยสำคัญ (อัลฟา) — 5% (ความเชื่อมั่น 95%) คือค่าเริ่มต้นมาตรฐานของอุตสาหกรรม
เลือก อำนาจการทดสอบทางสถิติ — 80% คือค่าเริ่มต้นมาตรฐานของอุตสาหกรรม สามารถเพิ่มเป็น 90% ได้สำหรับการเปิดตัวระบบที่มีผลกระทบสูง
เลือก สองหาง (ตัวแปร B มีความแตกต่างจาก A ไม่ว่าจะในทิศทางใด เป็นค่าเริ่มต้น) หรือ หางเดียว (พิจารณาเฉพาะกรณีที่ B ชนะ A เท่านั้น)
หากคุณกำลังรันการทดสอบพหุตัวแปร ให้ตั้งค่า จำนวนตัวแปร — เครื่องคำนวณจะนำการปรับแก้แบบ Bonferroni มาใช้โดยอัตโนมัติ
กรอก จำนวนผู้เข้าชมรายวัน ของหน้าเว็บ และ ส่วนแบ่งปริมาณการเข้าชม ที่ถูกส่งเข้าไปในการทดลอง
คลิก คำนวณขนาดตัวอย่าง เพื่ออ่านค่าขนาดตัวอย่างต่อกลุ่มและขนาดตัวอย่างทั้งหมด ระยะเวลาการทดสอบที่คาดหวัง เส้นโค้งอำนาจการทดสอบ ตารางความไว และคณิตศาสตร์แสดงผลลัพธ์แบบทีละขั้นตอน

สูตรที่ใช้ (สูตรอำนาจการทดสอบสองสัดส่วน)

p₂ = p₁ × (1 + MDE_relative) หรือ p₂ = p₁ + MDE_absolute

p̄ = (p₁ + p₂) / 2 (อัตราเฉล็กรวมภายใต้ H₀)

SD₀ = √[ 2 × p̄ × (1 − p̄) ] (ส่วนเบี่ยงเบนมาตรฐานภายใต้สมมติฐานว่าง)

SD₁ = √[ p₁(1 − p₁) + p₂(1 − p₂) ] (ส่วนเบี่ยงเบนมาตรฐานภายใต้สมมติฐานทางเลือก)

n / arm = (z_α/2 × SD₀ + z_β × SD₁)² / (p₂ − p₁)²

สำหรับการทดสอบแบบหางเดียว ให้แทนที่ z_α/2 ด้วย z_α สำหรับกรณีตัวแปร K เทียบกับกลุ่มควบคุมหนึ่งกลุ่ม ให้แทนที่ α ด้วย α / (K − 1) (การปรับแก้แบบ Bonferroni)

สิ่งที่ทำให้เครื่องคำนวณขนาดตัวอย่างนี้แตกต่าง

แสดงตัวอย่างแบบไลฟ์สดก่อนที่คุณจะส่งข้อมูล — ทุกๆ การกดแป้นพิมพ์จะอัปเดตขนาดตัวอย่างต่อกลุ่ม จำนวนผู้เข้าชมรวม อัตราการแปลงเป้าหมาย และการประมาณระยะเวลาโดยทันที
ระยะเวลาการทดสอบแบบเรียลไทม์ — เปลี่ยนจากข้อความเชิงนามธรรมอย่างเช่น "คุณต้องมีผู้เข้าชม 31,000 คน" ให้กลายเป็นสิ่งที่จับต้องได้อย่าง "การทดสอบของคุณจะรันเป็นเวลา 8 วัน โดยมีผู้เข้าชม 4,000 คน/กลุ่ม/วัน ในการทดสอบ"
เส้นโค้งอำนาจการทดสอบแบบเคลื่อนไหว — ดูได้อย่างชัดเจนว่าขนาดตัวอย่างเป้าหมายของคุณอยู่ตรงจุดไหนบนเส้นโค้งอำนาจการทดสอบ และปริมาณการเข้าชมที่เพิ่มขึ้นอีกหนึ่งสัปดาห์จะช่วยซื้ออำนาจการทดสอบเพิ่มได้มากเท่าใด
ตารางความไวของ MDE — เปรียบเทียบต้นทุนขนาดตัวอย่างในการตรวจจับการยกระดับที่ 2%, 5%, 10%, 15%, 20%, และ 25% ควบคู่กันไป เพื่อให้คุณสามารถเลือกการยกระดับที่น้อยที่สุดที่ยังคงสามารถทำได้จริง
MDE แบบสัมพัทธ์หรือแบบสัมบูรณ์ — สลับสับเปลี่ยนได้ในคลิกเดียวระหว่างสองวิธียอดนิยมที่ทีมพัฒนาผลิตภัณฑ์ใช้ระบุเป้าหมายการยกระดับ
รองรับพหุตัวแปรพร้อมระบบ Bonferroni — จัดการการทดสอบประเภท A/B/C และ A/B/C/D ด้วยการปรับแก้โดยอัตโนมัติ ซึ่งเครื่องคำนวณทั่วไปหลายตัวมักแอบใช้คณิตศาสตร์ของ A/B แบบธรรมดากับข้อมูลเข้าที่เป็นพหุตัวแปร
ภาพจำลองการจัดสรรปริมาณการเข้าชม — แถบแผนภูมิสะสมที่แสดงให้เห็นอย่างชัดเจนว่าปริมาณการเข้าชมในการทดสอบแบ่งระหว่างกลุ่มควบคุมและกลุ่มตัวแปรแต่ละกลุ่มอย่างไร
คำตัดสินความเป็นไปได้ด้วยภาษาที่เข้าใจง่าย — แบนเนอร์สีเขียว/เหลือง/แดงที่ช่วยแจ้งเตือนการทดสอบที่ล่าช้าก่อนที่คุณจะเริ่มเปิดใช้งานจริง
สถานการณ์จำลองด่วน — ค่าที่ตั้งไว้ล่วงหน้าในคลิกเดียวสำหรับเกณฑ์มาตรฐานทั่วไปของอีคอมเมิร์ซ, SaaS, อีเมล และการติดตั้งแอปบนมือถือ

วิธีอ่านคำตัดสินความเป็นไปได้

สีเขียว — เป็นไปได้ (Feasible) การทดสอบเสร็จสมบูรณ์ภายในสองสัปดาห์ คุณมีปริมาณการเข้าชมที่เหลือเฟือในการตรวจจับการยกระดับที่เลือกตามระดับความเชื่อมั่นที่กำหนด
สีเหลือง — พอทำได้ (Doable) การทดสอบใช้เวลาสองถึงหกสัปดาห์ ควรวางแผนให้ครอบคลุมรอบวงจรธุรกิจเต็มรูปแบบอย่างน้อยหนึ่งรอบ และหักห้ามใจไม่ให้แอบดูผลลัพธ์ล่วงหน้า
สีแดง — ช้า (Slow) การทดสอบใช้เวลานานกว่าหกสัปดาห์ (หรือไม่มีวันเสร็จสิ้น) การทดสอบที่ยาวนานเกินไปจะมีความเสี่ยงต่อปัจจัยฤดูกาลและพฤติกรรมของผู้ใช้ที่เปลี่ยนไป — ควรเพิ่มค่า MDE ที่คุณสนใจหรือเพิ่มสัดส่วนปริมาณการเข้าชมที่ส่งเข้าไปในการทดลอง

ทำไมขนาดตัวอย่างจึงขยายตัวอย่างรวดเร็ว

ความสัมพันธ์สองประการที่สำคัญที่สุด อย่างแรก ขนาดตัวอย่างที่ต้องใช้จะแปรผันตาม หนึ่งส่วนด้วยกำลังสองของ MDE — การลดค่าการยกระดับที่คุณต้องการตรวจจับลงครึ่งหนึ่งจะทำให้ต้องการกลุ่มตัวอย่างเพิ่มขึ้นเป็น สี่เท่า อย่างที่สอง การทดสอบที่มีเกณฑ์มาตรฐานต่ำจะมีต้นทุนมากกว่า — ที่เกณฑ์มาตรฐาน 1% คุณต้องใช้ผู้เข้าชมมากกว่าที่เกณฑ์มาตรฐาน 5% ประมาณ 25 เท่าเพื่อตรวจจับการยกระดับสัมพัทธ์ในจำนวนที่เท่ากัน ปัจจัยทั้งสองนี้รวมกันช่วยอธิบายว่าทำไมเว็บไซต์ที่มีปริมาณผู้เข้าชมสูงก็ยังคงประสบปัญหาในการตรวจจับการยกระดับขนาดเล็กในขั้นตอนระบบที่มีอัตราการแปลงต่ำ

ข้อผิดพลาดทั่วไปในการวางแผนการทดสอบ A/B

การตั้งค่า MDE เล็กเกินไป ทำให้ขนาดตัวอย่างพุ่งสูงขึ้นไปถึงจำนวนที่คุณไม่สามารถเก็บรวบรวมได้ในระยะเวลาที่เหมาะสม ควรเลือกค่าการยกระดับที่น้อยที่สุดที่จะส่งผลต่อการเปลี่ยนใจเปิดตัวระบบของคุณจริงๆ — ไม่ใช่แค่การเดาด้วยความหวัง
อำนาจการทดสอบต่ำกว่า 80% การทดสอบที่มีอำนาจการทดสอบ 60% จะมีโอกาสสูงถึง 40% ที่จะพลาดผลกระทบที่เกิดขึ้นจริง มาตรฐานสำหรับการตัดสินใจเรื่องผลิตภัณฑ์คือ 80% อย่าลดค่านี้ลงเพียงเพื่อให้ระบบ "ยัดลงลงตัว" กับระยะเวลาของคุณ
การหยุดก่อนกำหนดเมื่อเห็นค่า p-value ต่ำ การแอบดูผลลัพธ์ระหว่างทางแล้วกดหยุดการทดสอบทันทีที่ค่า p < 0.05 จะทำให้อัตราผลบวกลวงพุ่งสูงขึ้นอย่างมหาศาล ควรยึดมั่นในขนาดตัวอย่างที่วางแผนไว้ตั้งแต่ก่อนเริ่มเปิดตัวจริง
การละเลยต้นทุนของพหุตัวแปร การทดสอบแบบ A/B/C/D ที่มี 4 ตัวแปรจำเป็นต้องใช้ค่าอัลฟาที่ปรับแก้ตามแบบ Bonferroni — ซึ่งปกติแล้วต้องใช้ขนาดตัวอย่างต่อกลุ่มมากกว่าการทดสอบ A/B แบบธรรมดาถึง 2-3 เท่า
การลืมเรื่องผลกระทบจากวันหยุดสุดสัปดาห์ การทดสอบอย่างน้อย 7 วันจะช่วยให้คุณเฉลี่ยพฤติกรรมการเข้าชมในแต่ละวันของสัปดาห์ได้ การทดสอบที่สั้นเกินไปอาจถูกบิดเบือนโดยความแตกต่างระหว่างวันธรรมดากับวันหยุดเสาร์-อาทิตย์
การประเมินภาระจัดสรรปริมาณเข้าชมต่ำไป หากคุณส่งปริมาณการเข้าชมเข้าไปในการทดสอบเพียง 50% อัตราการแปลงต่อกลุ่มจะลดลงครึ่งหนึ่ง — ซึ่งส่งผลให้ระยะเวลาปฏิทินเพิ่มขึ้นเป็นสองเท่า

การเลือกค่าอัลฟาและอำนาจการทดสอบ

อัลฟาคืออัตราการเกิดผลบวกลวง — ความน่าจะเป็นที่จะประกาศให้ B เป็นผู้ชนะทั้งที่ความจริงแล้วไม่ได้เป็นเช่นนั้น อำนาจการทดสอบคือหนึ่งลบด้วยอัตราผลลบลวง — ความน่าจะเป็นที่จะตรวจพบผู้ชนะที่แท้จริงตามขนาดของ MDE ค่าเริ่มต้นของอุตสาหกรรมคืออัลฟา = 0.05 และอำนาจการทดสอบ = 0.80 ควรใช้อัลฟา = 0.01 และอำนาจการทดสอบ = 0.90 สำหรับการเปิดตัวระบบที่มีเดิมพันสูงซึ่งการตัดสินใจผิดพลาดจะมีราคาแพง ทางเลือกทั้งสองนี้จะทำให้การทดสอบมีความเข้มงวดขึ้นและเพิ่มขนาดตัวอย่างที่จำเป็น: การลดอัลฟาจาก 0.05 เป็น 0.01 จะเพิ่มขนาดตัวอย่างขึ้นประมาณสองเท่า; การเพิ่มอำนาจการทดสอบจาก 0.80 เป็น 0.90 จะเพิ่มขึ้นอีกประมาณ 30%

MDE แบบสัมพัทธ์ เทียบกับ แบบสัมบูรณ์

MDE แบบสัมพัทธ์ (% ของเกณฑ์มาตรฐาน) เป็นกรอบความคิดที่พบบ่อยที่สุด: "ฉันต้องการตรวจจับการยกระดับ 10% จากอัตราการแปลงปัจจุบันที่ 5%" ซึ่งหมายความว่า p₂ = 5.5% MDE แบบสัมบูรณ์ (จุดเปอร์เซ็นต์) เป็นกรอบความคิดที่ถูกต้องเมื่อผลกระทบทางธุรกิจแสดงออกมาเป็นจุด: "ฉันต้องการตรวจจับการยกระดับ +0.5 pp บนเกณฑ์มาตรฐาน 5% ของฉัน" ซึ่งหมายความว่า p₂ = 5.5% ทั้งสองแบบมีค่าเท่ากัน — เลือกแบบใดก็ได้ที่ตรงกับวิธีคิดของผู้มีส่วนได้ส่วนเสียในธุรกิจของคุณ

การทดสอบพหุตัวแปรและการปรับแก้แบบ Bonferroni

หากคุณเปรียบเทียบตัวแปร K กับกลุ่มควบคุมหนึ่งกลุ่ม หมายความว่าคุณกำลังรันการทดสอบไปพร้อมกันเป็นจำนวน K − 1 รายการ อัตราผลบวกลวงแบบไร้เดียงสาจะเพิ่มขึ้นในทุกๆ การเปรียบเทียบที่เพิ่มเข้ามา — การทดสอบอิสระสามรายการที่ค่าอัลฟา = 0.05 จะมีความน่าจะเป็นของผลบวกลวงรวมกันอยู่ที่ประมาณ 14% ไม่ใช่ 5% วิธีแก้ไขที่เป็นมาตรฐานคือการปรับแก้แบบ Bonferroni: โดยการหารค่าอัลฟาตามกำหนดของคุณด้วยจำนวนการเปรียบเทียบก่อนที่จะนำไปคำนวณค่า z วิกฤต เครื่องคำนวณนี้จะใช้การปรับแก้ให้โดยอัตโนมัติเมื่อคุณตั้งค่าจำนวนตัวแปรตั้งแต่ 2 ขึ้นไป ผลลัพธ์ที่ได้คือขนาดตัวอย่างต่อกลุ่มที่จำเป็นต้องใหญ่ขึ้น — การทดสอบพหุตัวแปรใช้ปริมาณการเข้าชมต่อกลุ่มมากกว่าการทดสอบ A/B แบบธรรมดา

FAQ

ฉันต้องใช้ขนาดตัวอย่างเท่าใดสำหรับการทดสอบ A/B?

มันขึ้นอยู่กับตัวเลขสี่ตัว ได้แก่ อัตราการแปลงที่เป็นเกณฑ์มาตรฐาน, ผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE), ระดับนัยสำคัญ (อัลฟา) และอำนาจการทดสอบทางสถิติ สำหรับการทดสอบอีคอมเมิร์ซทั่วไปที่มีเกณฑ์มาตรฐาน 5% เป้าหมายการยกระดับสัมพัทธ์ 10% อัลฟา 0.05 และอำนาจการทดสอบ 80% คุณต้องมีผู้เข้าชมประมาณ 31,000 คนต่อหนึ่งตัวแปร เกณฑ์มาตรฐานที่ต่ำลงและ MDE ที่เล็กลงล้วนทำให้ขนาดตัวอย่างที่ต้องใช้เพิ่มขึ้นอย่างมาก

ผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE) คืออะไร และฉันจะเลือกอย่างไร?

MDE คือการยกระดับที่น้อยที่สุดที่คุณต้องการให้การทดสอบตรวจจับได้อย่างแม่นยำ เลือกตามผลกระทบต่อธุรกิจ — การปรับปรุงที่น้อยที่สุดที่จะเปลี่ยนการตัดสินใจในการเปิดตัวของคุณ จุดเริ่มต้นทั่วไป: สัมพัทธ์ 5 ถึง 10% สำหรับขั้นตอนการชำระเงินและการลงชื่อเข้าใช้ที่มีปริมาณการเข้าชมสูง, สัมพัทธ์ 15 ถึง 25% สำหรับฟีเจอร์ที่มีปริมาณการเข้าชมต่ำกว่า MDE ที่เล็กลงหมายถึงขนาดตัวอย่างที่ใหญ่ขึ้นมาก ดังนั้นอย่าตั้งค่าต่ำเกินไป

ฉันควรใช้ระดับนัยสำคัญและอำนาจการทดสอบเท่าใด?

ค่าอัลฟา 0.05 (ความเชื่อมั่น 95%) และอำนาจการทดสอบ 80% เป็นค่าเริ่มต้นของอุตสาหกรรมสำหรับการทดสอบผลิตภัณฑ์และการตลาด ใช้ค่าอัลฟา 0.01 และอำนาจการทดสอบ 90% สำหรับการเปิดตัวที่มีผลกระทบสูง การลดค่าอัลฟาหรือเบตาลงจำเป็นต้องใช้ขนาดตัวอย่างที่ใหญ่ขึ้น — สิ่งที่ต้องแลกเปลี่ยนคือระหว่างผลบวกลวง (อัลฟา), ผลลบลวง (เบตา) และระยะเวลาที่ใช้ในการทดสอบ

ทำไมการทดสอบของฉันจึงต้องใช้ผู้เข้าชมจำนวนมากต่อหนึ่งตัวแปร?

มีปัจจัยหลักสองประการ อย่างแรก อัตราการแปลงที่เป็นเกณฑ์มาตรฐานที่ต่ำลงจะทำให้ขนาดตัวอย่างที่ต้องใช้เพิ่มขึ้น — การตรวจจับการยกระดับขนาดเล็กบนเกณฑ์มาตรฐาน 1% ต้องใช้ผู้เข้าชมมากกว่าบนเกณฑ์มาตรฐาน 5% ประมาณ 25 เท่า อย่างที่สอง ขนาดตัวอย่างที่ต้องใช้จะแปรผันตามหนึ่งส่วนด้วยกำลังสองของ MDE — การลด MDE ลงครึ่งหนึ่งจะทำให้ตัวอย่างที่จำเป็นเพิ่มขึ้นสี่เท่า ให้เพิ่ม MDE ที่คุณสนใจหรือยอมรับการทดสอบที่นานขึ้น

สูตรนี้มีที่มาอย่างไร?

มันคือสูตรอำนาจการทดสอบสองสัดส่วนมาตรฐานที่อิงตามการประมาณค่าแบบปกติ ขนาดตัวอย่างต่อกลุ่มเท่ากับกำลังสองของ (z_α คูณด้วยส่วนเบี่ยงเบนมาตรฐานรวมภายใต้สมมติฐานว่าง บวก z_β คูณด้วยส่วนเบี่ยงเบนมาตรฐานภายใต้สมมติฐานทางเลือก) หารด้วยกำลังสองของผลต่างอัตรา เครื่องคำนวณจะใช้ความแปรปรวนรวมสำหรับพจน์สมมติฐานว่างและความแปรปรวนไม่รวมสำหรับพจน์สมมติฐานทางเลือก — ซึ่งเป็นรูปแบบตำราเรียนที่พบบ่อยที่สุด (Cohen 1988, Fleiss et al. 1980)

ฉันจะจัดการกับการทดสอบพหุตัวแปรที่มีมากกว่าหนึ่งตัวแปรได้อย่างไร?

เมื่อคุณเปรียบเทียบตัวแปร K กับกลุ่มควบคุมหนึ่งกลุ่ม เครื่องคำนวณจะใช้การปรับแก้แบบ Bonferroni โดยการหารอัลฟาด้วย (K − 1) ก่อนคำนวณค่า z วิกฤต สิ่งนี้ช่วยป้องกันอัตราผลบวกลวงที่เพิ่มขึ้นจากการทดสอบเปรียบเทียบหลายรายการ ผลลัพธ์ที่ได้คือขนาดตัวอย่างต่อกลุ่มที่จำเป็นต้องใหญ่ขึ้น — การทดสอบพหุตัวแปรใช้ปริมาณการเข้าชมต่อกลุ่มมากกว่าการทดสอบ A/B แบบธรรมดา

ฉันควรเปิดการทดสอบตามจำนวนวันที่แนะนำหรือหยุดเมื่อได้นัยสำคัญ?

ให้รันการทดสอบตามระยะเวลาที่แนะนำและประเมินผลนัยสำคัญในตอนสิ้นสุดเท่านั้น การหยุดทันทีที่ค่า p-value ลดลงต่ำกว่า 0.05 (การแอบดูผล) จะเพิ่มอัตราผลบวกลวงให้สูงกว่าค่าอัลฟาที่ตั้งไว้ ขนาดตัวอย่างที่แสดงโดยเครื่องคำนวณนี้คือเป้าหมายที่วางแผนไว้ — ให้ยึดมั่นตามนี้ก่อนเริ่มใช้งานและหักห้ามใจไม่ให้ด่วนสรุปผลผู้ชนะก่อนกำหนด หลังจากที่การทดสอบสิ้นสุดลง คุณสามารถนำผลลัพธ์ไปใส่ใน เครื่องคำนวณระดับนัยสำคัญการทดสอบ A/B ที่เป็นเครื่องมือคู่กันเพื่ออ่านค่า p-value และช่วงความเชื่อมั่นได้

จะเกิดอะไรขึ้นหากอัตราการแปลงของฉันต่ำมาก (ต่ำกว่า 1%)?

การประมาณค่าแบบปกติอาจมีความคลาดเคลื่อนเล็กน้อยเมื่อค่า np หรือ n(1 − p) มีขนาดเล็ก สำหรับการทดสอบที่มีอัตราต่ำมาก (เช่น เกณฑ์มาตรฐาน 0.1%) เครื่องคำนวณยังคงให้ค่าประมาณการวางแผนที่สมเหตุสมผล แต่ควรพิจารณาเพิ่มส่วนเผื่อพิเศษเล็กน้อย (10-15%) นอกเหนือจากขนาดตัวอย่างที่แนะนำ สำหรับขนาดตัวอย่างที่เล็กมากต่อกลุ่ม การทดสอบที่แม่นยำของ Fisher (Fisher's exact test) จะเป็นทางเลือกที่ปลอดภัยกว่าในขั้นตอนการวิเคราะห์ผลลัพธ์

อ้างอิงเนื้อหา หน้าหรือเครื่องมือนี้ว่า:

"เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B" ที่ https://MiniWebtool.com/th/เครื่องคำนวณขนาดตัวอย่างทดสอบ-a-b/ จาก MiniWebtool, https://MiniWebtool.com/

โดยทีมงาน miniwebtool อัปเดตล่าสุด: 2026-05-17

คุณสามารถลองใช้ AI แก้ปัญหาคณิตศาสตร์ GPT ของเรา เพื่อแก้ไขปัญหาทางคณิตศาสตร์ของคุณผ่านคำถามและคำตอบด้วยภาษาธรรมชาติ.

เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B

เกณฑ์มาตรฐาน (กลุ่มควบคุม A)

ผลกระทบต่ำสุดที่ต้องการตรวจจับ

เกี่ยวกับ เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B

วิธีใช้งาน

สูตรที่ใช้ (สูตรอำนาจการทดสอบสองสัดส่วน)

สิ่งที่ทำให้เครื่องคำนวณขนาดตัวอย่างนี้แตกต่าง

วิธีอ่านคำตัดสินความเป็นไปได้

ทำไมขนาดตัวอย่างจึงขยายตัวอย่างรวดเร็ว

ข้อผิดพลาดทั่วไปในการวางแผนการทดสอบ A/B

การเลือกค่าอัลฟาและอำนาจการทดสอบ

MDE แบบสัมพัทธ์ เทียบกับ แบบสัมบูรณ์

การทดสอบพหุตัวแปรและการปรับแก้แบบ Bonferroni

FAQ

ฉันต้องใช้ขนาดตัวอย่างเท่าใดสำหรับการทดสอบ A/B?

ผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE) คืออะไร และฉันจะเลือกอย่างไร?

ฉันควรใช้ระดับนัยสำคัญและอำนาจการทดสอบเท่าใด?

ทำไมการทดสอบของฉันจึงต้องใช้ผู้เข้าชมจำนวนมากต่อหนึ่งตัวแปร?

สูตรนี้มีที่มาอย่างไร?

ฉันจะจัดการกับการทดสอบพหุตัวแปรที่มีมากกว่าหนึ่งตัวแปรได้อย่างไร?

ฉันควรเปิดการทดสอบตามจำนวนวันที่แนะนำหรือหยุดเมื่อได้นัยสำคัญ?

จะเกิดอะไรขึ้นหากอัตราการแปลงของฉันต่ำมาก (ต่ำกว่า 1%)?

สถิติและการวิเคราะห์ข้อมูล:

เครื่องมือเด่น: