ทำให้การทำงานของคุณง่ายขึ้น: ค้นหา miniwebtool
เพิ่ม
หน้าแรก > คณิตศาสตร์ > สถิติและการวิเคราะห์ข้อมูล > เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B
 

เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B

วางแผนการทดสอบ A/B ก่อนที่คุณจะเริ่มเปิดใช้งาน ป้อนอัตราการแปลงที่เป็นเกณฑ์มาตรฐาน (Baseline Conversion Rate), ผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE), ระดับนัยสำคัญ (Alpha) และอำนาจการทดสอบ (1 ลบ Beta) เพื่อคำนวณขนาดตัวอย่างที่จำเป็นต่อหนึ่งตัวแปร ขนาดตัวอย่างทั้งหมด และระยะเวลาที่ต้องใช้ในการทดสอบเมื่อเทียบกับปริมาณผู้เข้าชมรายวันของคุณ

เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B

สถานการณ์จำลองด่วนแตะเพื่อโหลดเกณฑ์มาตรฐานและ MDE ทั่วไปของอุตสาหกรรม จากนั้นคุณสามารถปรับแต่งช่องข้อมูลใดก็ได้ก่อนเริ่มคำนวณ

ตัวอย่างแบบไลฟ์สด — เพิ่มข้อมูล
ต่อกลุ่ม
ผู้เข้าชมทั้งหมด
ระยะเวลาทดสอบ

อัตราเป้าหมาย — · กำหนดค่าเกณฑ์มาตรฐาน + MDE

เกณฑ์มาตรฐาน (กลุ่มควบคุม A)

ปัจจุบัน
%
อัตราการแปลงปัจจุบันของตัวแปร A — ที่วัดได้เมื่อเร็วๆ นี้

ผลกระทบต่ำสุดที่ต้องการตรวจจับ

สัมพัทธ์
% สัมพัทธ์
MDE ยิ่งเล็ก → กลุ่มตัวอย่างยิ่งใหญ่ขึ้นมาก (n แปรผันตาม 1/MDE²)
/วัน
ปริมาณการเข้าชมรายวันทั้งหมดในหน้าเว็บที่กำลังทำการทดสอบ
%
% ของปริมาณการเข้าชมรายวันที่ถูกส่งไปยังการทดลอง

Embed เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B Widget

เกี่ยวกับ เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B

เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B ช่วยในการวางแผนการทดสอบ A/B ก่อนที่คุณจะเปิดใช้งานจริง เพียงกรอกอัตราการแปลงที่เป็นเกณฑ์มาตรฐาน ค่าผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE) ที่คุณสนใจ ระดับนัยสำคัญ (อัลฟา) และอำนาจการทดสอบทางสถิติที่คุณต้องการ จากนั้นเครื่องคำนวณจะแสดงผลลัพธ์ขนาดตัวอย่างที่จำเป็นต่อกลุ่มและขนาดตัวอย่างรวมทั้งหมด — พร้อมการประมาณระยะเวลาการทดสอบโดยอัตโนมัติจากปริมาณการเข้าชมรายวันและส่วนแบ่งปริมาณการเข้าชมของคุณ เส้นโค้งอำนาจการทดสอบที่แสดงการเติบโตตามขนาดตัวอย่าง ตารางความไวที่เปรียบเทียบความคุ้มค่าของการเลือกค่า MDE ในแต่ละระดับ ภาพจำลองการจัดสรรปริมาณการเข้าชม และคำตัดสินความเป็นไปได้ด้วยภาษาที่เข้าใจง่าย ถูกสร้างขึ้นโดยเฉพาะสำหรับพัฒนาระบบการทดสอบ A/B อัตราการแปลง (การทดสอบ z สองสัดส่วน, รูปแบบ Cohen) พร้อมตัวเลือกการปรับแก้แบบ Bonferroni สำหรับการทดสอบพหุตัวแปร

วิธีใช้งาน

  1. กรอก อัตราการแปลงที่เป็นเกณฑ์มาตรฐาน ของตัวแปรปัจจุบัน (A) ที่วัดจากช่วงเวลาตัวแทนล่าสุด
  2. ตั้งค่า ผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE) — ค่าการยกระดับที่น้อยที่สุดที่จะส่งผลต่อการตัดสินใจจริงของคุณ สลับเปลี่ยนได้ระหว่างแบบเปอร์เซ็นต์สัมพัทธ์และจุดเปอร์เซ็นต์สัมบูรณ์
  3. เลือก ระดับนัยสำคัญ (อัลฟา) — 5% (ความเชื่อมั่น 95%) คือค่าเริ่มต้นมาตรฐานของอุตสาหกรรม
  4. เลือก อำนาจการทดสอบทางสถิติ — 80% คือค่าเริ่มต้นมาตรฐานของอุตสาหกรรม สามารถเพิ่มเป็น 90% ได้สำหรับการเปิดตัวระบบที่มีผลกระทบสูง
  5. เลือก สองหาง (ตัวแปร B มีความแตกต่างจาก A ไม่ว่าจะในทิศทางใด เป็นค่าเริ่มต้น) หรือ หางเดียว (พิจารณาเฉพาะกรณีที่ B ชนะ A เท่านั้น)
  6. หากคุณกำลังรันการทดสอบพหุตัวแปร ให้ตั้งค่า จำนวนตัวแปร — เครื่องคำนวณจะนำการปรับแก้แบบ Bonferroni มาใช้โดยอัตโนมัติ
  7. กรอก จำนวนผู้เข้าชมรายวัน ของหน้าเว็บ และ ส่วนแบ่งปริมาณการเข้าชม ที่ถูกส่งเข้าไปในการทดลอง
  8. คลิก คำนวณขนาดตัวอย่าง เพื่ออ่านค่าขนาดตัวอย่างต่อกลุ่มและขนาดตัวอย่างทั้งหมด ระยะเวลาการทดสอบที่คาดหวัง เส้นโค้งอำนาจการทดสอบ ตารางความไว และคณิตศาสตร์แสดงผลลัพธ์แบบทีละขั้นตอน

สูตรที่ใช้ (สูตรอำนาจการทดสอบสองสัดส่วน)

p₂ = p₁ × (1 + MDE_relative)   หรือ   p₂ = p₁ + MDE_absolute

p̄ = (p₁ + p₂) / 2 (อัตราเฉล็กรวมภายใต้ H₀)

SD₀ = √[ 2 × p̄ × (1 − p̄) ] (ส่วนเบี่ยงเบนมาตรฐานภายใต้สมมติฐานว่าง)

SD₁ = √[ p₁(1 − p₁) + p₂(1 − p₂) ] (ส่วนเบี่ยงเบนมาตรฐานภายใต้สมมติฐานทางเลือก)

n / arm = (zα/2 × SD₀ + zβ × SD₁)² / (p₂ − p₁)²

สำหรับการทดสอบแบบหางเดียว ให้แทนที่ zα/2 ด้วย zα สำหรับกรณีตัวแปร K เทียบกับกลุ่มควบคุมหนึ่งกลุ่ม ให้แทนที่ α ด้วย α / (K − 1) (การปรับแก้แบบ Bonferroni)

สิ่งที่ทำให้เครื่องคำนวณขนาดตัวอย่างนี้แตกต่าง

  • แสดงตัวอย่างแบบไลฟ์สดก่อนที่คุณจะส่งข้อมูล — ทุกๆ การกดแป้นพิมพ์จะอัปเดตขนาดตัวอย่างต่อกลุ่ม จำนวนผู้เข้าชมรวม อัตราการแปลงเป้าหมาย และการประมาณระยะเวลาโดยทันที
  • ระยะเวลาการทดสอบแบบเรียลไทม์ — เปลี่ยนจากข้อความเชิงนามธรรมอย่างเช่น "คุณต้องมีผู้เข้าชม 31,000 คน" ให้กลายเป็นสิ่งที่จับต้องได้อย่าง "การทดสอบของคุณจะรันเป็นเวลา 8 วัน โดยมีผู้เข้าชม 4,000 คน/กลุ่ม/วัน ในการทดสอบ"
  • เส้นโค้งอำนาจการทดสอบแบบเคลื่อนไหว — ดูได้อย่างชัดเจนว่าขนาดตัวอย่างเป้าหมายของคุณอยู่ตรงจุดไหนบนเส้นโค้งอำนาจการทดสอบ และปริมาณการเข้าชมที่เพิ่มขึ้นอีกหนึ่งสัปดาห์จะช่วยซื้ออำนาจการทดสอบเพิ่มได้มากเท่าใด
  • ตารางความไวของ MDE — เปรียบเทียบต้นทุนขนาดตัวอย่างในการตรวจจับการยกระดับที่ 2%, 5%, 10%, 15%, 20%, และ 25% ควบคู่กันไป เพื่อให้คุณสามารถเลือกการยกระดับที่น้อยที่สุดที่ยังคงสามารถทำได้จริง
  • MDE แบบสัมพัทธ์หรือแบบสัมบูรณ์ — สลับสับเปลี่ยนได้ในคลิกเดียวระหว่างสองวิธียอดนิยมที่ทีมพัฒนาผลิตภัณฑ์ใช้ระบุเป้าหมายการยกระดับ
  • รองรับพหุตัวแปรพร้อมระบบ Bonferroni — จัดการการทดสอบประเภท A/B/C และ A/B/C/D ด้วยการปรับแก้โดยอัตโนมัติ ซึ่งเครื่องคำนวณทั่วไปหลายตัวมักแอบใช้คณิตศาสตร์ของ A/B แบบธรรมดากับข้อมูลเข้าที่เป็นพหุตัวแปร
  • ภาพจำลองการจัดสรรปริมาณการเข้าชม — แถบแผนภูมิสะสมที่แสดงให้เห็นอย่างชัดเจนว่าปริมาณการเข้าชมในการทดสอบแบ่งระหว่างกลุ่มควบคุมและกลุ่มตัวแปรแต่ละกลุ่มอย่างไร
  • คำตัดสินความเป็นไปได้ด้วยภาษาที่เข้าใจง่าย — แบนเนอร์สีเขียว/เหลือง/แดงที่ช่วยแจ้งเตือนการทดสอบที่ล่าช้าก่อนที่คุณจะเริ่มเปิดใช้งานจริง
  • สถานการณ์จำลองด่วน — ค่าที่ตั้งไว้ล่วงหน้าในคลิกเดียวสำหรับเกณฑ์มาตรฐานทั่วไปของอีคอมเมิร์ซ, SaaS, อีเมล และการติดตั้งแอปบนมือถือ

วิธีอ่านคำตัดสินความเป็นไปได้

  • สีเขียว — เป็นไปได้ (Feasible) การทดสอบเสร็จสมบูรณ์ภายในสองสัปดาห์ คุณมีปริมาณการเข้าชมที่เหลือเฟือในการตรวจจับการยกระดับที่เลือกตามระดับความเชื่อมั่นที่กำหนด
  • สีเหลือง — พอทำได้ (Doable) การทดสอบใช้เวลาสองถึงหกสัปดาห์ ควรวางแผนให้ครอบคลุมรอบวงจรธุรกิจเต็มรูปแบบอย่างน้อยหนึ่งรอบ และหักห้ามใจไม่ให้แอบดูผลลัพธ์ล่วงหน้า
  • สีแดง — ช้า (Slow) การทดสอบใช้เวลานานกว่าหกสัปดาห์ (หรือไม่มีวันเสร็จสิ้น) การทดสอบที่ยาวนานเกินไปจะมีความเสี่ยงต่อปัจจัยฤดูกาลและพฤติกรรมของผู้ใช้ที่เปลี่ยนไป — ควรเพิ่มค่า MDE ที่คุณสนใจหรือเพิ่มสัดส่วนปริมาณการเข้าชมที่ส่งเข้าไปในการทดลอง

ทำไมขนาดตัวอย่างจึงขยายตัวอย่างรวดเร็ว

ความสัมพันธ์สองประการที่สำคัญที่สุด อย่างแรก ขนาดตัวอย่างที่ต้องใช้จะแปรผันตาม หนึ่งส่วนด้วยกำลังสองของ MDE — การลดค่าการยกระดับที่คุณต้องการตรวจจับลงครึ่งหนึ่งจะทำให้ต้องการกลุ่มตัวอย่างเพิ่มขึ้นเป็น สี่เท่า อย่างที่สอง การทดสอบที่มีเกณฑ์มาตรฐานต่ำจะมีต้นทุนมากกว่า — ที่เกณฑ์มาตรฐาน 1% คุณต้องใช้ผู้เข้าชมมากกว่าที่เกณฑ์มาตรฐาน 5% ประมาณ 25 เท่าเพื่อตรวจจับการยกระดับสัมพัทธ์ในจำนวนที่เท่ากัน ปัจจัยทั้งสองนี้รวมกันช่วยอธิบายว่าทำไมเว็บไซต์ที่มีปริมาณผู้เข้าชมสูงก็ยังคงประสบปัญหาในการตรวจจับการยกระดับขนาดเล็กในขั้นตอนระบบที่มีอัตราการแปลงต่ำ

ข้อผิดพลาดทั่วไปในการวางแผนการทดสอบ A/B

  • การตั้งค่า MDE เล็กเกินไป ทำให้ขนาดตัวอย่างพุ่งสูงขึ้นไปถึงจำนวนที่คุณไม่สามารถเก็บรวบรวมได้ในระยะเวลาที่เหมาะสม ควรเลือกค่าการยกระดับที่น้อยที่สุดที่จะส่งผลต่อการเปลี่ยนใจเปิดตัวระบบของคุณจริงๆ — ไม่ใช่แค่การเดาด้วยความหวัง
  • อำนาจการทดสอบต่ำกว่า 80% การทดสอบที่มีอำนาจการทดสอบ 60% จะมีโอกาสสูงถึง 40% ที่จะพลาดผลกระทบที่เกิดขึ้นจริง มาตรฐานสำหรับการตัดสินใจเรื่องผลิตภัณฑ์คือ 80% อย่าลดค่านี้ลงเพียงเพื่อให้ระบบ "ยัดลงลงตัว" กับระยะเวลาของคุณ
  • การหยุดก่อนกำหนดเมื่อเห็นค่า p-value ต่ำ การแอบดูผลลัพธ์ระหว่างทางแล้วกดหยุดการทดสอบทันทีที่ค่า p < 0.05 จะทำให้อัตราผลบวกลวงพุ่งสูงขึ้นอย่างมหาศาล ควรยึดมั่นในขนาดตัวอย่างที่วางแผนไว้ตั้งแต่ก่อนเริ่มเปิดตัวจริง
  • การละเลยต้นทุนของพหุตัวแปร การทดสอบแบบ A/B/C/D ที่มี 4 ตัวแปรจำเป็นต้องใช้ค่าอัลฟาที่ปรับแก้ตามแบบ Bonferroni — ซึ่งปกติแล้วต้องใช้ขนาดตัวอย่างต่อกลุ่มมากกว่าการทดสอบ A/B แบบธรรมดาถึง 2-3 เท่า
  • การลืมเรื่องผลกระทบจากวันหยุดสุดสัปดาห์ การทดสอบอย่างน้อย 7 วันจะช่วยให้คุณเฉลี่ยพฤติกรรมการเข้าชมในแต่ละวันของสัปดาห์ได้ การทดสอบที่สั้นเกินไปอาจถูกบิดเบือนโดยความแตกต่างระหว่างวันธรรมดากับวันหยุดเสาร์-อาทิตย์
  • การประเมินภาระจัดสรรปริมาณเข้าชมต่ำไป หากคุณส่งปริมาณการเข้าชมเข้าไปในการทดสอบเพียง 50% อัตราการแปลงต่อกลุ่มจะลดลงครึ่งหนึ่ง — ซึ่งส่งผลให้ระยะเวลาปฏิทินเพิ่มขึ้นเป็นสองเท่า

การเลือกค่าอัลฟาและอำนาจการทดสอบ

อัลฟาคืออัตราการเกิดผลบวกลวง — ความน่าจะเป็นที่จะประกาศให้ B เป็นผู้ชนะทั้งที่ความจริงแล้วไม่ได้เป็นเช่นนั้น อำนาจการทดสอบคือหนึ่งลบด้วยอัตราผลลบลวง — ความน่าจะเป็นที่จะตรวจพบผู้ชนะที่แท้จริงตามขนาดของ MDE ค่าเริ่มต้นของอุตสาหกรรมคืออัลฟา = 0.05 และอำนาจการทดสอบ = 0.80 ควรใช้อัลฟา = 0.01 และอำนาจการทดสอบ = 0.90 สำหรับการเปิดตัวระบบที่มีเดิมพันสูงซึ่งการตัดสินใจผิดพลาดจะมีราคาแพง ทางเลือกทั้งสองนี้จะทำให้การทดสอบมีความเข้มงวดขึ้นและเพิ่มขนาดตัวอย่างที่จำเป็น: การลดอัลฟาจาก 0.05 เป็น 0.01 จะเพิ่มขนาดตัวอย่างขึ้นประมาณสองเท่า; การเพิ่มอำนาจการทดสอบจาก 0.80 เป็น 0.90 จะเพิ่มขึ้นอีกประมาณ 30%

MDE แบบสัมพัทธ์ เทียบกับ แบบสัมบูรณ์

MDE แบบสัมพัทธ์ (% ของเกณฑ์มาตรฐาน) เป็นกรอบความคิดที่พบบ่อยที่สุด: "ฉันต้องการตรวจจับการยกระดับ 10% จากอัตราการแปลงปัจจุบันที่ 5%" ซึ่งหมายความว่า p₂ = 5.5% MDE แบบสัมบูรณ์ (จุดเปอร์เซ็นต์) เป็นกรอบความคิดที่ถูกต้องเมื่อผลกระทบทางธุรกิจแสดงออกมาเป็นจุด: "ฉันต้องการตรวจจับการยกระดับ +0.5 pp บนเกณฑ์มาตรฐาน 5% ของฉัน" ซึ่งหมายความว่า p₂ = 5.5% ทั้งสองแบบมีค่าเท่ากัน — เลือกแบบใดก็ได้ที่ตรงกับวิธีคิดของผู้มีส่วนได้ส่วนเสียในธุรกิจของคุณ

การทดสอบพหุตัวแปรและการปรับแก้แบบ Bonferroni

หากคุณเปรียบเทียบตัวแปร K กับกลุ่มควบคุมหนึ่งกลุ่ม หมายความว่าคุณกำลังรันการทดสอบไปพร้อมกันเป็นจำนวน K − 1 รายการ อัตราผลบวกลวงแบบไร้เดียงสาจะเพิ่มขึ้นในทุกๆ การเปรียบเทียบที่เพิ่มเข้ามา — การทดสอบอิสระสามรายการที่ค่าอัลฟา = 0.05 จะมีความน่าจะเป็นของผลบวกลวงรวมกันอยู่ที่ประมาณ 14% ไม่ใช่ 5% วิธีแก้ไขที่เป็นมาตรฐานคือการปรับแก้แบบ Bonferroni: โดยการหารค่าอัลฟาตามกำหนดของคุณด้วยจำนวนการเปรียบเทียบก่อนที่จะนำไปคำนวณค่า z วิกฤต เครื่องคำนวณนี้จะใช้การปรับแก้ให้โดยอัตโนมัติเมื่อคุณตั้งค่าจำนวนตัวแปรตั้งแต่ 2 ขึ้นไป ผลลัพธ์ที่ได้คือขนาดตัวอย่างต่อกลุ่มที่จำเป็นต้องใหญ่ขึ้น — การทดสอบพหุตัวแปรใช้ปริมาณการเข้าชมต่อกลุ่มมากกว่าการทดสอบ A/B แบบธรรมดา

FAQ

ฉันต้องใช้ขนาดตัวอย่างเท่าใดสำหรับการทดสอบ A/B?

มันขึ้นอยู่กับตัวเลขสี่ตัว ได้แก่ อัตราการแปลงที่เป็นเกณฑ์มาตรฐาน, ผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE), ระดับนัยสำคัญ (อัลฟา) และอำนาจการทดสอบทางสถิติ สำหรับการทดสอบอีคอมเมิร์ซทั่วไปที่มีเกณฑ์มาตรฐาน 5% เป้าหมายการยกระดับสัมพัทธ์ 10% อัลฟา 0.05 และอำนาจการทดสอบ 80% คุณต้องมีผู้เข้าชมประมาณ 31,000 คนต่อหนึ่งตัวแปร เกณฑ์มาตรฐานที่ต่ำลงและ MDE ที่เล็กลงล้วนทำให้ขนาดตัวอย่างที่ต้องใช้เพิ่มขึ้นอย่างมาก

ผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE) คืออะไร และฉันจะเลือกอย่างไร?

MDE คือการยกระดับที่น้อยที่สุดที่คุณต้องการให้การทดสอบตรวจจับได้อย่างแม่นยำ เลือกตามผลกระทบต่อธุรกิจ — การปรับปรุงที่น้อยที่สุดที่จะเปลี่ยนการตัดสินใจในการเปิดตัวของคุณ จุดเริ่มต้นทั่วไป: สัมพัทธ์ 5 ถึง 10% สำหรับขั้นตอนการชำระเงินและการลงชื่อเข้าใช้ที่มีปริมาณการเข้าชมสูง, สัมพัทธ์ 15 ถึง 25% สำหรับฟีเจอร์ที่มีปริมาณการเข้าชมต่ำกว่า MDE ที่เล็กลงหมายถึงขนาดตัวอย่างที่ใหญ่ขึ้นมาก ดังนั้นอย่าตั้งค่าต่ำเกินไป

ฉันควรใช้ระดับนัยสำคัญและอำนาจการทดสอบเท่าใด?

ค่าอัลฟา 0.05 (ความเชื่อมั่น 95%) และอำนาจการทดสอบ 80% เป็นค่าเริ่มต้นของอุตสาหกรรมสำหรับการทดสอบผลิตภัณฑ์และการตลาด ใช้ค่าอัลฟา 0.01 และอำนาจการทดสอบ 90% สำหรับการเปิดตัวที่มีผลกระทบสูง การลดค่าอัลฟาหรือเบตาลงจำเป็นต้องใช้ขนาดตัวอย่างที่ใหญ่ขึ้น — สิ่งที่ต้องแลกเปลี่ยนคือระหว่างผลบวกลวง (อัลฟา), ผลลบลวง (เบตา) และระยะเวลาที่ใช้ในการทดสอบ

ทำไมการทดสอบของฉันจึงต้องใช้ผู้เข้าชมจำนวนมากต่อหนึ่งตัวแปร?

มีปัจจัยหลักสองประการ อย่างแรก อัตราการแปลงที่เป็นเกณฑ์มาตรฐานที่ต่ำลงจะทำให้ขนาดตัวอย่างที่ต้องใช้เพิ่มขึ้น — การตรวจจับการยกระดับขนาดเล็กบนเกณฑ์มาตรฐาน 1% ต้องใช้ผู้เข้าชมมากกว่าบนเกณฑ์มาตรฐาน 5% ประมาณ 25 เท่า อย่างที่สอง ขนาดตัวอย่างที่ต้องใช้จะแปรผันตามหนึ่งส่วนด้วยกำลังสองของ MDE — การลด MDE ลงครึ่งหนึ่งจะทำให้ตัวอย่างที่จำเป็นเพิ่มขึ้นสี่เท่า ให้เพิ่ม MDE ที่คุณสนใจหรือยอมรับการทดสอบที่นานขึ้น

สูตรนี้มีที่มาอย่างไร?

มันคือสูตรอำนาจการทดสอบสองสัดส่วนมาตรฐานที่อิงตามการประมาณค่าแบบปกติ ขนาดตัวอย่างต่อกลุ่มเท่ากับกำลังสองของ (zα คูณด้วยส่วนเบี่ยงเบนมาตรฐานรวมภายใต้สมมติฐานว่าง บวก zβ คูณด้วยส่วนเบี่ยงเบนมาตรฐานภายใต้สมมติฐานทางเลือก) หารด้วยกำลังสองของผลต่างอัตรา เครื่องคำนวณจะใช้ความแปรปรวนรวมสำหรับพจน์สมมติฐานว่างและความแปรปรวนไม่รวมสำหรับพจน์สมมติฐานทางเลือก — ซึ่งเป็นรูปแบบตำราเรียนที่พบบ่อยที่สุด (Cohen 1988, Fleiss et al. 1980)

ฉันจะจัดการกับการทดสอบพหุตัวแปรที่มีมากกว่าหนึ่งตัวแปรได้อย่างไร?

เมื่อคุณเปรียบเทียบตัวแปร K กับกลุ่มควบคุมหนึ่งกลุ่ม เครื่องคำนวณจะใช้การปรับแก้แบบ Bonferroni โดยการหารอัลฟาด้วย (K − 1) ก่อนคำนวณค่า z วิกฤต สิ่งนี้ช่วยป้องกันอัตราผลบวกลวงที่เพิ่มขึ้นจากการทดสอบเปรียบเทียบหลายรายการ ผลลัพธ์ที่ได้คือขนาดตัวอย่างต่อกลุ่มที่จำเป็นต้องใหญ่ขึ้น — การทดสอบพหุตัวแปรใช้ปริมาณการเข้าชมต่อกลุ่มมากกว่าการทดสอบ A/B แบบธรรมดา

ฉันควรเปิดการทดสอบตามจำนวนวันที่แนะนำหรือหยุดเมื่อได้นัยสำคัญ?

ให้รันการทดสอบตามระยะเวลาที่แนะนำและประเมินผลนัยสำคัญในตอนสิ้นสุดเท่านั้น การหยุดทันทีที่ค่า p-value ลดลงต่ำกว่า 0.05 (การแอบดูผล) จะเพิ่มอัตราผลบวกลวงให้สูงกว่าค่าอัลฟาที่ตั้งไว้ ขนาดตัวอย่างที่แสดงโดยเครื่องคำนวณนี้คือเป้าหมายที่วางแผนไว้ — ให้ยึดมั่นตามนี้ก่อนเริ่มใช้งานและหักห้ามใจไม่ให้ด่วนสรุปผลผู้ชนะก่อนกำหนด หลังจากที่การทดสอบสิ้นสุดลง คุณสามารถนำผลลัพธ์ไปใส่ใน เครื่องคำนวณระดับนัยสำคัญการทดสอบ A/B ที่เป็นเครื่องมือคู่กันเพื่ออ่านค่า p-value และช่วงความเชื่อมั่นได้

จะเกิดอะไรขึ้นหากอัตราการแปลงของฉันต่ำมาก (ต่ำกว่า 1%)?

การประมาณค่าแบบปกติอาจมีความคลาดเคลื่อนเล็กน้อยเมื่อค่า np หรือ n(1 − p) มีขนาดเล็ก สำหรับการทดสอบที่มีอัตราต่ำมาก (เช่น เกณฑ์มาตรฐาน 0.1%) เครื่องคำนวณยังคงให้ค่าประมาณการวางแผนที่สมเหตุสมผล แต่ควรพิจารณาเพิ่มส่วนเผื่อพิเศษเล็กน้อย (10-15%) นอกเหนือจากขนาดตัวอย่างที่แนะนำ สำหรับขนาดตัวอย่างที่เล็กมากต่อกลุ่ม การทดสอบที่แม่นยำของ Fisher (Fisher's exact test) จะเป็นทางเลือกที่ปลอดภัยกว่าในขั้นตอนการวิเคราะห์ผลลัพธ์

อ้างอิงเนื้อหา หน้าหรือเครื่องมือนี้ว่า:

"เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B" ที่ https://MiniWebtool.com/th/เครื่องคำนวณขนาดตัวอย่างทดสอบ-a-b/ จาก MiniWebtool, https://MiniWebtool.com/

โดยทีมงาน miniwebtool อัปเดตล่าสุด: 2026-05-17

คุณสามารถลองใช้ AI แก้ปัญหาคณิตศาสตร์ GPT ของเรา เพื่อแก้ไขปัญหาทางคณิตศาสตร์ของคุณผ่านคำถามและคำตอบด้วยภาษาธรรมชาติ.

เครื่องมืออื่นๆ ที่เกี่ยวข้อง:

สถิติและการวิเคราะห์ข้อมูล:

เครื่องมือเด่น:

เครื่องคำนวณเลขยกกำลัง-ความแม่นยำสูงเครื่องคิดเลขผลรวมค้นหา ID ผู้ใช้ Facebookตัวแปลง cm เป็นฟุตและนิ้วเครื่องคำนวณวันของปี - วันนี้เป็นวันอะไรของปีค้นหา ID ผู้ใช้ Instagramเครื่องมือแปลง kPa เป็น psiตัวแปลง FPSตัวแปลง DMS เป็นองศาทศนิยมเครื่องคิดเลขรากที่สองเครื่องคิดเลข PVIFเครื่องแปลง PSI เป็น Barตัวแปลงฟุตและนิ้วเป็นเซนติเมตรเครื่องคำนวณส่วนเบี่ยงเบนมาตรฐาน - ความแม่นยำสูงสถิติช่อง YouTubeเครื่องคิดเลข CAGRเครื่องคำนวณพื้นที่ผิวทรงกระบอก ความแม่นยำสูงเครื่องคำนวณปริมาตรวงรี ความแม่นยำสูงตัวแปลงบาร์เป็น PSIตัวแปลงองศาทศนิยมเป็น DMSโปรแกรมแปลงตัวเลขเป็นภาษาอังกฤษตัวแก้และฝึกเกม 24เครื่องคิดเลข One Rep Max (1RM)เครื่องคำนวณส่วนเบี่ยงเบนมาตรฐานสัมพัทธ์ตัวแปลง psi เป็น kPaเครื่องคำนวณราศีอาทิตย์ ราศีจันทร์ และลัคนา 🌞🌙✨เครื่องคำนวณรายได้ YouTubeตัวแปลง ppm เป็นเปอร์เซ็นต์ตัวแปลงเปอร์เซ็นต์เป็น PPMเครื่องมือปรับเปลี่ยนประโยคด้วย AIเครืองคดเลข-ancเครื่องคำนวณปริมาตรทรงกลม ความแม่นยำสูงตัวแปลง HTML เป็นข้อความเครื่องคิดเลข WHtRเครื่องคำนวณ GFRเครื่องคิดเลข Log Base 10เครื่องคำนวณ FFMIโปรแกรมแปลง MP4 เป็น GIFเครื่องคำนวณขนาดพิมพ์และความละเอียด (DPI/PPI)เครื่องคำนวณ Stop Loss & Take Profitเครื่องคำนวณ xG ค่าประตูคาดหวัง ฟุตบอลเครองคดเลข-hba1cเครื่องคำนวณปริมาตรลูกบาศก์ ความแม่นยำสูงตัวสร้างตัวละคร RPG แบบสุ่มเครื่องคำนวณ Golden Hour และ Blue Hourเครื่องคำนวณค่าเช่า Section 8เครื่องคำนวณวิธี BRRRRเครื่องคำนวณผลตอบแทนเงินสดต่อเงินสดเครื่องคำนวณผลตอบแทนค่าเช่าเครื่องคำนวณการแลกเปลี่ยน 1031เครื่องมือแสดงภาพการเติบโตของความมั่งคั่งเครื่องคำนวณค่าอาหารกลางวันเครื่องคำนวณค่าใช้จ่าย ยิม vs ออกกำลังกายที่บ้านเครื่องคำนวณค่าใช้จ่ายกาแฟเครื่องคำนวณการประหยัดจากการทำงานที่บ้านเครื่องคำนวณ ROI งานเสริมเครื่องมือติดตามค่าใช้จ่ายการสมัครสมาชิกเครื่องคำนวณราคา SaaSเครื่องคำนวณราคาโปรเจกต์ฟรีแลนซ์คู่มือจับคู่ไม้รมควันเครื่องคำนวณเวลาการหมักเครื่องคำนวณเวลาหมักตัวกรองสูตรอาหารตามข้อจำกัดด้านอาหารตัวค้นหาสารทดแทนเครื่องเทศตัวติดตามครึ่งชีวิตของคาเฟอีนเครื่องคำนวณปริมาณแอลกอฮอล์มาตรฐานตัวแนะนำการจับคู่ไวน์ตัวแปลงเกรดการปีนผาเครื่องคำนวณอัตราทดเกียร์จักรยานเครื่องคำนวณความแข็งแรงของเงื่อนตกปลาตัวจับเวลาท่าโยคะเครื่องคำนวณ SWOLF ว่ายน้ำเครื่องคำนวณทำนายเวลาวิ่งเครื่องคำนวณพลังหมัดมวยเครื่องคำนวณคะแนนรักบี้เครื่องคำนวณรันเรตคริกเก็ตตัวนับคะแนนเทนนิสเครื่องคำนวณคะแนน Wells (DVT/PE)เครื่องคำนวณกลาสโกว์โคมาสเกลเครื่องคำนวณคะแนน APGARเครื่องคำนวณการวิ่ง 12 นาทีของคูเปอร์เครื่องคำนวณการทดสอบเดินหนึ่งไมล์ Rockportเครื่องคำนวณมวลกล้ามเนื้อสู่ความแข็งแรงเครื่องคำนวณอัตราส่วนคาร์โบไฮเดรตต่ออินซูลินเครื่องคำนวณค่าความไวต่ออินซูลินตัวแปลงปฏิทินฮีบรูตัวแปลงปฏิทินฮิจเราะห์ตัวแปลงปฏิทินจันทรคติเครื่องคำนวณอายุข้ามวัฒนธรรมเครื่องคำนวณนานแค่ไหนแล้วเครื่องคำนวณนับถอยหลังเหลืออีกเท่าไหร่เครื่องสร้างรูปแบบวันที่เครื่องคำนวณวันที่กึ่งกลางเพิ่มวันทำการให้กับวันที่เครื่องคำนวณวันทำการเครื่องวิเคราะห์ความถี่คำเครื่องวิเคราะห์ความแปรปรวนของความยาวประโยคตัวแก้ไขความอ่านง่ายสไตล์เฮมิงเวย์ตัวแปลงการออกเสียง IPAเครื่องมือเข้ารหัสวีเจแนร์เครื่องมือเข้ารหัสอัตบาชตัวเข้ารหัสและถอดรหัส ROT13เครื่องมือดูและลบข้อมูล EXIFเครื่องแปลพิกแลตินเครื่องสร้างแบ็คโครนิมเครื่องสร้างคำย่อตัวตรวจสอบแพนแกรมเครื่องตรวจสอบลิโพแกรมเครื่องมือลากเส้นรูปภาพเป็น SVGตัวแปลงรูปภาพเป็นศิลปะ ASCIIเครื่องสร้างสคีมา JSONสนามทดลอง TypeScriptคอมไพเลอร์ Less เป็น CSSคอมไพเลอร์ SCSS เป็น CSSตัวแปลง SVG เป็น React/JSXเครื่องมือสร้างสตริงคำค้นหาตัวแยกวิเคราะห์ URLเครื่องมือตรวจสอบและถอดรหัส UUIDการอ้างอิงรหัสสถานะ HTTPเครื่องมือสร้างคำสั่ง cURLเครื่องสร้างสามเหลี่ยมเซียร์ปินสกีเครื่องพล็อตพื้นผิว 3Dตัวพล็อตสมการเชิงขั้วเครื่องสร้างจูเลียเซตเครื่องสำรวจเซตมานเดิลโบรตเครื่องสร้างแฟร็กทัล L-Systemเครื่องสร้างการแบ่งสามเหลี่ยมเดอลอเนย์เครื่องสร้างไดอะแกรมโวโรนอยเครื่องสร้างสไปโรกราฟเครื่องสร้างลายเทสเซลเลชันเครื่องคำนวณความสามารถของกระบวนการซิกซ์ซิกมาเครื่องสร้างแผนภูมิพาเรโตเครื่องคำนวณ NPS (Net Promoter Score)เครื่องคำนวณอัตราการรักษาผู้ใช้แบบแบ่งกลุ่มเครื่องคำนวณอัตราการเลิกใช้บริการเครื่องคำนวณต้นทุนการได้ลูกค้าใหม่ CACเครื่องคำนวณมูลค่าตลอดอายุการใช้งานของลูกค้า CLVเครื่องคำนวณอัตราการแปลงเครื่องคำนวณขนาดตัวอย่างทดสอบ A/Bเครื่องคำนวณนัยสำคัญการทดสอบ A/Bเครื่องคำนวณสมการเลนส์เครื่องคำนวณสนามแม่เหล็กของเส้นลวดเครื่องคำนวณสนามไฟฟ้าเครื่องคำนวณกฎของคูลอมบ์เครื่องคำนวณกฎของสเนลล์เครื่องคำนวณโมเมนต์ความเฉื่อยเครื่องคำนวณความเร็วเชิงมุมเครื่องคำนวณแรงสู่ศูนย์กลางเครื่องคำนวณคาบของลูกตุ้มเครื่องคำนวณค่าคงที่สปริงเครื่องคำนวณปรากฏการณ์ดอปเพลอร์เครื่องคำนวณอัตราส่วนซอร์ติโนเครื่องคำนวณอัตราส่วนเทรย์เนอร์เครื่องคำนวณค่าเบต้าหุ้นเครื่องคำนวณพันธบัตรรัฐบาลคุ้มครองเงินเฟ้อ (TIPS)เครื่องคำนวณการคำนวณใหม่จำนองเครื่องคำนวณอัตราล่วงหน้าเครื่องคำนวณ Duration ของพันธบัตร Macaulay และ Modifiedเครื่องคำนวณความโค้งของพันธบัตรเครื่องคำนวณเงินบำนาญดัชนีคงที่เครื่องคำนวณเงินรายปีแบบผันแปรเครื่องคำนวณสินเชื่อย้อนกลับเครื่องคำนวณการจ่ายเงินบำนาญเครื่องจำลองลูกคิดญี่ปุ่น โซโรบันการคูณแบบชาวนารัสเซียเครื่องคำนวณเทคนิคคณิตศาสตร์เวทเครื่องคำนวณการคูณแบบอียิปต์โบราณเครื่องคำนวณคณิตศาสตร์เลขโรมันตัวฝึกคิดเลขในใจแบบทดสอบสูตรคูณเครื่องมือแสดงการทดและการยืมเครื่องสร้างการแยกตัวเลขเครื่องแก้โจทย์เหรียญเครื่องคำนวณสามเหลี่ยมระยะทาง ความเร็ว เวลาเครื่องแก้โจทย์อัตราการทำงานเครื่องแก้โจทย์การผสมสารเครื่องแก้โจทย์อายุเครื่องแก้โจทย์รถไฟพบกันเครื่องคำนวณการดื่มน้ำเครื่องคำนวณแคลอรีจากความเร็วเครื่องคำนวณขนาดยาเครื่องคำนวณแคลอรีจากแอลกอฮอล์เครื่องคำนวณการปรับสรีระเครื่องสร้างหัวข้อโต้วาทีแบบสุ่มเครื่องสุ่มชื่อแมวหมาเครื่องสุ่มข้อพระคัมภีร์เครื่องสร้างโจทย์คณิตศาสตร์แบบสุ่มเครื่องสร้างย่อหน้าแบบสุ่มเครื่องสร้างประโยคภาษาอังกฤษแบบสุ่มเครื่องคำนวณกรวด ทราย และดินหน้าเครื่องคำนวณน้ำหนักเหล็กเครื่องคำนวณแรงบิดสลักเกลียวเครื่องคำนวณการไหลในท่อเครื่องคำนวณภาระคานตัวแปลงดอลลาร์เป็นทองเครื่องคำนวณความน่าจะเป็นออปชันเครื่องคำนวณการแตกหุ้นเครื่องคำนวณ ESPPเครื่องคำนวณค่าปรับชำระล่าช้าเครื่องคำนวณค่าจ้างรายชั่วโมงฟรีแลนซ์เครื่องคำนวณเช่าเทียบกับซื้อเครื่องคำนวณแบ่งทิปขั้นสูงเครื่องมือสร้างรายการจัดกระเป๋าเครื่องคำนวณอาการเจ็ตแล็กเครื่องคำนวณงบประมาณการเดินทางเครื่องคำนวณระยะทางเที่ยวบินเครื่องคำนวณการสูญเสียความร้อนเครื่องคำนวณต้นทุนการผลิตไฟฟ้าเครื่องคำนวณการใช้น้ำเครื่องคำนวณค่าไฟฟ้าเครื่องใช้ไฟฟ้าเครื่องคำนวณตรวจสอบพลังงานในบ้านเครื่องคำนวณ ROI พลังงานแสงอาทิตย์เครื่องคำนวณแผงโซลาร์เซลล์เครื่องคำนวณอัตราส่วน C:N ปุ๋ยหมักเครื่องคำนวณปุ๋ยสนามหญ้าเครื่องคำนวณวันที่น้ำค้างแข็งเครื่องคำนวณดินแปลงปลูกยกสูงเครื่องคำนวณปุ๋ย NPKเครื่องคำนวณอัตราการงอกของเมล็ดเครื่องคำนวณบิตเรตวิดีโอเครื่องเปลี่ยนคีย์ดนตรีเครื่องวัด BPM ด้วยการเคาะเครื่องคำนวณขนาดไฟล์ภาพเครื่องคำนวณเมกะพิกเซลเป็นขนาดพิมพ์เครื่องคำนวณครอปแฟกเตอร์เครื่องคำนวณสามเหลี่ยมค่าแสงเครื่องคำนวณความสามารถในการลากจูงของรถเครื่องคำนวณลีสรถยนต์เครื่องคำนวณ 0–60 และควอเตอร์ไมล์เครื่องคำนวณเวลาชาร์จรถ EVเครื่องคำนวณระยะทางรถยนต์ไฟฟ้าเครื่องคำนวณระยะทาง 3Dเครื่องคำนวณทอรัสเครื่องคำนวณทรงกรวยตัดเครื่องคำนวณพื้นที่รูปหลายเหลี่ยมไม่ปกติเครื่องคำนวณรูปหลายเหลี่ยมปกติเครื่องมือระบุภาคตัดกรวยเครื่องคำนวณไฮเพอร์โบลาเครื่องคำนวณหารยาวตัวนับตัวอักษร Twitter/Xตัวสุ่มความคิดเห็น YouTubeเครื่องมือดึงแท็ก YouTubeตัวดาวน์โหลดภาพขนาดย่อ YouTube