เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B
วางแผนการทดสอบ A/B ก่อนที่คุณจะเริ่มเปิดใช้งาน ป้อนอัตราการแปลงที่เป็นเกณฑ์มาตรฐาน (Baseline Conversion Rate), ผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE), ระดับนัยสำคัญ (Alpha) และอำนาจการทดสอบ (1 ลบ Beta) เพื่อคำนวณขนาดตัวอย่างที่จำเป็นต่อหนึ่งตัวแปร ขนาดตัวอย่างทั้งหมด และระยะเวลาที่ต้องใช้ในการทดสอบเมื่อเทียบกับปริมาณผู้เข้าชมรายวันของคุณ
ตัวบล็อกโฆษณาของคุณทำให้เราไม่สามารถแสดงโฆษณาได้
MiniWebtool ให้ใช้งานฟรีเพราะมีโฆษณา หากเครื่องมือนี้ช่วยคุณได้ โปรดสนับสนุนเราด้วย Premium (ไม่มีโฆษณา + เร็วขึ้น) หรืออนุญาต MiniWebtool.com แล้วรีโหลดหน้าเว็บ
- หรืออัปเกรดเป็น Premium (ไม่มีโฆษณา)
- อนุญาตโฆษณาสำหรับ MiniWebtool.com แล้วรีโหลด
เกี่ยวกับ เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B
เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B ช่วยในการวางแผนการทดสอบ A/B ก่อนที่คุณจะเปิดใช้งานจริง เพียงกรอกอัตราการแปลงที่เป็นเกณฑ์มาตรฐาน ค่าผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE) ที่คุณสนใจ ระดับนัยสำคัญ (อัลฟา) และอำนาจการทดสอบทางสถิติที่คุณต้องการ จากนั้นเครื่องคำนวณจะแสดงผลลัพธ์ขนาดตัวอย่างที่จำเป็นต่อกลุ่มและขนาดตัวอย่างรวมทั้งหมด — พร้อมการประมาณระยะเวลาการทดสอบโดยอัตโนมัติจากปริมาณการเข้าชมรายวันและส่วนแบ่งปริมาณการเข้าชมของคุณ เส้นโค้งอำนาจการทดสอบที่แสดงการเติบโตตามขนาดตัวอย่าง ตารางความไวที่เปรียบเทียบความคุ้มค่าของการเลือกค่า MDE ในแต่ละระดับ ภาพจำลองการจัดสรรปริมาณการเข้าชม และคำตัดสินความเป็นไปได้ด้วยภาษาที่เข้าใจง่าย ถูกสร้างขึ้นโดยเฉพาะสำหรับพัฒนาระบบการทดสอบ A/B อัตราการแปลง (การทดสอบ z สองสัดส่วน, รูปแบบ Cohen) พร้อมตัวเลือกการปรับแก้แบบ Bonferroni สำหรับการทดสอบพหุตัวแปร
วิธีใช้งาน
- กรอก อัตราการแปลงที่เป็นเกณฑ์มาตรฐาน ของตัวแปรปัจจุบัน (A) ที่วัดจากช่วงเวลาตัวแทนล่าสุด
- ตั้งค่า ผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE) — ค่าการยกระดับที่น้อยที่สุดที่จะส่งผลต่อการตัดสินใจจริงของคุณ สลับเปลี่ยนได้ระหว่างแบบเปอร์เซ็นต์สัมพัทธ์และจุดเปอร์เซ็นต์สัมบูรณ์
- เลือก ระดับนัยสำคัญ (อัลฟา) — 5% (ความเชื่อมั่น 95%) คือค่าเริ่มต้นมาตรฐานของอุตสาหกรรม
- เลือก อำนาจการทดสอบทางสถิติ — 80% คือค่าเริ่มต้นมาตรฐานของอุตสาหกรรม สามารถเพิ่มเป็น 90% ได้สำหรับการเปิดตัวระบบที่มีผลกระทบสูง
- เลือก สองหาง (ตัวแปร B มีความแตกต่างจาก A ไม่ว่าจะในทิศทางใด เป็นค่าเริ่มต้น) หรือ หางเดียว (พิจารณาเฉพาะกรณีที่ B ชนะ A เท่านั้น)
- หากคุณกำลังรันการทดสอบพหุตัวแปร ให้ตั้งค่า จำนวนตัวแปร — เครื่องคำนวณจะนำการปรับแก้แบบ Bonferroni มาใช้โดยอัตโนมัติ
- กรอก จำนวนผู้เข้าชมรายวัน ของหน้าเว็บ และ ส่วนแบ่งปริมาณการเข้าชม ที่ถูกส่งเข้าไปในการทดลอง
- คลิก คำนวณขนาดตัวอย่าง เพื่ออ่านค่าขนาดตัวอย่างต่อกลุ่มและขนาดตัวอย่างทั้งหมด ระยะเวลาการทดสอบที่คาดหวัง เส้นโค้งอำนาจการทดสอบ ตารางความไว และคณิตศาสตร์แสดงผลลัพธ์แบบทีละขั้นตอน
สูตรที่ใช้ (สูตรอำนาจการทดสอบสองสัดส่วน)
p₂ = p₁ × (1 + MDE_relative) หรือ p₂ = p₁ + MDE_absolute
p̄ = (p₁ + p₂) / 2 (อัตราเฉล็กรวมภายใต้ H₀)
SD₀ = √[ 2 × p̄ × (1 − p̄) ] (ส่วนเบี่ยงเบนมาตรฐานภายใต้สมมติฐานว่าง)
SD₁ = √[ p₁(1 − p₁) + p₂(1 − p₂) ] (ส่วนเบี่ยงเบนมาตรฐานภายใต้สมมติฐานทางเลือก)
n / arm = (zα/2 × SD₀ + zβ × SD₁)² / (p₂ − p₁)²
สำหรับการทดสอบแบบหางเดียว ให้แทนที่ zα/2 ด้วย zα สำหรับกรณีตัวแปร K เทียบกับกลุ่มควบคุมหนึ่งกลุ่ม ให้แทนที่ α ด้วย α / (K − 1) (การปรับแก้แบบ Bonferroni)
สิ่งที่ทำให้เครื่องคำนวณขนาดตัวอย่างนี้แตกต่าง
- แสดงตัวอย่างแบบไลฟ์สดก่อนที่คุณจะส่งข้อมูล — ทุกๆ การกดแป้นพิมพ์จะอัปเดตขนาดตัวอย่างต่อกลุ่ม จำนวนผู้เข้าชมรวม อัตราการแปลงเป้าหมาย และการประมาณระยะเวลาโดยทันที
- ระยะเวลาการทดสอบแบบเรียลไทม์ — เปลี่ยนจากข้อความเชิงนามธรรมอย่างเช่น "คุณต้องมีผู้เข้าชม 31,000 คน" ให้กลายเป็นสิ่งที่จับต้องได้อย่าง "การทดสอบของคุณจะรันเป็นเวลา 8 วัน โดยมีผู้เข้าชม 4,000 คน/กลุ่ม/วัน ในการทดสอบ"
- เส้นโค้งอำนาจการทดสอบแบบเคลื่อนไหว — ดูได้อย่างชัดเจนว่าขนาดตัวอย่างเป้าหมายของคุณอยู่ตรงจุดไหนบนเส้นโค้งอำนาจการทดสอบ และปริมาณการเข้าชมที่เพิ่มขึ้นอีกหนึ่งสัปดาห์จะช่วยซื้ออำนาจการทดสอบเพิ่มได้มากเท่าใด
- ตารางความไวของ MDE — เปรียบเทียบต้นทุนขนาดตัวอย่างในการตรวจจับการยกระดับที่ 2%, 5%, 10%, 15%, 20%, และ 25% ควบคู่กันไป เพื่อให้คุณสามารถเลือกการยกระดับที่น้อยที่สุดที่ยังคงสามารถทำได้จริง
- MDE แบบสัมพัทธ์หรือแบบสัมบูรณ์ — สลับสับเปลี่ยนได้ในคลิกเดียวระหว่างสองวิธียอดนิยมที่ทีมพัฒนาผลิตภัณฑ์ใช้ระบุเป้าหมายการยกระดับ
- รองรับพหุตัวแปรพร้อมระบบ Bonferroni — จัดการการทดสอบประเภท A/B/C และ A/B/C/D ด้วยการปรับแก้โดยอัตโนมัติ ซึ่งเครื่องคำนวณทั่วไปหลายตัวมักแอบใช้คณิตศาสตร์ของ A/B แบบธรรมดากับข้อมูลเข้าที่เป็นพหุตัวแปร
- ภาพจำลองการจัดสรรปริมาณการเข้าชม — แถบแผนภูมิสะสมที่แสดงให้เห็นอย่างชัดเจนว่าปริมาณการเข้าชมในการทดสอบแบ่งระหว่างกลุ่มควบคุมและกลุ่มตัวแปรแต่ละกลุ่มอย่างไร
- คำตัดสินความเป็นไปได้ด้วยภาษาที่เข้าใจง่าย — แบนเนอร์สีเขียว/เหลือง/แดงที่ช่วยแจ้งเตือนการทดสอบที่ล่าช้าก่อนที่คุณจะเริ่มเปิดใช้งานจริง
- สถานการณ์จำลองด่วน — ค่าที่ตั้งไว้ล่วงหน้าในคลิกเดียวสำหรับเกณฑ์มาตรฐานทั่วไปของอีคอมเมิร์ซ, SaaS, อีเมล และการติดตั้งแอปบนมือถือ
วิธีอ่านคำตัดสินความเป็นไปได้
- สีเขียว — เป็นไปได้ (Feasible) การทดสอบเสร็จสมบูรณ์ภายในสองสัปดาห์ คุณมีปริมาณการเข้าชมที่เหลือเฟือในการตรวจจับการยกระดับที่เลือกตามระดับความเชื่อมั่นที่กำหนด
- สีเหลือง — พอทำได้ (Doable) การทดสอบใช้เวลาสองถึงหกสัปดาห์ ควรวางแผนให้ครอบคลุมรอบวงจรธุรกิจเต็มรูปแบบอย่างน้อยหนึ่งรอบ และหักห้ามใจไม่ให้แอบดูผลลัพธ์ล่วงหน้า
- สีแดง — ช้า (Slow) การทดสอบใช้เวลานานกว่าหกสัปดาห์ (หรือไม่มีวันเสร็จสิ้น) การทดสอบที่ยาวนานเกินไปจะมีความเสี่ยงต่อปัจจัยฤดูกาลและพฤติกรรมของผู้ใช้ที่เปลี่ยนไป — ควรเพิ่มค่า MDE ที่คุณสนใจหรือเพิ่มสัดส่วนปริมาณการเข้าชมที่ส่งเข้าไปในการทดลอง
ทำไมขนาดตัวอย่างจึงขยายตัวอย่างรวดเร็ว
ความสัมพันธ์สองประการที่สำคัญที่สุด อย่างแรก ขนาดตัวอย่างที่ต้องใช้จะแปรผันตาม หนึ่งส่วนด้วยกำลังสองของ MDE — การลดค่าการยกระดับที่คุณต้องการตรวจจับลงครึ่งหนึ่งจะทำให้ต้องการกลุ่มตัวอย่างเพิ่มขึ้นเป็น สี่เท่า อย่างที่สอง การทดสอบที่มีเกณฑ์มาตรฐานต่ำจะมีต้นทุนมากกว่า — ที่เกณฑ์มาตรฐาน 1% คุณต้องใช้ผู้เข้าชมมากกว่าที่เกณฑ์มาตรฐาน 5% ประมาณ 25 เท่าเพื่อตรวจจับการยกระดับสัมพัทธ์ในจำนวนที่เท่ากัน ปัจจัยทั้งสองนี้รวมกันช่วยอธิบายว่าทำไมเว็บไซต์ที่มีปริมาณผู้เข้าชมสูงก็ยังคงประสบปัญหาในการตรวจจับการยกระดับขนาดเล็กในขั้นตอนระบบที่มีอัตราการแปลงต่ำ
ข้อผิดพลาดทั่วไปในการวางแผนการทดสอบ A/B
- การตั้งค่า MDE เล็กเกินไป ทำให้ขนาดตัวอย่างพุ่งสูงขึ้นไปถึงจำนวนที่คุณไม่สามารถเก็บรวบรวมได้ในระยะเวลาที่เหมาะสม ควรเลือกค่าการยกระดับที่น้อยที่สุดที่จะส่งผลต่อการเปลี่ยนใจเปิดตัวระบบของคุณจริงๆ — ไม่ใช่แค่การเดาด้วยความหวัง
- อำนาจการทดสอบต่ำกว่า 80% การทดสอบที่มีอำนาจการทดสอบ 60% จะมีโอกาสสูงถึง 40% ที่จะพลาดผลกระทบที่เกิดขึ้นจริง มาตรฐานสำหรับการตัดสินใจเรื่องผลิตภัณฑ์คือ 80% อย่าลดค่านี้ลงเพียงเพื่อให้ระบบ "ยัดลงลงตัว" กับระยะเวลาของคุณ
- การหยุดก่อนกำหนดเมื่อเห็นค่า p-value ต่ำ การแอบดูผลลัพธ์ระหว่างทางแล้วกดหยุดการทดสอบทันทีที่ค่า p < 0.05 จะทำให้อัตราผลบวกลวงพุ่งสูงขึ้นอย่างมหาศาล ควรยึดมั่นในขนาดตัวอย่างที่วางแผนไว้ตั้งแต่ก่อนเริ่มเปิดตัวจริง
- การละเลยต้นทุนของพหุตัวแปร การทดสอบแบบ A/B/C/D ที่มี 4 ตัวแปรจำเป็นต้องใช้ค่าอัลฟาที่ปรับแก้ตามแบบ Bonferroni — ซึ่งปกติแล้วต้องใช้ขนาดตัวอย่างต่อกลุ่มมากกว่าการทดสอบ A/B แบบธรรมดาถึง 2-3 เท่า
- การลืมเรื่องผลกระทบจากวันหยุดสุดสัปดาห์ การทดสอบอย่างน้อย 7 วันจะช่วยให้คุณเฉลี่ยพฤติกรรมการเข้าชมในแต่ละวันของสัปดาห์ได้ การทดสอบที่สั้นเกินไปอาจถูกบิดเบือนโดยความแตกต่างระหว่างวันธรรมดากับวันหยุดเสาร์-อาทิตย์
- การประเมินภาระจัดสรรปริมาณเข้าชมต่ำไป หากคุณส่งปริมาณการเข้าชมเข้าไปในการทดสอบเพียง 50% อัตราการแปลงต่อกลุ่มจะลดลงครึ่งหนึ่ง — ซึ่งส่งผลให้ระยะเวลาปฏิทินเพิ่มขึ้นเป็นสองเท่า
การเลือกค่าอัลฟาและอำนาจการทดสอบ
อัลฟาคืออัตราการเกิดผลบวกลวง — ความน่าจะเป็นที่จะประกาศให้ B เป็นผู้ชนะทั้งที่ความจริงแล้วไม่ได้เป็นเช่นนั้น อำนาจการทดสอบคือหนึ่งลบด้วยอัตราผลลบลวง — ความน่าจะเป็นที่จะตรวจพบผู้ชนะที่แท้จริงตามขนาดของ MDE ค่าเริ่มต้นของอุตสาหกรรมคืออัลฟา = 0.05 และอำนาจการทดสอบ = 0.80 ควรใช้อัลฟา = 0.01 และอำนาจการทดสอบ = 0.90 สำหรับการเปิดตัวระบบที่มีเดิมพันสูงซึ่งการตัดสินใจผิดพลาดจะมีราคาแพง ทางเลือกทั้งสองนี้จะทำให้การทดสอบมีความเข้มงวดขึ้นและเพิ่มขนาดตัวอย่างที่จำเป็น: การลดอัลฟาจาก 0.05 เป็น 0.01 จะเพิ่มขนาดตัวอย่างขึ้นประมาณสองเท่า; การเพิ่มอำนาจการทดสอบจาก 0.80 เป็น 0.90 จะเพิ่มขึ้นอีกประมาณ 30%
MDE แบบสัมพัทธ์ เทียบกับ แบบสัมบูรณ์
MDE แบบสัมพัทธ์ (% ของเกณฑ์มาตรฐาน) เป็นกรอบความคิดที่พบบ่อยที่สุด: "ฉันต้องการตรวจจับการยกระดับ 10% จากอัตราการแปลงปัจจุบันที่ 5%" ซึ่งหมายความว่า p₂ = 5.5% MDE แบบสัมบูรณ์ (จุดเปอร์เซ็นต์) เป็นกรอบความคิดที่ถูกต้องเมื่อผลกระทบทางธุรกิจแสดงออกมาเป็นจุด: "ฉันต้องการตรวจจับการยกระดับ +0.5 pp บนเกณฑ์มาตรฐาน 5% ของฉัน" ซึ่งหมายความว่า p₂ = 5.5% ทั้งสองแบบมีค่าเท่ากัน — เลือกแบบใดก็ได้ที่ตรงกับวิธีคิดของผู้มีส่วนได้ส่วนเสียในธุรกิจของคุณ
การทดสอบพหุตัวแปรและการปรับแก้แบบ Bonferroni
หากคุณเปรียบเทียบตัวแปร K กับกลุ่มควบคุมหนึ่งกลุ่ม หมายความว่าคุณกำลังรันการทดสอบไปพร้อมกันเป็นจำนวน K − 1 รายการ อัตราผลบวกลวงแบบไร้เดียงสาจะเพิ่มขึ้นในทุกๆ การเปรียบเทียบที่เพิ่มเข้ามา — การทดสอบอิสระสามรายการที่ค่าอัลฟา = 0.05 จะมีความน่าจะเป็นของผลบวกลวงรวมกันอยู่ที่ประมาณ 14% ไม่ใช่ 5% วิธีแก้ไขที่เป็นมาตรฐานคือการปรับแก้แบบ Bonferroni: โดยการหารค่าอัลฟาตามกำหนดของคุณด้วยจำนวนการเปรียบเทียบก่อนที่จะนำไปคำนวณค่า z วิกฤต เครื่องคำนวณนี้จะใช้การปรับแก้ให้โดยอัตโนมัติเมื่อคุณตั้งค่าจำนวนตัวแปรตั้งแต่ 2 ขึ้นไป ผลลัพธ์ที่ได้คือขนาดตัวอย่างต่อกลุ่มที่จำเป็นต้องใหญ่ขึ้น — การทดสอบพหุตัวแปรใช้ปริมาณการเข้าชมต่อกลุ่มมากกว่าการทดสอบ A/B แบบธรรมดา
FAQ
ฉันต้องใช้ขนาดตัวอย่างเท่าใดสำหรับการทดสอบ A/B?
มันขึ้นอยู่กับตัวเลขสี่ตัว ได้แก่ อัตราการแปลงที่เป็นเกณฑ์มาตรฐาน, ผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE), ระดับนัยสำคัญ (อัลฟา) และอำนาจการทดสอบทางสถิติ สำหรับการทดสอบอีคอมเมิร์ซทั่วไปที่มีเกณฑ์มาตรฐาน 5% เป้าหมายการยกระดับสัมพัทธ์ 10% อัลฟา 0.05 และอำนาจการทดสอบ 80% คุณต้องมีผู้เข้าชมประมาณ 31,000 คนต่อหนึ่งตัวแปร เกณฑ์มาตรฐานที่ต่ำลงและ MDE ที่เล็กลงล้วนทำให้ขนาดตัวอย่างที่ต้องใช้เพิ่มขึ้นอย่างมาก
ผลกระทบต่ำสุดที่ต้องการตรวจจับ (MDE) คืออะไร และฉันจะเลือกอย่างไร?
MDE คือการยกระดับที่น้อยที่สุดที่คุณต้องการให้การทดสอบตรวจจับได้อย่างแม่นยำ เลือกตามผลกระทบต่อธุรกิจ — การปรับปรุงที่น้อยที่สุดที่จะเปลี่ยนการตัดสินใจในการเปิดตัวของคุณ จุดเริ่มต้นทั่วไป: สัมพัทธ์ 5 ถึง 10% สำหรับขั้นตอนการชำระเงินและการลงชื่อเข้าใช้ที่มีปริมาณการเข้าชมสูง, สัมพัทธ์ 15 ถึง 25% สำหรับฟีเจอร์ที่มีปริมาณการเข้าชมต่ำกว่า MDE ที่เล็กลงหมายถึงขนาดตัวอย่างที่ใหญ่ขึ้นมาก ดังนั้นอย่าตั้งค่าต่ำเกินไป
ฉันควรใช้ระดับนัยสำคัญและอำนาจการทดสอบเท่าใด?
ค่าอัลฟา 0.05 (ความเชื่อมั่น 95%) และอำนาจการทดสอบ 80% เป็นค่าเริ่มต้นของอุตสาหกรรมสำหรับการทดสอบผลิตภัณฑ์และการตลาด ใช้ค่าอัลฟา 0.01 และอำนาจการทดสอบ 90% สำหรับการเปิดตัวที่มีผลกระทบสูง การลดค่าอัลฟาหรือเบตาลงจำเป็นต้องใช้ขนาดตัวอย่างที่ใหญ่ขึ้น — สิ่งที่ต้องแลกเปลี่ยนคือระหว่างผลบวกลวง (อัลฟา), ผลลบลวง (เบตา) และระยะเวลาที่ใช้ในการทดสอบ
ทำไมการทดสอบของฉันจึงต้องใช้ผู้เข้าชมจำนวนมากต่อหนึ่งตัวแปร?
มีปัจจัยหลักสองประการ อย่างแรก อัตราการแปลงที่เป็นเกณฑ์มาตรฐานที่ต่ำลงจะทำให้ขนาดตัวอย่างที่ต้องใช้เพิ่มขึ้น — การตรวจจับการยกระดับขนาดเล็กบนเกณฑ์มาตรฐาน 1% ต้องใช้ผู้เข้าชมมากกว่าบนเกณฑ์มาตรฐาน 5% ประมาณ 25 เท่า อย่างที่สอง ขนาดตัวอย่างที่ต้องใช้จะแปรผันตามหนึ่งส่วนด้วยกำลังสองของ MDE — การลด MDE ลงครึ่งหนึ่งจะทำให้ตัวอย่างที่จำเป็นเพิ่มขึ้นสี่เท่า ให้เพิ่ม MDE ที่คุณสนใจหรือยอมรับการทดสอบที่นานขึ้น
สูตรนี้มีที่มาอย่างไร?
มันคือสูตรอำนาจการทดสอบสองสัดส่วนมาตรฐานที่อิงตามการประมาณค่าแบบปกติ ขนาดตัวอย่างต่อกลุ่มเท่ากับกำลังสองของ (zα คูณด้วยส่วนเบี่ยงเบนมาตรฐานรวมภายใต้สมมติฐานว่าง บวก zβ คูณด้วยส่วนเบี่ยงเบนมาตรฐานภายใต้สมมติฐานทางเลือก) หารด้วยกำลังสองของผลต่างอัตรา เครื่องคำนวณจะใช้ความแปรปรวนรวมสำหรับพจน์สมมติฐานว่างและความแปรปรวนไม่รวมสำหรับพจน์สมมติฐานทางเลือก — ซึ่งเป็นรูปแบบตำราเรียนที่พบบ่อยที่สุด (Cohen 1988, Fleiss et al. 1980)
ฉันจะจัดการกับการทดสอบพหุตัวแปรที่มีมากกว่าหนึ่งตัวแปรได้อย่างไร?
เมื่อคุณเปรียบเทียบตัวแปร K กับกลุ่มควบคุมหนึ่งกลุ่ม เครื่องคำนวณจะใช้การปรับแก้แบบ Bonferroni โดยการหารอัลฟาด้วย (K − 1) ก่อนคำนวณค่า z วิกฤต สิ่งนี้ช่วยป้องกันอัตราผลบวกลวงที่เพิ่มขึ้นจากการทดสอบเปรียบเทียบหลายรายการ ผลลัพธ์ที่ได้คือขนาดตัวอย่างต่อกลุ่มที่จำเป็นต้องใหญ่ขึ้น — การทดสอบพหุตัวแปรใช้ปริมาณการเข้าชมต่อกลุ่มมากกว่าการทดสอบ A/B แบบธรรมดา
ฉันควรเปิดการทดสอบตามจำนวนวันที่แนะนำหรือหยุดเมื่อได้นัยสำคัญ?
ให้รันการทดสอบตามระยะเวลาที่แนะนำและประเมินผลนัยสำคัญในตอนสิ้นสุดเท่านั้น การหยุดทันทีที่ค่า p-value ลดลงต่ำกว่า 0.05 (การแอบดูผล) จะเพิ่มอัตราผลบวกลวงให้สูงกว่าค่าอัลฟาที่ตั้งไว้ ขนาดตัวอย่างที่แสดงโดยเครื่องคำนวณนี้คือเป้าหมายที่วางแผนไว้ — ให้ยึดมั่นตามนี้ก่อนเริ่มใช้งานและหักห้ามใจไม่ให้ด่วนสรุปผลผู้ชนะก่อนกำหนด หลังจากที่การทดสอบสิ้นสุดลง คุณสามารถนำผลลัพธ์ไปใส่ใน เครื่องคำนวณระดับนัยสำคัญการทดสอบ A/B ที่เป็นเครื่องมือคู่กันเพื่ออ่านค่า p-value และช่วงความเชื่อมั่นได้
จะเกิดอะไรขึ้นหากอัตราการแปลงของฉันต่ำมาก (ต่ำกว่า 1%)?
การประมาณค่าแบบปกติอาจมีความคลาดเคลื่อนเล็กน้อยเมื่อค่า np หรือ n(1 − p) มีขนาดเล็ก สำหรับการทดสอบที่มีอัตราต่ำมาก (เช่น เกณฑ์มาตรฐาน 0.1%) เครื่องคำนวณยังคงให้ค่าประมาณการวางแผนที่สมเหตุสมผล แต่ควรพิจารณาเพิ่มส่วนเผื่อพิเศษเล็กน้อย (10-15%) นอกเหนือจากขนาดตัวอย่างที่แนะนำ สำหรับขนาดตัวอย่างที่เล็กมากต่อกลุ่ม การทดสอบที่แม่นยำของ Fisher (Fisher's exact test) จะเป็นทางเลือกที่ปลอดภัยกว่าในขั้นตอนการวิเคราะห์ผลลัพธ์
อ้างอิงเนื้อหา หน้าหรือเครื่องมือนี้ว่า:
"เครื่องคำนวณขนาดตัวอย่างทดสอบ A/B" ที่ https://MiniWebtool.com/th// จาก MiniWebtool, https://MiniWebtool.com/
โดยทีมงาน miniwebtool อัปเดตล่าสุด: 2026-05-17
คุณสามารถลองใช้ AI แก้ปัญหาคณิตศาสตร์ GPT ของเรา เพื่อแก้ไขปัญหาทางคณิตศาสตร์ของคุณผ่านคำถามและคำตอบด้วยภาษาธรรมชาติ.