Kalkulator Signifikansi Uji A/B
Tentukan apakah perbedaan antara varian uji A/B signifikan secara statistik. Masukkan jumlah pengunjung dan konversi untuk grup kontrol dan varian untuk mendapatkan p-value, tingkat kepercayaan, uplift, dan hasil menang/kalah yang jelas.
Ad blocker Anda mencegah kami menampilkan iklan
MiniWebtool gratis karena iklan. Jika alat ini membantu, dukung kami dengan Premium (bebas iklan + lebih cepat) atau whitelist MiniWebtool.com lalu muat ulang halaman.
- Atau upgrade ke Premium (bebas iklan)
- Izinkan iklan untuk MiniWebtool.com, lalu muat ulang
Tentang Kalkulator Signifikansi Uji A/B
Kalkulator Signifikansi Uji A/B menerapkan uji-z dua proporsi pada data eksperimen Anda dan melaporkan apakah perbedaan yang diamati antara varian kontrol (A) dan varian penantang (B) signifikan secara statistik. Masukkan pengunjung dan konversi untuk kedua grup dan alat ini akan menampilkan nilai-p, interval kepercayaan untuk perbedaan tingkat, lift absolut dan relatif, kekuatan statistik untuk efek yang diamati, ukuran sampel per grup yang Anda perlukan untuk mengonfirmasi lift pada kekuatan 80%, serta putusan menang / kalah / tidak meyakinkan dalam bahasa sehari-hari — didukung oleh visualisasi animasi tentang posisi skor-z Anda pada distribusi normal standar.
Cara Menggunakan
- Masukkan jumlah pengunjung dan konversi untuk varian kontrol (A).
- Masukkan dua jumlah yang sama untuk varian yang sedang diuji (B), yang diukur dalam rentang waktu yang sama.
- Pilih tingkat kepercayaan — 95% adalah standar, 99% lebih ketat, 90% untuk eksplorasi awal.
- Pilih dua arah (B berbeda dari A ke salah satu arah) atau satu arah (hanya menghargai B jika mengalahkan A).
- Klik Hitung Signifikansi untuk membaca putusan, nilai-p, interval kepercayaan, kekuatan statistik, dan matematika langkah demi langkah.
Formula yang Digunakan (Uji-Z Dua Proporsi)
p₁ = c₁ / n₁ · p₂ = c₂ / n₂
p̂ = (c₁ + c₂) / (n₁ + n₂) (tingkat gabungan di bawah H₀)
SE = √[ p̂ × (1 − p̂) × (1/n₁ + 1/n₂) ]
z = (p₂ − p₁) / SE
nilai-p (dua arah) = 2 × (1 − Φ(|z|))
Interval Kepercayaan untuk (p₂ − p₁) pada tingkat (1 − α) = (p₂ − p₁) ± zα/2 × √[ p₁(1−p₁)/n₁ + p₂(1−p₂)/n₂ ]
Apa yang Membuat Kalkulator Uji A/B Ini Berbeda
- Pratinjau langsung sebelum Anda mengirimkan — ketik salah satu dari empat jumlah data dan lihat tingkat konversi, lift, skor-z, nilai-p, dan putusan diperbarui secara real-time.
- Pemeriksaan signifikansi visual — kurva normal standar animasi menunjukkan dengan tepat di mana statistik-z Anda berada relatif terhadap wilayah penolakan.
- Forest plot interval kepercayaan — lihat interval 95% untuk kedua tingkat konversi secara berdampingan. Bilah yang tidak tumpang tindih adalah sinyal visual dari pemenang.
- Putusan dalam bahasa sehari-hari — spanduk hijau/amber/merah alih-alih nilai-p kosong. Mengatakan "Varian B menang" jauh lebih baik daripada mengatakan "p = 0.028" bagi sebagian besar pemangku kepentingan.
- Pembacaan kekuatan statistik — mendeteksi kapan pengujian kekurangan kekuatan statistik (underpowered) dan merekomendasikan ukuran sampel per grup yang diperlukan pada kekuatan 80%.
- Gaya Bayesian "P(B > A)" — tampilan pelengkap untuk nilai-p frekuentis yang menurut banyak tim produk lebih intuitif.
- Pilihan contoh cepat — muat skenario menang telak, persaingan ketat, tidak ada sinyal, atau kalah hanya dengan satu klik dan pelajari bagaimana angka-angka tersebut bergerak.
Membaca Putusan
- Hijau — Kemenangan signifikan. nilai-p ≤ α dan tingkat konversi varian > tingkat konversi kontrol. Lift tersebut kemungkinan besar bukan karena kebetulan; Anda dapat meluncurkan varian B.
- Merah — Kekalahan signifikan. nilai-p ≤ α tetapi tingkat konversi varian < tingkat konversi kontrol. Varian B benar-benar lebih buruk; pertahankan varian A dan lakukan investigasi.
- Amber — Mendekati ambang batas. nilai-p mendekati α. Kumpulkan lebih banyak lalu lintas pengunjung sebelum memutuskan.
- Abu-abu — Belum ada sinyal. Data konsisten dengan tidak adanya perbedaan nyata. Lanjutkan pengujian atau hentikan dan coba perubahan yang lebih besar.
Mengapa Anda Tidak Boleh Berhenti Lebih Awal pada Nilai-P yang Signifikan
Memeriksa pengujian secara berulang-ulang dan langsung berhenti saat nilai-p < 0.05 (sering disebut "peeking") meningkatkan tingkat positif palsu secara dramatis — terkadang hingga 30% atau lebih tinggi untuk pengujian nominal 5%. Tentukan ukuran sampel terlebih dahulu dengan perhitungan kekuatan statistik, jalankan eksperimen hingga mencapai target tersebut, dan baru setelah itu evaluasi signifikansinya. Ukuran sampel per grup yang diperlukan yang ditampilkan oleh kalkulator ini adalah target yang baik saat merencanakan pengujian di masa mendatang.
Perencanaan Ukuran Sampel
Jika pengujian Anda kekurangan kekuatan statistik (underpowered), kalkulator akan merekomendasikan ukuran sampel per grup menggunakan rumus kekuatan dua proporsi standar:
n / grup ≈ (zα/2 · √[2p̄(1−p̄)] + zβ · √[p₁(1−p₁) + p₂(1−p₂)])² / (p₂ − p₁)²
di mana p̄ adalah rata-rata dari p₁ dan p₂ dan zβ adalah kuantil normal standar untuk kekuatan target (0.84 untuk 80%).
Masukkan tingkat dasar historis Anda dan lift terkecil yang Anda pedulikan ke dalam rumus — itu adalah ukuran sampel yang harus ditargetkan sebelum meluncurkan pengujian baru.
Kesalahan Umum dalam Pengujian A/B
- Mengintip (Peeking) — memeriksa hasil setiap hari dan berhenti pada nilai-p signifikan pertama akan memperbanyak positif palsu. Gunakan pengujian sekuensial atau tunggu hingga ukuran sampel yang direncanakan tercapai.
- Sampel terlalu kecil — jika konversi kurang dari beberapa ratus per grup, pendekatan normal bisa menjadi tidak akurat. Pertimbangkan untuk menggunakan uji eksak Fisher sebagai gantinya.
- Perbandingan berganda — menjalankan sepuluh pengujian dan hanya melaporkan pemenangnya akan meningkatkan tingkat positif palsu. Terapkan koreksi Bonferroni atau jalankan pengujian konfirmatori yang terdaftar sebelumnya.
- Efek kebaruan (Novelty effects) — varian B mungkin terlihat bagus di minggu pertama murni karena pengguna menyadari perubahan tersebut. Biarkan pengujian berjalan cukup lama agar efeknya menjadi stabil.
- Bias kelangsungan hidup (Survivorship bias) — menyaring pengunjung setelah melakukan pengacakan (randomisation) akan merusak pengujian. Selalu hitung pengujian pada populasi acak penuh.
- Jendela pengukuran tidak selaras — kumpulkan data untuk kedua grup pada rentang waktu yang identik. Perbedaan campuran lalu lintas akhir pekan dan hari kerja dapat menggeser tingkat dasar.
Uji Satu Arah vs Dua Arah
Uji dua arah mempertanyakan apakah B berbeda dari A ke arah mana pun. Ini adalah pilihan standar yang tepat ketika Anda benar-benar bisa meluncurkan varian mana pun. Uji satu arah hanya menghargai hasil dalam arah yang telah ditentukan sebelumnya (biasanya: B mengalahkan A) dan memotong nilai-p menjadi sekitar setengahnya ketika data mengarah ke sana — tetapi Anda harus berkomitmen pada arah tersebut *sebelum* melihat data. Beralih ke satu arah setelah melihat hasilnya adalah bentuk umum dari p-hacking.
Membaca Interval Kepercayaan
Interval kepercayaan 95% untuk perbedaan tingkat konversi memberi tahu Anda rentang masuk akal dari lift yang sebenarnya. Jika interval berada sepenuhnya di atas nol, B adalah pemenang; sepenuhnya di bawah nol, B kalah; jika melewati angka nol, data konsisten dengan tidak adanya perbedaan nyata. Lebar interval menunjukkan seberapa tepat estimasi Anda — semakin sempit berarti data semakin banyak.
FAQ
Apa yang dilakukan oleh kalkulator signifikansi uji A/B?
Alat ini menerapkan uji-z dua proporsi pada data konversi kontrol dan varian Anda dan memberi tahu Anda apakah perbedaan yang diamati dalam tingkat konversi kemungkinan kecil disebabkan oleh kebetulan acak. Alat ini melaporkan nilai-p, interval kepercayaan untuk perbedaan, kekuatan statistik untuk efek yang diamati, lift, dan putusan dalam bahasa sehari-hari.
Tingkat kepercayaan apa yang harus saya gunakan untuk uji A/B?
Kepercayaan 95% (α = 0.05) adalah standar industri untuk pengujian produk dan pemasaran. Gunakan 99% untuk peluncuran berdampak tinggi di mana hasil positif palsu sangat merugikan, dan 90% hanya untuk eksplorasi awal di mana Anda menerima risiko positif palsu yang lebih tinggi.
Apakah saya harus menjalankan uji satu arah atau dua arah?
Gunakan dua arah ketika Anda hanya peduli bahwa B berbeda dari A ke salah satu arah. Gunakan satu arah ketika Anda memiliki hipotesis searah yang diputuskan sebelumnya, seperti B diperkirakan mengalahkan A, dan Anda bersedia mengabaikan sinyal arah yang berlawanan. Sebagian besar tim produk harus menggunakan dua arah sebagai standar.
Bagaimana nilai-p dihitung?
Tingkat gabungan p̂ dihitung dari gabungan konversi dan pengunjung. Kesalahan standar adalah √[p̂(1−p̂)(1/n₁ + 1/n₂)]. Statistik-z adalah perbedaan tingkat dibagi dengan kesalahan standar tersebut. Nilai-p dua arah adalah 2 × (1 − Φ(|z|)) di mana Φ adalah fungsi distribusi kumulatif normal standar.
Apa itu kekuatan statistik dan mengapa itu penting?
Kekuatan statistik adalah probabilitas bahwa pengujian mendeteksi efek nyata dari ukuran yang diamati berdasarkan ukuran sampel saat ini. Kekuatan di bawah 80% berarti pengujian tersebut kemungkinan terlalu kecil untuk mengonfirmasi lift bahkan jika itu nyata. Kalkulator melaporkan kekuatan dan ukuran sampel per grup yang Anda perlukan untuk mencapai 80%.
Bisakah saya menghentikan pengujian segera setelah nilai-p turun di bawah 0.05?
Tidak. Mengintip dan berhenti lebih awal meningkatkan tingkat positif palsu jauh di atas nominal α. Tentukan ukuran sampel terlebih dahulu menggunakan perhitungan kekuatan, jalankan pengujian hingga selesai, dan baru kemudian evaluasi signifikansinya. Ukuran sampel yang diperlukan yang ditunjukkan oleh kalkulator ini adalah target yang baik.
Bagaimana jika tingkat konversi saya sangat rendah (misalnya di bawah 1%)?
Pendekatan normal bisa menjadi tidak akurat ketika np atau n(1−p) bernilai kecil. Sebagai aturan praktis, Anda memerlukan setidaknya 30 konversi di setiap grup, idealnya 100+. Untuk pengujian dengan tingkat yang sangat rendah, pertimbangkan uji eksak Fisher sebagai alternatif yang lebih konservatif.
Apa arti dari P(B > A)?
Di bawah prior non-informatif (gaya seragam) pada masing-masing tingkat, data menyiratkan probabilitas posterior bahwa varian B memiliki tingkat konversi nyata yang lebih tinggi daripada varian A. Ini adalah pendamping Bayesian untuk nilai-p frekuentis dan sering kali lebih mudah dikomunikasikan kepada non-statistikawan ("yakin 85% B lebih baik" jauh lebih dipahami daripada "p = 0.03").
Kutip konten, halaman, atau alat ini sebagai:
"Kalkulator Signifikansi Uji A/B" di https://MiniWebtool.com/id// dari MiniWebtool, https://MiniWebtool.com/
oleh tim miniwebtool. Diperbarui: 2026-05-17
Anda juga dapat mencoba Penyelesai Matematika AI GPT kami untuk menyelesaikan masalah matematika Anda melalui pertanyaan dan jawaban dalam bahasa alami.