The G-Test adalah cara untuk mendapatkan perkiraan cepat dari distribusi chi kuadrat, dan dianjurkan oleh penulis ini terkenal A / B tes tutorial .
Alat ini mengasumsikan distribusi normal dan menggunakan perbedaan cara untuk menghitung kepercayaan.
Apa perbedaan antara tes G dan tes T? Apa manfaat atau kerugian menggunakan setiap metode untuk mengukur efektivitas tes A / B kami?
Saya mencoba mencari tahu mana yang harus saya gunakan untuk mengukur hasil kerangka uji A / B saya. Kerangka kerja kami memiliki dua kasus penggunaan umum: membagi kelompok pengunjung secara merata, menunjukkan masing-masing fitur yang berbeda dan mengukur konversi mereka di beberapa halaman lain (katakanlah, halaman pendaftaran); dan pisahkan grup pengunjung menjadi grup kontrol (90%) dan grup eksperimen (10%) untuk ujian, dan ukur konversi pada halaman lain.
Situs web kami mendapat antara 1.000 hingga 200.000 kunjungan per hari (saya tidak sengaja sengaja menyembunyikan angka sebenarnya, yang tidak banyak berubah). Kunjungan ini dibagi dengan distribusi eksponensial di sekitar 300 halaman.
Terima kasih, Kevin
sumber
Jawaban:
Secara umum, tes yang kurang perkiraan dalam menghitung statistik uji lebih baik, meskipun semua akan menyatu dengan hasil yang sama dengan meningkatkan ukuran sampel.
Jadi, karena A / B-tes umumnya berfokus pada hasil biner, ...
Jawaban singkat:
Gunakan G-test, karena kurang perkiraan.
Jawaban panjang:
Uji-t, dalam uji A / B, kasus ukuran sampel yang tidak sama dan varian tidak sama , mendekati perbedaan dua distribusi dengan distribusi-t, yang dipertanyakan sendiri . Kedua distribusi mungkin tidak diketahui, tetapi dianggap bahwa mean dan variansnya cukup untuk menggambarkannya (jika tidak, kesimpulan apa pun tidak akan banyak membantu), yang tentu saja berlaku untuk distribusi normal.
Dalam kasus khusus hasil biner, distribusi binomial dapat diperkirakan dengan distribusi normal dengan , yang berlaku untuk (aturan praktis, = percobaan, = tingkat keberhasilan).μ = n p ,σ2= n p ( 1 - p ) n ∗ p ∗ ( 1 - p ) ≥ 9 n hal
Jadi, secara ringkas, meskipun tidak apa-apa untuk menerapkan uji-t, dua pendekatan dilakukan untuk mengubah kasus binomial menjadi kasus yang lebih umum, yang tidak diperlukan di sini, karena tes pendekatan kurang seperti tes-G atau (bahkan lebih baik ) Uji pasti Fisher tersedia untuk kasus khusus ini. Uji pasti Fisher harus diterapkan terutama jika ukuran sampel kurang sama dengan 20 (aturan praktis lainnya), tetapi saya kira ini tidak masalah dalam uji A / B yang solid.
sumber
Halaman Ben Tilly yang Anda referensikan adalah ringkasan pengujian A / B yang bagus untuk pemula. Ketika Anda masuk ke pertanyaan yang lebih rinci / mempelajari masalah desain, ada baiknya mencari sumber primer yang lebih rinci. Kohavi et al menerbitkan makalah mani pada pengujian AB yang merupakan kombinasi yang baik dari kelengkapan dan keterbacaan. Saya sangat merekomendasikannya: http://exp-platform.com/Documents/GuideControlledExperiments.pdf .
Kembali ke pertanyaan Anda, pertanyaan sebenarnya yang harus Anda tanyakan pada diri sendiri adalah:
Saat Anda mengerjakan pertanyaan-pertanyaan ini, pada akhirnya Anda akan berakhir dengan pemahaman yang lebih baik tentang parameter pengujian. Dikombinasikan dengan pengetahuan domain Anda (mis. Apakah situs Anda mengalami pola siklus yang kuat yang ingin Anda kendalikan), nafsu untuk mengekspos pengguna ke eksperimen (apakah Anda benar-benar ingin menunjukkan pengalaman perawatan kepada banyak pengguna, atau Anda lebih suka mengandung potensi kerusakan) dan kecepatan yang diinginkan untuk mendapatkan hasil, pemahaman ini akan memandu Anda pada akhirnya menentukan cara untuk membagi lalu lintas keseluruhan antara kontrol dan perawatan.
Saya benci menjawab pertanyaan spesifik dengan "itu tergantung", tetapi dalam kasus ini itu benar-benar tergantung pada apa yang terjadi dengan situs Anda dan percobaan. Dalam kondisi tertentu, itu tidak akan membuat perbedaan yang signifikan apakah akan membagi lalu lintas 50/50 atau 90/10, sementara dalam situasi yang berbeda ini mungkin sangat penting. YMMV, tetapi referensi yang bagus seperti kertas yang dikutip di atas pasti akan menggerakkan Anda ke arah yang benar.
sumber
Saya tidak dapat mengomentari pos asli karena saya tidak memiliki poin StackExchange atau apa pun, tapi saya hanya ingin menunjukkan bahwa untuk nilai-p, ABBA tidak menggunakan uji-Z sederhana berdasarkan perkiraan normal, meskipun saya bisa lihat bagaimana Anda mungkin berpikir itu dari bacaan singkat halaman. ABBA menggunakan statistik binomial yang tepat hingga ukuran sampel 100, di luar itu ia bergantung pada perkiraan normal dengan koreksi kontinuitas. Saya belum pernah melihat kasus di mana sangat berbeda dari tes "kurang perkiraan" tapi saya akan sangat tertarik melihat kasus seperti itu jika Anda mengalami mereka.
Tidak ada distribusi-t atau uji-t yang ada dalam kasus apa pun.
Untuk interval kepercayaan, ia selalu bergantung pada perkiraan normal, meskipun ia menggunakan metode Agresti-Coull yang berkinerja cukup baik.
sumber