Perbedaan antara G-test dan t-test dan yang harus digunakan untuk pengujian A / B?

8

The G-Test adalah cara untuk mendapatkan perkiraan cepat dari distribusi chi kuadrat, dan dianjurkan oleh penulis ini terkenal A / B tes tutorial .

Alat ini mengasumsikan distribusi normal dan menggunakan perbedaan cara untuk menghitung kepercayaan.

Apa perbedaan antara tes G dan tes T? Apa manfaat atau kerugian menggunakan setiap metode untuk mengukur efektivitas tes A / B kami?

Saya mencoba mencari tahu mana yang harus saya gunakan untuk mengukur hasil kerangka uji A / B saya. Kerangka kerja kami memiliki dua kasus penggunaan umum: membagi kelompok pengunjung secara merata, menunjukkan masing-masing fitur yang berbeda dan mengukur konversi mereka di beberapa halaman lain (katakanlah, halaman pendaftaran); dan pisahkan grup pengunjung menjadi grup kontrol (90%) dan grup eksperimen (10%) untuk ujian, dan ukur konversi pada halaman lain.

Situs web kami mendapat antara 1.000 hingga 200.000 kunjungan per hari (saya tidak sengaja sengaja menyembunyikan angka sebenarnya, yang tidak banyak berubah). Kunjungan ini dibagi dengan distribusi eksponensial di sekitar 300 halaman.

Terima kasih, Kevin

Kevin Burke
sumber
4
Mengacak pengunjung (mis. Peluang 50:50 untuk kontrol atau perawatan eksperimental) secara umum adalah desain yang baik , dengan asumsi perawatan eksperimental Anda tidak melakukan hal buruk bagi pengunjung. Juga, 1000-200.000 adalah kisaran besar; Adakah alasan untuk berpikir bahwa pengunjung pada hari-hari tenang / sibuk akan (rata-rata) akan terpengaruh secara berbeda oleh kontrol / perlakuan eksperimental?
Tamu
Hai, Kisarannya tidak jelas karena saya lebih suka tidak membagikan angka yang sebenarnya. Fluktuasi antar hari tidak besar.
Kevin Burke
Hai Kevin. Saya ingin tahu apakah Anda dapat menjelaskan satu hal untuk saya. Judul bertanya tentang perbedaan antara uji- dan uji- . Membaca pertanyaan, hampir berbunyi sebagai gantinya seolah-olah Anda tertarik pada yang mana dari dua jenis pemisahan sampel untuk digunakan. Bahkan, sepertinya satu jawaban yang saat ini diposting telah menafsirkan pertanyaan tentang yang terakhir. Bisakah Anda mengatasinya secara singkat? Bersulang. Gt
kardinal
Saya lebih tertarik pada perbedaan antara tes G dan tes T, akan memperbarui pertanyaan untuk diklarifikasi.
Kevin Burke

Jawaban:

8

Secara umum, tes yang kurang perkiraan dalam menghitung statistik uji lebih baik, meskipun semua akan menyatu dengan hasil yang sama dengan meningkatkan ukuran sampel.

Jadi, karena A / B-tes umumnya berfokus pada hasil biner, ...

Jawaban singkat:

Gunakan G-test, karena kurang perkiraan.

Jawaban panjang:

Uji-t, dalam uji A / B, kasus ukuran sampel yang tidak sama dan varian tidak sama , mendekati perbedaan dua distribusi dengan distribusi-t, yang dipertanyakan sendiri . Kedua distribusi mungkin tidak diketahui, tetapi dianggap bahwa mean dan variansnya cukup untuk menggambarkannya (jika tidak, kesimpulan apa pun tidak akan banyak membantu), yang tentu saja berlaku untuk distribusi normal.

Dalam kasus khusus hasil biner, distribusi binomial dapat diperkirakan dengan distribusi normal dengan , yang berlaku untuk (aturan praktis, = percobaan, = tingkat keberhasilan).μ=np,σ2=np(1p)np(1p)9np

Jadi, secara ringkas, meskipun tidak apa-apa untuk menerapkan uji-t, dua pendekatan dilakukan untuk mengubah kasus binomial menjadi kasus yang lebih umum, yang tidak diperlukan di sini, karena tes pendekatan kurang seperti tes-G atau (bahkan lebih baik ) Uji pasti Fisher tersedia untuk kasus khusus ini. Uji pasti Fisher harus diterapkan terutama jika ukuran sampel kurang sama dengan 20 (aturan praktis lainnya), tetapi saya kira ini tidak masalah dalam uji A / B yang solid.

steffen
sumber
Saya tidak cukup mengikuti aturan praktis Anda untuk perkiraan normal; Saya ingin tahu apakah ada kesalahan ketik. Seperti yang tertulis, aturan akan berlaku jauh lebih cepat untuk daripada . hal=.9hal=.1
gung - Reinstate Monica
@ung, terima kasih sudah menunjukkannya, itu salah ketik. Btw: Referensi yang digunakan adalah Hartung: Statistik, Oldenbourg Edisi ke-14 (sayangnya hanya tersedia dalam bahasa Jerman)
steffen
5

Halaman Ben Tilly yang Anda referensikan adalah ringkasan pengujian A / B yang bagus untuk pemula. Ketika Anda masuk ke pertanyaan yang lebih rinci / mempelajari masalah desain, ada baiknya mencari sumber primer yang lebih rinci. Kohavi et al menerbitkan makalah mani pada pengujian AB yang merupakan kombinasi yang baik dari kelengkapan dan keterbacaan. Saya sangat merekomendasikannya: http://exp-platform.com/Documents/GuideControlledExperiments.pdf .

Kembali ke pertanyaan Anda, pertanyaan sebenarnya yang harus Anda tanyakan pada diri sendiri adalah:

  1. Berapa banyak tayangan yang perlu saya dapatkan dalam perawatan dan kontrol agar hasilnya signifikan secara signifikan?
  2. Apa ukuran efek minimum yang saya khawatirkan? Apakah Anda tertarik pada perawatan yang setidaknya 5% lebih baik daripada kontrol, atau 0,005% lebih baik?
  3. Dalam hal beberapa perawatan, apakah ada skenario untuk membandingkan perawatan satu sama lain, atau apakah cukup untuk membandingkan setiap perawatan dengan kontrol?
  4. Variabel apa yang penting untuk diukur untuk memastikan bahwa kelompok perlakuan tidak terpengaruh oleh efek samping yang tidak disengaja dari percobaan Anda. Makalah Kohavi memiliki contoh yang bagus dalam hal kinerja situs web: jika pengalaman perawatan Anda lebih lambat maka kendalikan dengan alasan apa pun (lebih banyak gambar, server berbeda, kode cepat-dan-kotor), ini berpotensi berpotensi menggagalkan tes secara serius.
  5. Apakah lebih masuk akal untuk mendaftarkan pengguna atau tayangan ke dalam eksperimen? Dengan kata lain, apakah masuk akal untuk memastikan bahwa pengguna selalu mendapatkan pengalaman kontrol atau perawatan selama durasi sesi / periode percobaan, atau dapatkah Anda mendaftarkan setiap tayangan halaman ke dalam tes secara independen?

Saat Anda mengerjakan pertanyaan-pertanyaan ini, pada akhirnya Anda akan berakhir dengan pemahaman yang lebih baik tentang parameter pengujian. Dikombinasikan dengan pengetahuan domain Anda (mis. Apakah situs Anda mengalami pola siklus yang kuat yang ingin Anda kendalikan), nafsu untuk mengekspos pengguna ke eksperimen (apakah Anda benar-benar ingin menunjukkan pengalaman perawatan kepada banyak pengguna, atau Anda lebih suka mengandung potensi kerusakan) dan kecepatan yang diinginkan untuk mendapatkan hasil, pemahaman ini akan memandu Anda pada akhirnya menentukan cara untuk membagi lalu lintas keseluruhan antara kontrol dan perawatan.

Saya benci menjawab pertanyaan spesifik dengan "itu tergantung", tetapi dalam kasus ini itu benar-benar tergantung pada apa yang terjadi dengan situs Anda dan percobaan. Dalam kondisi tertentu, itu tidak akan membuat perbedaan yang signifikan apakah akan membagi lalu lintas 50/50 atau 90/10, sementara dalam situasi yang berbeda ini mungkin sangat penting. YMMV, tetapi referensi yang bagus seperti kertas yang dikutip di atas pasti akan menggerakkan Anda ke arah yang benar.

Inverseofverse
sumber
3
Terima kasih atas balasan yang bijaksana dan bermanfaat. Saya menyadari Anda telah berada di sini selama beberapa bulan sekarang, tetapi karena ini adalah balasan pertama Anda, sepertinya ini adalah kesempatan yang baik untuk menyambut Anda di situs ini. Saya harap Anda akan merasa terilhami untuk menawarkan lebih banyak nasihat seiring berjalannya waktu!
whuber
4

Saya tidak dapat mengomentari pos asli karena saya tidak memiliki poin StackExchange atau apa pun, tapi saya hanya ingin menunjukkan bahwa untuk nilai-p, ABBA tidak menggunakan uji-Z sederhana berdasarkan perkiraan normal, meskipun saya bisa lihat bagaimana Anda mungkin berpikir itu dari bacaan singkat halaman. ABBA menggunakan statistik binomial yang tepat hingga ukuran sampel 100, di luar itu ia bergantung pada perkiraan normal dengan koreksi kontinuitas. Saya belum pernah melihat kasus di mana sangat berbeda dari tes "kurang perkiraan" tapi saya akan sangat tertarik melihat kasus seperti itu jika Anda mengalami mereka.

Tidak ada distribusi-t atau uji-t yang ada dalam kasus apa pun.

Untuk interval kepercayaan, ia selalu bergantung pada perkiraan normal, meskipun ia menggunakan metode Agresti-Coull yang berkinerja cukup baik.

Steve
sumber