Saya mencoba memahami alasannya dengan memilih pendekatan tes khusus ketika berhadapan dengan tes A / B sederhana - (yaitu dua variasi / grup dengan binary respone (dikonversi atau tidak). Sebagai contoh saya akan menggunakan data di bawah ini
Version Visits Conversions
A 2069 188
B 1826 220
Jawaban teratas di sini bagus dan berbicara tentang beberapa asumsi yang mendasari uji z, t dan chi square. Tapi yang saya temukan membingungkan adalah sumber daya online yang berbeda akan mengutip pendekatan yang berbeda, dan Anda akan berpikir asumsi untuk tes A / B dasar harus hampir sama?
- Misalnya, artikel ini menggunakan skor-z :
- Artikel ini menggunakan rumus berikut (yang saya tidak yakin apakah berbeda dengan perhitungan zscore?):
- Makalah ini referensi uji t (p 152):
Jadi argumen apa yang bisa dibuat untuk mendukung pendekatan yang berbeda ini? Mengapa seseorang memiliki preferensi?
Untuk memasukkan satu kandidat lagi, tabel di atas dapat ditulis ulang sebagai tabel kontingensi 2x2, di mana uji eksak Fisher (p5) dapat digunakan
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Tetapi menurut thread ini , tes fisher hanya dapat digunakan dengan ukuran sampel yang lebih kecil (apa cut-nya?)
Dan kemudian ada tes t dan z berpasangan, uji f (dan regresi logistik, tapi saya ingin meninggalkan itu untuk saat ini) .... Saya merasa seperti tenggelam dalam pendekatan uji yang berbeda, dan saya hanya ingin dapat buat semacam argumen untuk berbagai metode dalam kasus uji A / B sederhana ini.
Menggunakan contoh data saya mendapatkan nilai-p berikut
https://vwo.com/ab-split-test-significance-calculator/ memberikan nilai-p 0,001 (skor-z)
http://www.evanmiller.org/ab-testing/chi-squared.html (menggunakan uji chi square) memberikan nilai-p 0,00259
Dan di R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
memberikan nilai-p 0,002785305
Yang saya kira semuanya cukup dekat ...
Pokoknya - hanya berharap untuk diskusi sehat tentang pendekatan apa yang akan digunakan dalam pengujian online di mana ukuran sampel biasanya dalam ribuan, dan rasio respons sering 10% atau kurang. Naluri saya mengatakan kepada saya untuk menggunakan chi-square, tetapi saya ingin dapat menjawab dengan tepat mengapa saya memilihnya daripada banyak cara lain untuk melakukannya.
Jawaban:
Kami menggunakan tes ini untuk alasan yang berbeda dan dalam situasi yang berbeda.
z z zz -test. Uji mengasumsikan bahwa pengamatan kami diambil secara independen dari distribusi normal dengan rerata yang tidak diketahui dan varian yang diketahui. Sebuah -test digunakan terutama ketika kita memiliki data kuantitatif. (yaitu berat hewan pengerat, usia individu, tekanan darah sistolik, dll.) Namun, uji- juga dapat digunakan ketika tertarik pada proporsi. (yaitu proporsi orang yang tidur setidaknya delapan jam, dll.)z z z
t t t zt -test. Uji - mengasumsikan bahwa pengamatan kami diambil secara independen dari distribusi normal dengan rerata tidak diketahui dan ragam tidak diketahui. Perhatikan bahwa dengan uji- , kita tidak tahu varians populasi. Ini jauh lebih umum daripada mengetahui varians populasi, sehingga uji- umumnya lebih tepat daripada uji- , tetapi secara praktis akan ada sedikit perbedaan antara keduanya jika ukuran sampel besar.t t t z
Dengan - dan uji- , hipotesis alternatif Anda adalah bahwa rata-rata populasi Anda (atau proporsi populasi) dari satu kelompok tidak sama, kurang dari, atau lebih besar dari rata-rata populasi (atau proporsi) atau kelompok lain. Ini akan tergantung pada jenis analisis yang ingin Anda lakukan, tetapi hipotesis nol dan alternatif Anda secara langsung membandingkan cara / proporsi dari kedua kelompok.tz t
Tes chi-squared. Sedangkan - dan uji- menyangkut data kuantitatif (atau proporsi dalam kasus ), uji chi-kuadrat sesuai untuk data kualitatif. Sekali lagi, asumsinya adalah bahwa pengamatan tidak tergantung satu sama lain. Dalam hal ini, Anda tidak mencari hubungan tertentu. Hipotesis nol Anda adalah tidak ada hubungan antara variabel satu dan variabel dua. Hipotesis alternatif Anda adalah bahwa suatu hubungan memang ada. Ini tidak memberi Anda secara spesifik tentang bagaimana hubungan ini ada (yaitu, ke arah mana hubungan itu pergi) tetapi itu akan memberikan bukti bahwa suatu hubungan (atau tidak) ada antara variabel independen Anda dan grup Anda.t zz t z
Uji pasti Fisher. Salah satu kelemahan dari uji chi-squared adalah bahwa asimptotik. Ini berarti bahwa -value akurat untuk ukuran sampel yang sangat besar. Namun, jika ukuran sampel Anda kecil, maka nilai- mungkin tidak cukup akurat. Dengan demikian, uji eksak Fisher memungkinkan Anda untuk secara tepat menghitung nilai- dari data Anda dan tidak bergantung pada perkiraan yang akan buruk jika ukuran sampel Anda kecil.p phal hal hal
Saya terus mendiskusikan ukuran sampel - referensi yang berbeda akan memberi Anda metrik yang berbeda tentang kapan sampel Anda cukup besar. Saya hanya akan menemukan sumber yang memiliki reputasi, lihat aturan mereka, dan terapkan aturan mereka untuk menemukan tes yang Anda inginkan. Saya tidak akan "berbelanja", jadi untuk berbicara, sampai Anda menemukan aturan yang Anda "sukai."
Pada akhirnya, tes yang Anda pilih harus didasarkan pada a) ukuran sampel Anda dan b) bentuk apa yang Anda inginkan untuk diambil hipotesis Anda. Jika Anda mencari efek tertentu dari tes A / B Anda (misalnya, grup B saya memiliki skor tes yang lebih tinggi), maka saya akan memilih uji- atau uji- , uji sampel yang tertunda dan pengetahuan populasi. perbedaan. Jika Anda ingin menunjukkan bahwa suatu hubungan hanya ada (misalnya, grup A dan grup B saya berbeda berdasarkan variabel independen tetapi saya tidak peduli grup mana yang memiliki skor lebih tinggi), maka uji chi-squared atau Fisher sesuai, tergantung pada ukuran sampel.tz t
Apakah ini masuk akal? Semoga ini membantu!
sumber
Untuk tes 3 arah, Anda biasanya menggunakan ANOVA daripada 3 tes terpisah. Harap periksa juga koreksi Bonferroni sebelum pengujian berulang kali. Silakan gunakan ini https://www.google.com/search?q=testing+multiple+means&rlz=1C1CHBD_enIN817IN817&oq=testing+multiple+means+&aqs=chrome..69i57j69i60l3j69i61j0.3564j0j8&hl=id
sumber