Tes A / B: uji-z vs uji-t vs uji kuadrat vs fisher

38

Saya mencoba memahami alasannya dengan memilih pendekatan tes khusus ketika berhadapan dengan tes A / B sederhana - (yaitu dua variasi / grup dengan binary respone (dikonversi atau tidak). Sebagai contoh saya akan menggunakan data di bawah ini

Version  Visits  Conversions
A        2069     188
B        1826     220

Jawaban teratas di sini bagus dan berbicara tentang beberapa asumsi yang mendasari uji z, t dan chi square. Tapi yang saya temukan membingungkan adalah sumber daya online yang berbeda akan mengutip pendekatan yang berbeda, dan Anda akan berpikir asumsi untuk tes A / B dasar harus hampir sama?

  1. Misalnya, artikel ini menggunakan skor-z :masukkan deskripsi gambar di sini
  2. Artikel ini menggunakan rumus berikut (yang saya tidak yakin apakah berbeda dengan perhitungan zscore?):

masukkan deskripsi gambar di sini

  1. Makalah ini referensi uji t (p 152):

masukkan deskripsi gambar di sini

Jadi argumen apa yang bisa dibuat untuk mendukung pendekatan yang berbeda ini? Mengapa seseorang memiliki preferensi?

Untuk memasukkan satu kandidat lagi, tabel di atas dapat ditulis ulang sebagai tabel kontingensi 2x2, di mana uji eksak Fisher (p5) dapat digunakan

              Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

Tetapi menurut thread ini , tes fisher hanya dapat digunakan dengan ukuran sampel yang lebih kecil (apa cut-nya?)

Dan kemudian ada tes t dan z berpasangan, uji f (dan regresi logistik, tapi saya ingin meninggalkan itu untuk saat ini) .... Saya merasa seperti tenggelam dalam pendekatan uji yang berbeda, dan saya hanya ingin dapat buat semacam argumen untuk berbagai metode dalam kasus uji A / B sederhana ini.

Menggunakan contoh data saya mendapatkan nilai-p berikut

  1. https://vwo.com/ab-split-test-significance-calculator/ memberikan nilai-p 0,001 (skor-z)

  2. http://www.evanmiller.org/ab-testing/chi-squared.html (menggunakan uji chi square) memberikan nilai-p 0,00259

  3. Dan di R fisher.test(rbind(c(1881,188),c(1606,220)))$p.valuememberikan nilai-p 0,002785305

Yang saya kira semuanya cukup dekat ...

Pokoknya - hanya berharap untuk diskusi sehat tentang pendekatan apa yang akan digunakan dalam pengujian online di mana ukuran sampel biasanya dalam ribuan, dan rasio respons sering 10% atau kurang. Naluri saya mengatakan kepada saya untuk menggunakan chi-square, tetapi saya ingin dapat menjawab dengan tepat mengapa saya memilihnya daripada banyak cara lain untuk melakukannya.

L Xandor
sumber
Sebagai sekitar - dan -tests pertanyaan Anda sudah dijawab disini: stats.stackexchange.com/questions/85804/...tzt
Tim
Saya menemukan demonstrasi ini cukup membantu. Yang menunjukkan bahwa uji z untuk proporsi pada dasarnya setara dengan uji chi-square homogenitas pada tabel kontingensi 2x2. rinterested.github.io/statistics/chi_square_same_as_z_test.html
yueyanw

Jawaban:

24

Kami menggunakan tes ini untuk alasan yang berbeda dan dalam situasi yang berbeda.

  1. z z zz -test. Uji mengasumsikan bahwa pengamatan kami diambil secara independen dari distribusi normal dengan rerata yang tidak diketahui dan varian yang diketahui. Sebuah -test digunakan terutama ketika kita memiliki data kuantitatif. (yaitu berat hewan pengerat, usia individu, tekanan darah sistolik, dll.) Namun, uji- juga dapat digunakan ketika tertarik pada proporsi. (yaitu proporsi orang yang tidur setidaknya delapan jam, dll.)zzz

  2. t t t zt -test. Uji - mengasumsikan bahwa pengamatan kami diambil secara independen dari distribusi normal dengan rerata tidak diketahui dan ragam tidak diketahui. Perhatikan bahwa dengan uji- , kita tidak tahu varians populasi. Ini jauh lebih umum daripada mengetahui varians populasi, sehingga uji- umumnya lebih tepat daripada uji- , tetapi secara praktis akan ada sedikit perbedaan antara keduanya jika ukuran sampel besar.tttz

Dengan - dan uji- , hipotesis alternatif Anda adalah bahwa rata-rata populasi Anda (atau proporsi populasi) dari satu kelompok tidak sama, kurang dari, atau lebih besar dari rata-rata populasi (atau proporsi) atau kelompok lain. Ini akan tergantung pada jenis analisis yang ingin Anda lakukan, tetapi hipotesis nol dan alternatif Anda secara langsung membandingkan cara / proporsi dari kedua kelompok.tzt

  1. Tes chi-squared. Sedangkan - dan uji- menyangkut data kuantitatif (atau proporsi dalam kasus ), uji chi-kuadrat sesuai untuk data kualitatif. Sekali lagi, asumsinya adalah bahwa pengamatan tidak tergantung satu sama lain. Dalam hal ini, Anda tidak mencari hubungan tertentu. Hipotesis nol Anda adalah tidak ada hubungan antara variabel satu dan variabel dua. Hipotesis alternatif Anda adalah bahwa suatu hubungan memang ada. Ini tidak memberi Anda secara spesifik tentang bagaimana hubungan ini ada (yaitu, ke arah mana hubungan itu pergi) tetapi itu akan memberikan bukti bahwa suatu hubungan (atau tidak) ada antara variabel independen Anda dan grup Anda.t zztz

  2. Uji pasti Fisher. Salah satu kelemahan dari uji chi-squared adalah bahwa asimptotik. Ini berarti bahwa -value akurat untuk ukuran sampel yang sangat besar. Namun, jika ukuran sampel Anda kecil, maka nilai- mungkin tidak cukup akurat. Dengan demikian, uji eksak Fisher memungkinkan Anda untuk secara tepat menghitung nilai- dari data Anda dan tidak bergantung pada perkiraan yang akan buruk jika ukuran sampel Anda kecil.p pppp

Saya terus mendiskusikan ukuran sampel - referensi yang berbeda akan memberi Anda metrik yang berbeda tentang kapan sampel Anda cukup besar. Saya hanya akan menemukan sumber yang memiliki reputasi, lihat aturan mereka, dan terapkan aturan mereka untuk menemukan tes yang Anda inginkan. Saya tidak akan "berbelanja", jadi untuk berbicara, sampai Anda menemukan aturan yang Anda "sukai."

Pada akhirnya, tes yang Anda pilih harus didasarkan pada a) ukuran sampel Anda dan b) bentuk apa yang Anda inginkan untuk diambil hipotesis Anda. Jika Anda mencari efek tertentu dari tes A / B Anda (misalnya, grup B saya memiliki skor tes yang lebih tinggi), maka saya akan memilih uji- atau uji- , uji sampel yang tertunda dan pengetahuan populasi. perbedaan. Jika Anda ingin menunjukkan bahwa suatu hubungan hanya ada (misalnya, grup A dan grup B saya berbeda berdasarkan variabel independen tetapi saya tidak peduli grup mana yang memiliki skor lebih tinggi), maka uji chi-squared atau Fisher sesuai, tergantung pada ukuran sampel.tzt

Apakah ini masuk akal? Semoga ini membantu!

Matt Brems
sumber
Terima kasih atas jawaban terinci! Saya akan membahasnya secara terperinci - Saya yakin saya akan memiliki beberapa pertanyaan!
L Xandor
Bisakah Anda menjelaskan lebih lanjut bagaimana uji chi-squared dan Fisher tidak menunjukkan arah efek? Jika semua tes statistik inferensial memberikan tingkat kepercayaan di sekitar apakah dua set sampel diambil dari populasi yang berbeda atau populasi yang sama, maka apa tentang teori matematika yang tidak akan membiarkan Anda mengatakan perbedaan arah dalam nilai rata-rata akan berlaku (kelompok B memiliki skor lebih tinggi)?
Chris F
Untuk kejelasan, uji chi-squared dan uji eksak Fisher melakukan hal yang sama tetapi nilai-p dihitung sedikit berbeda. (Ini perkiraan di bawah chi-kuadrat dan perhitungan yang tepat di bawah tepat Fisher.) Saya akan membahas chi-kuadrat dan akan digeneralisasi ke Fisher. Masalahnya di sini adalah premis. "Jika semua tes statistik inferensial memberikan tingkat kepercayaan sekitar apakah dua sampel diambil dari ..." - bukan itu yang dilakukan uji chi-squared. Hipotesis nol untuk uji chi-square adalah bahwa tidak ada hubungan dan hipotesis alternatif ...
Matt Brems
... adalah bahwa ada beberapa hubungan antara dua variabel kategori. Anda hanya menguji keberadaan asosiasi dan tidak menentukan sebelumnya arah tertentu. (Ada beberapa statistik yang kurang dikenal di luar sana yang DO menentukan hubungan tertentu, jadi itu mungkin; namun ini bukan apa yang dirancang untuk dilakukan uji chi-squared.) Untuk menyimpulkan setelah itu bahwa ada hubungan terarah tertentu berdasarkan pada nilai p yang dihitung berdasarkan serangkaian hipotesis berbeda yang dirancang hanya untuk menguji keberadaan asosiasi akan menjadi kesalahan.
Matt Brems
H0:μ=0HA:μ0tpμμH0:μ0HA:μ>0pα=0.05μ