The -test vs -test untuk membandingkan kemungkinan menangkap dingin di 2 kelompok

12

Saya baru saja membaca di majalah sains (populer) yang agak dihormati (PM Jerman, 02/2013, hal.36) tentang percobaan yang menarik (tanpa sumber, sayangnya). Itu menarik perhatian saya karena secara intuitif saya meragukan signifikansi hasilnya, tetapi informasi yang diberikan cukup untuk mereproduksi pengujian statistik.

Para peneliti bertanya-tanya apakah menjadi dingin dalam cuaca dingin meningkatkan kemungkinan terkena flu. Jadi mereka secara acak membagi kelompok yang terdiri dari 180 siswa menjadi dua kelompok. Satu kelompok harus menahan kaki mereka ke dalam air dingin selama 20 menit. Yang lain terus memakai sepatu mereka. Jenis manipulasi lucu, saya pikir, tetapi di sisi lain saya bukan dokter dan mungkin dokter berpikir lucu. Mengesampingkan masalah etika.

Bagaimanapun, setelah 5 hari, 13 dari siswa dalam kelompok perlakuan menderita flu, tetapi hanya 5 dalam kelompok yang memakai sepatu mereka. Rasio odds percobaan ini adalah 2,87.

Mengingat ukuran sampel yang agak kecil, saya mulai bertanya-tanya apakah perbedaan ini mungkin signifikan. Jadi saya melakukan dua tes.

Pertama, tes sederhana kesetaraan proporsi menggunakan perkiraan normal. Tes ini memiliki dengan . Dugaan saya adalah inilah yang diuji oleh para peneliti. Ini benar-benar penting. Namun z-test ini hanya valid dalam sampel besar, jika saya tidak salah, karena perkiraan yang normal. Selain itu, tingkat prevalensi agak kecil dan saya bertanya-tanya apakah ini mungkin tidak mempengaruhi tingkat cakupan interval kepercayaan efek.p = 0,0468z=1.988p=0.0468

Jadi percobaan kedua saya adalah uji chi-square untuk independensi, baik dengan simulasi Monte-Carlo maupun standar Pearson Chi-square. Di sini saya menemukan nilai-p keduanya tentang .p=.082

Nah, itu semua tidak begitu meyakinkan tentang hasilnya. Saya bertanya-tanya apakah ada lebih banyak pilihan untuk menguji data ini dan apa pendapat Anda tentang kedua tes tersebut (khususnya asumsi-asumsi dari pengujian pertama, signifikan,)

Tomka
sumber
Saya percaya Anda telah melakukan koreksi kontinuitas pada statistik chi-squared Pearson, yang menyumbang perbedaan dalam nilai-p.
Scortchi

Jawaban:

13

Saya akan menggunakan tes permutasi alih-alih baik perkiraan Normal atau chi-square. Tes permutasi tepat dan paling kuat, tergantung pada data.

Dalam hal ini, kami tidak dapat menghitung semua permutasi grup, tetapi kami dapat menghasilkan banyak permutasi acak data dan mendapatkan nilai yang cukup tepat:

group <- c(rep("A",90),rep("B",90))
n_a <- rep(0,100000)
for (i in 1:length(n_a)) {
   temp <- sample(group, size=18)
   n_a[i] <- sum(temp == "A")
}
> mean(n_a >= 13)
[1] 0.03904

yang akan menunjukkan nilai p 0,039.

NAMUN, dan ini adalah hal yang besar, saya menduga bahwa anggapan bahwa subjek yang masuk angin adalah peristiwa independen dilanggar. Orang-orang ini adalah siswa, mungkin di sekolah yang sama. Bayangkan dua dari mereka berbagi kelas, atau asrama, atau kegiatan lain, atau kafetaria (di sekolah dengan banyak kafetaria); peristiwa "# 1 menjadi dingin" dan "# 2 menjadi dingin" tidak independen. Saya dapat membayangkan bahwa seorang siswa akan berkata "mari kita mendaftar untuk percobaan ini!" ke teman sekamarnya atau teman-temannya; Saya dapat membayangkan bahwa para siswa direkrut dari kelas-kelas yang diajarkan oleh para profesor; Saya bisa membayangkan banyak cara bahwa asumsi kemerdekaan dilanggar. Mungkin kertas, yang belum saya baca, membahas beberapa di antaranya, tetapi sulit untuk melihat bagaimana itu bisa mengatasi semuanya,

Jbowman
sumber
Terima kasih @jbowman - selain itu Anda melakukan tes satu sisi, saya mengerti. Saya pikir ini lebih masuk akal daripada tes dua sisi yang saya gunakan. Jika perkiraan normal dilakukan satu sisi, nilai p adalah 0,023 di atas. Saya suka omong kosong tentang kemerdekaan. Mungkin siswa juga tidak terisolasi ketika mereka meletakkan kaki mereka ke dalam air, jadi itu juga merupakan cara penularan flu.
tomka
(+1) Tetapi perlu dicatat bahwa Anda tidak perlu mensimulasikan: distribusi statistik uji Anda mengikuti distribusi hipergeometrik di bawah hipotesis nol (& mengkondisikan total marginal). Ini adalah Uji Tepat Fisher.
Scortchi
11

@jbowman telah memberi Anda opsi yang baik. Saya pikir saya mungkin memberikan beberapa informasi mengenai pertanyaan eksplisit Anda tentang kesesuaian uji- vs . χ 2zχ2

z -test:

Ada dua kekhawatiran tentang kesesuaian penggunaan uji- , keduanya tentang apakah distribusi pengambilan sampel yang diasumsikan benar. Pertama, uji- menggunakan distribusi normal alih-alih distribusi- , menyiratkan standar deviasi yang diketahui tanpa kesalahan pengambilan sampel. Kedua, distribusi sampling kontinu, tetapi datanya terpisah; karena hanya kombinasi tertentu dari data yang mungkin, hanya nilai statistik uji realisasi yang dihasilkan yang mungkin, yang mungkin tidak cocok dengan distribusi sampling teoretis. (Saya membahas masalah ini dalam konteks tes lain di sini: Membandingkan dan membandingkan, nilai-p, tingkat signifikansi dan kesalahan tipe I. ) ztzt

Mari kita perhatikan keprihatinan pertama dalam konteks yang berbeda. Jika Anda memiliki dua grup dengan data yang terdistribusi normal, dan Anda ingin melihat apakah rata-rata setara, Anda perlu menghitung rata-rata dan standar deviasi. Sekarang kita tahu bahwa rata-rata tunduk pada kesalahan pengambilan sampel, itu sebabnya kita perlu melakukan tes daripada hanya mengatakan dua sampel berarti tidak identik. Namun, estimasi kami untuk standar deviasi juga harus mengalami kesalahan pengambilan sampel dan kami harus mempertimbangkan fakta itu. Ketika kita melakukan itu, ternyata statistik uji (semacam perbedaan rata-rata berskala) didistribusikan sebagai . Jika kita menggunakan distribusi normal sebagai gantinya (yaitu,z ztz-test), itu berarti kita berasumsi bahwa estimasi kita untuk standar deviasi adalah tanpa kesalahan - sempurna. Jadi mengapa -test dapat digunakan dalam kasus Anda? Alasannya adalah bahwa data Anda adalah binomial (yaitu, jumlah 'keberhasilan' dari total 'percobaan' yang diketahui), bukan normal. Dalam distribusi binomial , standar deviasi adalah fungsi dari mean, jadi setelah Anda memperkirakan mean, tidak ada ketidakpastian tambahan yang harus dikhawatirkan. Dengan demikian, distribusi normal dapat digunakan sebagai model distribusi sampling dari statistik uji. z

Meskipun menggunakan distribusi normal untuk memahami perilaku jangka panjang dari statistik uji secara teknis benar, masalah lain muncul. Masalahnya adalah distribusi normal kontinu, tetapi karena data Anda diskrit, tidak semua nilai dalam distribusi teoretis dapat ditemukan dalam dataset Anda. (Sekali lagi, saya membahas masalah ini secara lebih rinci dalam jawaban yang ditautkan di atas.) Untungnya, kecocokan antara hasil yang mungkin dari data Anda dan distribusi sampling normal teoretis menjadi lebih baik semakin besar Anda . Dalam kasus Anda, tidak peduli apa probabilitas yang mendasari yang sebenarnya, Anda dapat memiliki sebanyak semua kesuksesan atau sesedikit mungkin dalam setiap kelompok. Itu berarti jumlah kombinasi yang mungkin adalah91 × 91 = 1 ,NN = 180 z91×91=1,729, yang banyak kemungkinan. Dengan set data kecil, Anda benar-benar dapat mengalami beberapa jenis masalah yang saya bahas dalam jawaban tertaut saya, tetapi dengan , Anda tidak perlu terlalu khawatir. Saya percaya tes- adalah pilihan yang valid untuk para peneliti. N=180z

χ2 -test:

Tapi bagaimana dengan ? Saya pikir itu juga pilihan yang valid, tetapi itu bukan pilihan pertama saya. (Biarkan saya perhatikan secara sepintas bahwa perhatian kedua yang dibahas di atas - ketidakcocokan antara data diskrit dan distribusi referensi kontinu - berlaku sama seperti pada seperti halnya pada uji- , sehingga ada tidak ada keuntungan di sini.) Masalah denganχ 2 z χ 2 χ 2 z zχ2χ2zχ2-test adalah itu tidak menganggap ada sesuatu yang istimewa tentang total kolom relatif terhadap total baris; keduanya diperlakukan seolah-olah nilai-nilai lain yang mungkin ada. Namun, ini tidak secara akurat mencerminkan pengaturan eksperimental. Ada 180 orang, dan 90 ditugaskan untuk masing-masing kelompok. Satu-satunya hal yang benar-benar akan bervariasi di seluruh studi identik berulang adalah jumlah orang yang masuk angin di setiap kelompok. Uji salah memperlakukan jumlah pilek dan jumlah orang di setiap kelompok seolah-olah mereka dapat bervariasi, tetapi uji- membuat asumsi yang tepat. Itu sebabnya -test memiliki kekuatan lebih di sini. χ2zz

Untuk apa nilainya, tes permutasi yang disarankan oleh @jbowman juga mendapatkan aspek desain Anda dengan benar dan tidak menderita masalah ketidakcocokan diskrit-kontinu. Jadi, ini adalah pilihan terbaik. Tapi saya pikir Anda mungkin ingin tahu sedikit lebih banyak tentang bagaimana - dan membandingkan dalam situasi Anda. χ 2zχ2

gung - Pasang kembali Monica
sumber
Terima kasih @ung, saya sangat menghargai upaya Anda. Itu membuat segalanya lebih jelas.
Tomka
@ung aku bingung - apakah chi kuadrat dan z proporsinya sama atau tidak? stats.stackexchange.com/questions/173415/...
Xavier Bourret Sicotte
@XavierBourretSicotte, z-test sering diimplementasikan di bawah tenda sebagai tes chi-squared, R melakukan itu misalnya. Saya masih sering lebih suka menggunakan z-test karena informasi disajikan dengan cara yang konsisten dengan pemahaman bahwa 1 variabel adalah kovariat & yang lainnya adalah respon.
gung - Reinstate Monica
1
(+1) @XavierBourretSicotte: Ada dua tes-z yang umum digunakan untuk perbedaan antara dua proporsi: satu adalah tes skor, setara dengan uji chi-kuadrat Pearson (di mana varian dalam penyebut dihitung di bawah yang paling pas batal); yang lainnya adalah tes Wald (di mana varians dalam penyebut dihitung pada perkiraan kemungkinan maksimum dari perbedaan dalam dua proporsi).
Scortchi
@Scortchi terima kasih telah menjelaskan ini! Ini adalah pertama kalinya saya menemukan penjelasan eksplisit tentang perbedaan - apakah Anda dapat menghubungkan ke tempat-tempat di mana kedua pendekatan dijelaskan? Dengan formula yang sesuai untuk varians?
Xavier Bourret Sicotte