Bagaimana cara melakukan beberapa tes post-hoc chi-square pada tabel 2 X 3?

9

Kumpulan data saya terdiri dari angka kematian total atau kelangsungan hidup suatu organisme pada tiga tipe lokasi, inshore, midchannel, dan offshore. Angka-angka dalam tabel di bawah ini mewakili jumlah situs.

              100% Mortality            100% Survival
Inshore             30                       31 
Midchannel          10                       20 
Offshore             1                       10

Saya ingin tahu apakah # situs tempat kematian 100% terjadi signifikan berdasarkan jenis situs. Jika saya menjalankan 2 x 3 chi-square, saya mendapatkan hasil yang signifikan. Apakah ada perbandingan berpasangan post-hoc yang dapat saya jalankan atau haruskah saya benar-benar menggunakan ANOVA logistik atau regresi dengan distribusi binomial? Terima kasih!

logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial chl
sumber

7

Tabel kontingensi harus berisi semua kategori yang saling eksklusif pada kedua sumbu. Dalam negeri / Midchannel / Offshore terlihat baik-baik saja, namun kecuali "mortalitas kurang dari 100%" berarti "100% bertahan hidup" dalam pengaturan biologis ini, Anda mungkin perlu membuat tabel yang menjelaskan semua kasus yang diamati atau menjelaskan mengapa Anda membatasi analisis Anda secara ekstrem. ujung sampel.

Karena 100% angka bertahan berarti 0% kematian, Anda dapat memiliki tabel dengan kolom 100% = kematian / 100%> kematian> 0% / kematian = 0%. Dalam hal ini Anda tidak akan lagi membandingkan persentase, tetapi membandingkan ukuran kematian ordinal di tiga kategori tipe situs. (Bagaimana dengan menggunakan nilai persentase asli alih-alih kategori?) Versi uji Kruskal-Wallis mungkin sesuai di sini yang mempertimbangkan kaitan secara tepat (mungkin tes permutasi).

Ada tes post hoc yang ditetapkan untuk tes Kruskal-Wallis: 1 , 2, 3 . (Pendekatan resampling dapat membantu mengatasi ikatan.)

Regresi logistik dan regresi binomial mungkin lebih baik karena mereka tidak hanya memberi Anda nilai p, tetapi juga estimasi yang berguna dan interval kepercayaan dari ukuran efek. Namun untuk mengatur model-model itu dibutuhkan lebih banyak detail mengenai 100%> mortalitas> 0% lokasi.

GaBorgulya
sumber

4

Saya akan menganggap bahwa "kelangsungan hidup 100%" berarti bahwa situs Anda hanya berisi satu organisme. jadi 30 berarti 30 organisme mati, dan 31 berarti 31 organisme tidak. Berdasarkan hal ini chi-square harus baik-baik saja, tetapi hanya akan memberi tahu hipotesis mana yang tidak didukung oleh data - itu tidak akan memberi tahu Anda apakah dua hipotesis masuk akal lebih baik atau tidak. Saya menyajikan analisis probabilitas yang mengekstraksi informasi ini - itu setuju dengan uji chi-square, tetapi memberi Anda lebih banyak informasi daripada uji chi-square, dan cara yang lebih baik untuk menyajikan hasilnya.

Model adalah model bernouli untuk indikator "kematian", ( menunjukkan sel dari tabel , dan menunjukkan unit individu dalam sel). $Y_{ij}\sim Bin(1,\theta_{ij})$ $i$ $2\times 3$ $j$

Ada dua asumsi global yang mendasari uji chi-square:

dalam sel tabel yang diberikan, semuanya sama, yaitu $\theta_{ij}$ $\theta_{ij}=\theta_{ik}=\theta_{i}$
yang secara statistik independen, mengingat . Ini berarti bahwa parameter probabilitas memberi tahu Anda segala sesuatu tentang - semua informasi lain tidak relevan jika Anda tahu $Y_{ij}$ $\theta_{i}$ $Y_{ij}$ $\theta_{i}$

Nyatakan sebagai jumlah , (jadi ) dan biarkan menjadi ukuran grup (jadi ). Sekarang kami memiliki hipotesis untuk diuji: $X_{i}$ $Y_{ij}$ $X_{1}=30,X_{2}=10,X_{3}=1$ $N_{i}$ $N_{1}=61,N_{2}=30,N_{3}=11$

H_{SEBUAH} : θ_{1} = θ_{2}, θ_{1} = θ_{3}, θ_{2} = θ_{3}

$H_{A}:\theta_{1}=\theta_{2},\theta_{1}=\theta_{3},\theta_{2}=\theta_{3}$

Tapi apa alternatifnya? Saya akan mengatakan kombinasi lain yang mungkin sama atau tidak sama.

H_{B 1} : θ_{1} \neq θ_{2}, θ_{1} \neq θ_{3}, θ_{2} = θ_{3}

$H_{B1}:\theta_{1}\neq\theta_{2},\theta_{1}\neq\theta_{3},\theta_{2}=\theta_{3}$

H_{B 2} : θ_{1} \neq θ_{2}, θ_{1} = θ_{3}, θ_{2} \neq θ_{3}

$H_{B2}:\theta_{1}\neq\theta_{2},\theta_{1}=\theta_{3},\theta_{2}\neq\theta_{3}$

H_{B 3} : θ_{1} = θ_{2}, θ_{1} \neq θ_{3}, θ_{2} \neq θ_{3}

$H_{B3}:\theta_{1}=\theta_{2},\theta_{1}\neq\theta_{3},\theta_{2}\neq\theta_{3}$

H_{C} : θ_{1} \neq θ_{2}, θ_{1} \neq θ_{3}, θ_{2} \neq θ_{3}

$H_{C}:\theta_{1}\neq\theta_{2},\theta_{1}\neq\theta_{3},\theta_{2}\neq\theta_{3}$

Salah satu hipotesis ini harus benar, mengingat asumsi "global" di atas. Tetapi perhatikan bahwa tidak satupun dari ini yang menentukan nilai spesifik untuk tarif - sehingga mereka harus diintegrasikan. Sekarang mengingat benar, kami hanya memiliki satu parameter (karena semuanya sama), dan seragam sebelumnya adalah pilihan konservatif, menyatakan ini dan asumsi global oleh . jadi kita punya: $H_{A}$ $I_{0}$

P (X_{1}, X_{2}, X_{3} | N_{1}, N_{2}, N_{3}, H_{SEBUAH}, {saya}_{0}) = \int_{0}^{1} P (X_{1}, X_{2}, X_{3}, θ | N_{1}, N_{2}, N_{3}, H_{SEBUAH}, {saya}_{0}) d θ

$P(X_{1},X_{2},X_{3}|N_{1},N_{2},N_{3},H_{A},I_{0})=\int_{0}^{1}P(X_{1},X_{2},X_{3},\theta|N_{1},N_{2},N_{3},H_{A},I_{0})d\theta$

= (\binom{N_{1}}{X_{1}}) (\binom{N_{2}}{X_{2}}) (\binom{N_{3}}{X_{3}}) \int_{0}^{1} θ^{X_{1} + X_{2} + X_{3}} (1 - θ)^{N_{1} + N_{2} + N_{3} - X_{1} - X_{2} - X_{3}} d θ

$={N_{1} \choose X_{1}}{N_{2} \choose X_{2}}{N_{3} \choose X_{3}}\int_{0}^{1}\theta^{X_{1}+X_{2}+X_{3}}(1-\theta)^{N_{1}+N_{2}+N_{3}-X_{1}-X_{2}-X_{3}}d\theta$

= \frac{(\binom{N_{1}}{X_{1}}) (\binom{N_{2}}{X_{2}}) (\binom{N_{3}}{X_{3}})}{(N_{1} + N_{2} + N_{3} + 1) (\binom{N_{1} + N_{2} + N_{3}}{X_{1} + X_{2} + X_{3}})}

$=\frac{{N_{1} \choose X_{1}}{N_{2} \choose X_{2}}{N_{3} \choose X_{3}}}{(N_{1}+N_{2}+N_{3}+1){N_{1}+N_{2}+N_{3} \choose X_{1}+X_{2}+X_{3}}}$

Yang merupakan distribusi hypergeometrik dibagi dengan konstanta. Demikian pula untuk kita akan memiliki: $H_{B1}$

P (X_{1}, X_{2}, X_{3} | N_{1}, N_{2}, N_{3}, H_{B 1}, {saya}_{0}) = \int_{0}^{1} P (X_{1}, X_{2}, X_{3}, θ_{1} θ_{2} | N_{1}, N_{2}, N_{3}, H_{B 1}, {saya}_{0}) d θ_{1} d θ_{2}

$P(X_{1},X_{2},X_{3}|N_{1},N_{2},N_{3},H_{B1},I_{0})=\int_{0}^{1}P(X_{1},X_{2},X_{3},\theta_{1}\theta_{2}|N_{1},N_{2},N_{3},H_{B1},I_{0})d\theta_{1}d\theta_{2}$

= \frac{(\binom{N_{2}}{X_{2}}) (\binom{N_{3}}{X_{3}})}{(N_{1} + 1) (N_{2} + N_{3} + 1) (\binom{N_{2} + N_{3}}{X_{2} + X_{3}})}

$=\frac{{N_{2} \choose X_{2}}{N_{3} \choose X_{3}}}{(N_{1}+1)(N_{2}+N_{3}+1){N_{2}+N_{3} \choose X_{2}+X_{3}}}$

Anda dapat melihat pola untuk yang lain. Kita dapat menghitung peluang untuk mengatakan dengan hanya membagi dua ekspresi di atas. Jawabannya adalah sekitar , yang berarti data mendukung lebih dari sekitar faktor - bukti yang cukup lemah dalam mendukung tingkat yang sama. Probabilitas lain diberikan di bawah ini. $H_{A}\;vs\;H_{B1}$ $4$ $H_{A}$ $H_{B1}$ $4$

\begin{array}{cc} H y hal Hai t h e s saya s & hal r Hai b Sebuah b saya l saya t y \\ (H_{SEBUAH} | D) & 0,018982265 \\ (H_{B 1} | D) & 0,004790669 \\ (H_{B 2} | D) & 0,051620022 \\ (H_{B 3} | D) & 0.484155874 \\ (H_{C} | D) & 0.440451171 \end{array}

$\begin{array}{c|c} Hypothesis & probability \\ \hline (H_{A}|D) & 0.018982265 \\ (H_{B1}|D) & 0.004790669 \\ (H_{B2}|D) & 0.051620022 \\ (H_{B3}|D) & 0.484155874 \\ (H_{C}|D) & 0.440451171 \\ \end{array}$

Ini menunjukkan bukti kuat terhadap tingkat yang sama, tetapi tidak dalam bukti kuat mendukung alternatif defintie. Sepertinya ada bukti kuat bahwa laju "lepas pantai" berbeda dengan dua tarif lainnya, tetapi bukti yang tidak meyakinkan tentang apakah tarif "dalam negeri" dan "saluran tengah" berbeda. Inilah yang tes chi-square tidak akan memberi tahu Anda - itu hanya memberi tahu Anda bahwa hipotesis adalah "omong kosong" tetapi bukan alternatif apa yang harus ditempatkan pada tempatnya. $A$

probabilityislogic
sumber

1

Berikut ini adalah kode untuk melakukan tes chi square serta menghasilkan berbagai statistik uji. Namun, uji statistik dari asosiasi margin tabel tidak berguna di sini; jawabannya jelas. Tidak ada yang melakukan tes statistik untuk melihat apakah musim panas lebih panas daripada musim dingin.

Chompy<-matrix(c(30,10,1,31,20,10), 3, 2)
Chompy
chisq.test(Chompy)
chisq.test(Chompy, simulate.p.value = TRUE, B = 10000)
chompy2<-data.frame(matrix(c(30,10,1,31,20,10,1,2,1,2,1,2,1,2,3,1,2,3), 6,3))
chompy2
chompy2$X2<-factor(chompy2$X2) 
chompy2$X3<-factor(chompy2$X3)
summary(fit1<-glm(X1~X2+X3, data=chompy2, family=poisson))
summary(fit2<-glm(X1~X2*X3, data=chompy2, family=poisson)) #oversaturated
summary(fit3<-glm(X1~1, data=chompy2, family=poisson)) #null
anova(fit3,fit1)
library(lmtest)
waldtest(fit1)
waldtest(fit2) #oversaturated
kruskal.test(X1~X2+X3, data=chompy2)
kruskal.test(X1~X2*X3, data=chompy2)

Patrick McCann
sumber

3

Akan menarik bagi pembaca (dan OP) jika Anda dapat memberikan rincian tentang sintaks R yang berbeda (dan tes yang mendasarinya) yang Anda berikan, dan terutama bagaimana tes Kruskal-Wallis dibandingkan dengan model log-linear.

chl

Anda dapat melihat ini dengan menyalin dan menempelkan kode ke konsol R.

Patrick McCann

1

Tentu. Tanggapan datang dari diri mereka sendiri dengan menjalankan kode, tentu saja.

chl

0

Saya yakin Anda bisa menggunakan "interval kepercayaan simultan" untuk melakukan beberapa perbandingan. Rujukannya adalah Agresti et al. 2008 Interval kepercayaan simultan untuk membandingkan parameter binomial. Biometrik 64 1270-1275.

Anda dapat menemukan kode R yang sesuai di http://www.stat.ufl.edu/~aa/cda/software.html

Tu.2
sumber

Bagaimana cara melakukan beberapa tes post-hoc chi-square pada tabel 2 X 3?

Jawaban: