Ini pertanyaan yang bagus, tapi pertanyaan besar. Saya tidak berpikir saya bisa memberikan jawaban yang lengkap, tetapi saya akan membuang beberapa makanan untuk dipikirkan.
Pertama, di bawah poin utama Anda, koreksi yang Anda maksud dikenal sebagai koreksi Yates 'untuk kontinuitas . Masalahnya adalah kita menghitung statistik inferensial diskrit :
(Ini diskrit karena, dengan hanya sejumlah terbatas contoh yang diwakili dalam tabel kontingensi, ada sejumlah terbatas nilai realisasi yang dapat diambil oleh statistik ini.) Terlepas dari kenyataan ini, ini dibandingkan dengandistribusi referensiberkelanjutan(yaitu.,distribusiχ2dengan derajat kebebasan(r-1)(c-1)). Ini tentu mengarah pada ketidakcocokan pada tingkat tertentu. Dengan kumpulan data yang sangat kecil, dan jika beberapa sel memiliki nilai yang diharapkan kurang dari 5, ada kemungkinan bahwa nilai-p mungkin terlalu kecil. Koreksi Yates menyesuaikan untuk ini.
χ2=∑(O−E)2E
χ2 (r−1)(c−1)
Ironisnya, masalah mendasar yang sama (discrete-continuous mismatch) dapat menyebabkan nilai-p yang terlalu tinggi . Secara khusus, nilai-p didefinisikan secara konvensional sebagai kemungkinan mendapatkan data yang ekstrem atau lebihdari data yang diamati. Dengan data kontinu, dapat dipahami bahwa probabilitas mendapatkan nilai yang pasti semakin kecil, dan dengan demikian kami benar-benar memiliki probabilitas data yang lebih ekstrem. Namun, dengan data diskrit, ada kemungkinan terbatas untuk mendapatkan data seperti milik Anda. Hanya dengan menghitung probabilitas mendapatkan data yang lebih ekstrem daripada nilai Anda, menghasilkan nilai-p nominal yang terlalu rendah (mengarah ke kesalahan tipe I yang meningkat), tetapi termasuk kemungkinan mendapatkan data yang sama seperti milik Anda mengarah pada nilai-p nominal yang terlalu tinggi (yang akan menyebabkan peningkatan kesalahan tipe II). Fakta-fakta ini mendorong gagasan nilai tengah p . Di bawah pendekatan ini, nilai-p adalah probabilitas data yang lebih ekstrem daripada Anda ditambah setengahnya probabilitas data sama seperti milik Anda.
Seperti yang Anda tunjukkan, ada banyak kemungkinan untuk menguji data tabel kontingensi. Perlakuan paling pro dan kontra dari berbagai pendekatan ada di sini . Makalah itu khusus untuk tabel 2x2, tetapi Anda masih bisa belajar banyak tentang opsi untuk data tabel kontingensi dengan membacanya.
Saya juga berpikir ada baiknya mempertimbangkan model dengan serius. Tes yang lebih tua seperti chi-squared cepat, mudah, dan dipahami oleh banyak orang, tetapi jangan meninggalkan Anda dengan pemahaman yang komprehensif tentang data Anda seperti yang Anda dapatkan dari membangun model yang tepat. Jika masuk akal untuk memikirkan baris [kolom] dari tabel kontingensi Anda sebagai variabel respons, dan kolom [baris] sebagai variabel penjelas / prediktor, pendekatan pemodelan akan mengikuti dengan mudah. Misalnya, jika Anda hanya memiliki dua baris, Anda dapat membangun model regresi logistik ; jika ada beberapa kolom, Anda bisa menggunakan pengkodean sel referensi (pengkodean dummy) untuk membangun model tipe ANOVA. Di sisi lain, jika Anda memiliki lebih dari dua baris, regresi logistik multinomialdapat digunakan dengan cara yang sama. Jika baris Anda memiliki urutan intrinsik, regresi logistik ordinal akan menghasilkan kinerja yang unggul untuk multinomial. Model log-linear (regresi Poisson) mungkin kurang relevan kecuali Anda memiliki tabel kontingensi dengan lebih dari dua dimensi, menurut saya.
Untuk perawatan yang komprehensif dari topik-topik seperti ini, sumber terbaik adalah buku-buku karya Agresti: baik perawatan skala penuh (lebih ketat), buku intro- nya (lebih mudah tetapi masih komprehensif dan sangat baik), atau mungkin juga buku ordinalnya .
G2-test
G2=∑O⋅ln(OE)
Saya akan mencoba menjawab beberapa pertanyaan Anda sebaik mungkin dari sudut pandang saya. Pertama, Tes Fisher-Irwin hanyalah nama lain untuk tes pasti Fisher. Kecuali kenyataan bahwa kadang-kadang intens secara komputasi saya biasanya lebih suka menggunakan tes Fisher. Jika ada masalah dengan tes ini, itu mengkondisikan pada total marjinal. Keindahan dari tes ini adalah bahwa di bawah hipotesis nol seperangkat tabel kontingensi dengan total marginal yang sama dengan tabel yang diamati memiliki distribusi hipergeometrik. Beberapa orang berpendapat bahwa mereka tidak melihat alasan untuk membatasi pertimbangan pada tabel dengan total marginal yang sama.
Uji chi-square Pearson sangat umum digunakan untuk menguji hubungan dalam tabel kontingensi. Seperti banyak tes lainnya, perkiraan dan tingkat signifikansi tidak selalu akurat. Cochran menunjukkan bahwa dalam sampel kecil ketika beberapa sel sangat jarang (misalnya mengandung kurang dari 5 kasus dalam beberapa sel) perkiraannya akan buruk.
Ada banyak tes perkiraan lainnya. Biasanya ketika menerapkan tes Fisher menggunakan SAS saya mendapatkan hasil dari semua tes ini dan mereka biasanya memberikan hasil yang hampir sama. Tetapi tes Fisher selalu bersyarat tepat pada total marjinal.
Mengenai regresi Poisson, itu adalah model yang menghubungkan variabel kategori dengan total sel. Seperti model apa pun, itu tergantung pada serangkaian asumsi. Yang paling penting adalah bahwa jumlah sel mengikuti distribusi Poisson yang berarti bahwa jumlah rata-rata jumlah sama dengan variansnya. Ini umumnya tidak berlaku untuk distribusi jumlah sel. Dalam kasus penyebaran berlebihan (varians lebih besar dari rata-rata) model binomial negatif mungkin lebih tepat.
sumber