Mengingat kekuatan komputer akhir-akhir ini, adakah alasan untuk melakukan uji chi-squared daripada tes Fisher?

86

Mengingat bahwa perangkat lunak dapat melakukan perhitungan tes Fisher dengan sangat mudah saat ini , apakah ada keadaan di mana, secara teoritis atau praktis, tes chi-squared sebenarnya lebih disukai daripada tes eksak Fisher?

Keuntungan dari uji eksak Fisher meliputi:

  • skala untuk tabel kontingensi lebih besar dari 2x2 (yaitu setiap r x c tabel)
  • memberikan nilai p yang tepat
  • tidak perlu memiliki jumlah sel minimum yang diharapkan untuk valid
pmgjones
sumber
10
Karena itu klasik tua yang bagus. Segera itu akan menjadi vintage yang indah. Setelah itu, ketika orang bangkit melawan komputer itu akan hidup muda kedua.
ttnphns
7
Pernahkah Anda mencoba menghitung statistik uji Fisher pada tabel besar? (Butuh waktu terlalu lama ...)
whuber
22
Selain komentar dan jawaban yang baik yang sudah Anda dapatkan, saya pikir pertanyaan yang lebih baik adalah "Mengingat kekuatan komputer, mengapa tidak melakukan tes simulasi / permutasi sepanjang waktu?".
Peter Flom
1
@whuber Saya melakukan implementasi (proprietary) tanpa (jumlah besar) tabel, di C ++. Ini menjalankan ribuan nilai P untuk angka hingga 8 digit dalam detik.
Michel de Ruiter
1
@Michel yang saya maksud adalah jumlah total sel dalam tabel. Perhitungannya mudah untuk 2 x 2 tabel, tetapi karena tabel tumbuh besar, perhitungannya menjadi berat.
whuber

Jawaban:

61

χ2

χ2PN1N


Dari R-help, 2009 :

Campbell, I. Chi-squared dan Fisher-Irwin menguji dua-dua tabel dengan rekomendasi sampel kecil. Statistik dalam Kedokteran 2007; 26 : 3661-3675. ( abstrak )

  • ... edisi terbaru dari buku Armitage merekomendasikan bahwa penyesuaian kontinuitas tidak pernah digunakan untuk tes chi-square tabel kontingensi;

  • E. Pearson modifikasi uji chi-square Pearson, berbeda dari aslinya dengan faktor (N-1) / N;

  • Cochran mencatat bahwa angka 5 dalam "frekuensi yang diharapkan kurang dari 5" adalah arbitrer;

  • Temuan dari studi yang dipublikasikan dapat diringkas sebagai berikut , untuk uji komparatif:

    1. Uji chi-squared Yate memiliki tingkat kesalahan tipe I kurang dari nominal, seringkali kurang dari setengah nominal;

    2. Uji Fisher-Irwin memiliki tingkat kesalahan tipe I kurang dari nominal;

    3. Versi K Pearson dari uji chi-squared memiliki tingkat kesalahan tipe I lebih dekat ke nominal daripada uji chi-squared Yate dan uji Fisher-Irwin, tetapi dalam beberapa situasi memberikan kesalahan tipe I yang jauh lebih besar daripada nilai nominal;

    4. Uji chi-squared 'N-1', berperilaku seperti versi K. N dari K. Pearson, tetapi kecenderungan untuk nilai yang lebih tinggi dari nilai nominal berkurang;

    5. Uji Fisher-Irwin dua sisi menggunakan aturan Irwin kurang konservatif daripada metode yang menggandakan probabilitas satu sisi;

    6. Uji mid-P Fisher-Irwin dengan menggandakan probabilitas satu-sisi berkinerja lebih baik daripada versi standar uji Fisher-Irwin, dan metode mid-P oleh aturan Irwin berkinerja lebih baik lagi dalam memiliki kesalahan tipe I aktual mendekati level nominal. ";

  • dukungan kuat untuk tes 'N-1' asalkan frekuensi yang diharapkan melebihi 1;

  • cacat dalam uji Fisher yang didasarkan pada premis Fisher bahwa total marjinal tidak membawa informasi yang berguna;

  • demonstrasi informasi yang berguna dalam ukuran sampel yang sangat kecil;

  • Penyesuaian kontinuitas Yate untuk N / 2 lebih besar dari koreksi dan tidak tepat;

  • argumen balik ada untuk penggunaan tes pengacakan dalam uji coba acak;

  • perhitungan kasus terburuk;

  • rekomendasi keseluruhan : gunakan uji chi-square 'N-1' ketika semua frekuensi yang diharapkan setidaknya 1, jika tidak gunakan uji Fisher-Irwin menggunakan aturan Irwin untuk tes dua sisi, mengambil tabel dari salah satu ekor kemungkinan, atau kurang, seperti yang diamati; lihat surat kepada editor oleh Antonio Andres dan balasan penulis dalam 27: 1791-1796; 2008


Crans GG, Shuster JJ. Seberapa konservatifkah tes Fisher? Evaluasi kuantitatif dari uji coba binomial komparatif dua sampel. Statistik dalam Kedokteran 2008; 27 : 3598-3611. ( abstrak )

  • ... makalah pertama yang benar-benar mengukur konservatif uji Fisher;

  • "ukuran uji FET kurang dari 0,035 untuk hampir semua ukuran sampel sebelum 50 dan tidak mendekati 0,05 bahkan untuk ukuran sampel lebih dari 100.";

  • kekonservasian metode "tepat";

  • lihat Stat dalam Med 28 : 173-179, 2009 untuk kritik yang tidak dijawab


2×2

  • P

  • nilai tes tanpa syarat;

  • lihat surat kepada editor 30: 890-891; 2011

Frank Harrell
sumber
1
Bisakah Anda menyarankan cara menerapkan koreksi (N-1) / N? Apakah ada kalkulator online yang memasukkan koreksi ini? Apakah ada cara mudah untuk secara manual menyesuaikan hasil uji chi-squared untuk membuat koreksi ini sendiri?
DW
Salah satu referensi yang saya sebutkan di atas adalah taruhan terbaik Anda.
Frank Harrell
1
χ2 χ2
2
Memberi label sesuatu sebagai "tepat" tidak membuatnya begitu. Lihat penjelasan indah di bawah ini oleh @suncoolsu yang pasti Anda lewatkan (Anda juga melewatkan semua penjelasan di atas). Tes Pearson bahkan lebih akurat daripada yang diperkirakan Pearson. Lihat citeulike.org/user/harrelfe/article/13265687 dan citeulike.org/user/harrelfe/article/13263676 misalnya. Tes "tepat" Fisher hanya tepat dalam arti bahwa kesalahan tipe I yang sebenarnya tidak lebih besar dari yang diklaim. Tetapi ternyata lebih kecil dari yang diklaim, sehingga kesalahan tipe II lebih tinggi, yang berarti lebih sedikit daya.
Frank Harrell
Saya tahu arti ketepatan. Titik tepat yang saya tidak suka dengan tes tidak tepat adalah kemungkinan bahwa kesalahan tipe I lebih tinggi dari tingkat nominal. Tapi Anda benar, saya salah membaca jawaban Anda dan yang lain (keduanya hebat)
Stéphane Laurent
47

Ini pertanyaan yang bagus.

Uji pasti Fisher adalah salah satu contoh hebat penggunaan cerdas Fisher dalam desain eksperimental , bersama-sama dengan pengkondisian pada data (pada dasarnya pada tabel dengan baris yang diamati dan total marjinal) dan kecerdikannya dalam menemukan distribusi probabilitas (meskipun ini bukan contoh terbaik , untuk contoh yang lebih baik lihat di sini ). Penggunaan komputer untuk menghitung "p-value" yang pasti telah membantu mendapatkan jawaban yang akurat.

Namun, sulit untuk membenarkan asumsi uji pasti Fisher dalam praktiknya. Karena yang disebut "tepat" berasal dari fakta bahwa dalam "pengalaman mencicipi teh" atau dalam kasus tabel kontingensi 2x2, total baris dan total kolom, yaitu total marjinal ditetapkan oleh desain. Asumsi ini jarang dibenarkan dalam praktik. Untuk referensi yang bagus lihat di sini .

Nama "tepat" membuat orang percaya bahwa nilai-p yang diberikan oleh tes ini tepat, yang lagi-lagi dalam kebanyakan kasus sayangnya tidak benar karena alasan ini

  1. Jika marginal tidak diperbaiki oleh desain (yang terjadi hampir setiap waktu dalam praktiknya), nilai-p akan konservatif.
  2. Karena tes ini menggunakan distribusi probabilitas diskrit (khususnya, distribusi Hyper-geometric), untuk cutoff tertentu tidak mungkin untuk menghitung "probabilitas nol eksak", yaitu nilai-p.

Dalam sebagian besar kasus praktis, menggunakan uji rasio kemungkinan atau uji Chi-square seharusnya tidak memberikan jawaban yang sangat berbeda (nilai-p) dari uji eksak Fisher. Ya, ketika marjinal diperbaiki, tes eksak Fisher adalah pilihan yang lebih baik, tetapi ini jarang terjadi. Oleh karena itu, menggunakan uji Chi-square dari uji rasio kemungkinan selalu dianjurkan untuk pemeriksaan konsistensi.

Gagasan serupa berlaku ketika uji eksak Fisher digeneralisasikan ke tabel mana pun, yang pada dasarnya setara dengan menghitung progresivitas Multivarian Hypergeometrik. Oleh karena itu kita harus selalu mencoba menghitung Chi-square dan distribusi-kemungkinan rasio berdasarkan nilai-p, selain "tepat" nilai-p.

suncoolsu
sumber