Kapan dan bagaimana cara menghindari penggunaan uji eksak Fisher yang tidak tepat

7

Bisakah seseorang menjelaskan mengapa Richard McElreath mengatakan uji pasti Fisher jarang digunakan secara tepat dalam buku pengantar Bayesiannya yang sangat bagus ( Statistical Rethinking )?

Untuk referensi, konteksnya adalah di bawah ini:

Mengapa tes tidak cukup untuk penelitian inovatif? Prosedur klasik dari statistik pengantar cenderung tidak fleksibel dan rapuh. Dengan tidak fleksibel, maksud saya bahwa mereka memiliki cara yang sangat terbatas untuk beradaptasi dengan konteks penelitian yang unik. Dengan rapuh, maksud saya bahwa mereka gagal dengan cara yang tidak terduga ketika diterapkan pada konteks baru. Ini penting, karena pada batas-batas sebagian besar ilmu, hampir tidak pernah jelas prosedur mana yang sesuai. Tak satu pun dari golem tradisional telah dievaluasi dalam pengaturan penelitian baru, sehingga sulit untuk memilih satu dan kemudian memahami bagaimana perilakunya.Contoh yang baik adalah uji eksak Fisher, yang berlaku (tepat) untuk konteks empiris yang sangat sempit, tetapi secara teratur digunakan setiap kali jumlah sel kecil. Saya secara pribadi telah membaca ratusan penggunaan uji eksak Fisher dalam jurnal ilmiah, tetapi selain dari penggunaan asli Fisher, saya belum pernah melihatnya menggunakannya dengan tepat. Bahkan prosedur seperti regresi linier biasa, yang cukup fleksibel dalam banyak hal, mampu menyandikan beragam hipotesis menarik, terkadang rapuh. Misalnya, jika ada kesalahan pengukuran substansial pada variabel prediksi, maka prosedur dapat gagal dengan cara yang spektakuler. Tetapi yang lebih penting, hampir selalu memungkinkan untuk melakukan lebih baik daripada regresi linier biasa, sebagian besar karena fenomena yang dikenal sebagai overfitting.

Hanice
sumber
3
Lihat stats.stackexchange.com/q/136584/17230 . Ketika tes Fisher yang tepat tepat masih bisa diperdebatkan - pasti sudah ada perdebatan sejak Fisher muncul.
Scortchi
1
Tinjauan besar dan baru-baru ini tentang topik ini dan kontroversi diberikan oleh Choi et al. (2015): Menjelaskan dasar-dasar inferensi statistik dengan tabel 2x2 .
COOLSerdash
1
@COOLSerdash: Itu adalah penemuan yang luar biasa, & berisi jawaban yang ingin saya tulis, terbebas dari kendala waktu & kekuatan otak; dan masih banyak lagi. Juga semua atau sebagian besar referensi yang ingin saya berikan; Saya akan melihat apakah saya punya lagi & menambahkannya ke jawaban saya.
Scortchi

Jawaban:

8

Sulit untuk membaca kutipan ini & tidak menduga bahwa penulis menganggap itu hanya kesalahan untuk menggunakan Fisher's Exact Test ketika total marginal dari tabel kontingensi tidak diperbaiki oleh desain. "Penggunaan asli Fisher" dari tes harus mengacu pada wanita yang terkenal mencicipi teh yang "telah diberitahu sebelumnya tentang apa yang akan terdiri dari tes, yaitu bahwa ia akan diminta untuk mencicipi delapan cangkir, bahwa ini akan menjadi empat dari masing-masing jenis, [...] "(Fisher (1935), Desain Eksperimen ); & kemudian "konteks empiris yang sangat sempit" diurai sebagai "skema pengambilan sampel yang berlaku untuk beberapa studi yang dilakukan dalam praktik".

Tapi itu bukan kesalahan: mengkondisikan statistik yang cukup untuk distribusi data di bawah hipotesis nol adalah teknik standar untuk menghilangkan parameter gangguan & menghasilkan tes dengan ukuran yang benar (itulah dasar dari tes permutasi). Total marginal mengandung sangat sedikit informasi yang dapat Anda gunakan untuk memperkirakan parameter bunga, rasio odds; & agak banyak tentang ketepatan yang dapat Anda perkirakan: argumennya adalah bahwa ruang sampel yang diperoleh dengan mengkondisikan keduanya jauh lebih relevan untuk inferensi daripada yang diperoleh dengan mengkondisikan pada satu saja, atau pada jumlah total saja. Namun, ini adalah ruang sampel yang sangat kasar, mengakibatkan hilangnya kekuatan yang menyedihkan. Bagaimana seharusnya relevansi ruang sampel diseimbangkan terhadap kehilangan informasi? Seberapa banyak kekasaran ruang sampel dapat diterima sebelum uji asymptotically valid atau tanpa syarat lebih disukai? Ini adalah pertanyaan yang menjengkelkan, & analisis tabel kontingensi dua-dua telah kontroversial selama setengah abad atau lebih.

Mengingat bahwa ini berasal dari teks Bayesian, saya pikir penulis melewatkan kesempatan untuk mengolok-olok dilema yang dapat ditimbulkan oleh komitmen terhadap penggunaan metode yang sering terjadi — seperti yang dilakukan Jaynes dalam Probability Theory: The Logic of Science

† Dalam sebuah makalah yang diterbitkan pada tahun yang sama dengan bukunya, ia menggunakan contoh di mana, meskipun skema pengambilan sampel tidak diberikan secara eksplisit, paling banyak satu margin bisa diperbaiki sebelumnya, & kemungkinan besar hanya jumlah total yang ditetapkan. Kembar suka-jenis dari penjahat yang dihukum dikategorikan sebagai monozigot vs dizygotik & sebagai terpidana atas kejahatan itu sendiri vs tidak dihukum dalam tabel dua-dua (Fisher (1935), "Logika Induksi kesimpulan", JRSS, 98 , 1, hlm 39-82). [Sunting: Data berasal dari Lange (1929), Verbrechen als Schicksal: Studien am kriminellen Zwillingen . Wetzell (2000), Inventing the Criminal: A History of German Criminology, 1880–1945 , p 162] menjelaskan prosedur pengumpulan data Lange; Itu'

Scortchi - Reinstate Monica
sumber