Uji Chi-square untuk persamaan distribusi: berapa banyak nol yang ditoleransi?

10

Saya membandingkan dua kelompok mutan yang masing-masing hanya dapat memiliki satu dari 21 fenotipe yang berbeda. Saya ingin melihat apakah distribusi hasil ini sama antara dua kelompok. Saya menemukan tes online yang menghitung "uji Chi-square untuk kesetaraan distribusi" dan memberi saya beberapa hasil yang masuk akal. Namun, saya memiliki beberapa nol di Tabel ini, jadi bisakah saya menggunakan chi-square dalam kasus ini?

Ini adalah tabel dengan dua kelompok dan jumlah fenotipe tertentu:

2 1
2 3
1 6
1 4
13 77
7 27
0 1
0 4
0 2
2 7
2 3
1 5
1 9
2 6
0 3
3 0
1 3
0 3
1 0
1 2
0 1
Membran
sumber
Meja tidak keluar dengan benar. Setiap angka ganjil adalah hitungan dari grup 1 dan setiap angka genap adalah hitungan masing-masing dari grup 2
Membran
Saya telah memformat ulang pertanyaan Anda. Apakah meja sekarang benar?
csgillespie

Jawaban:

8

Sangat layak hari ini untuk melakukan tes 'tepat' Fisher di atas meja seperti itu. Saya baru saja mendapat p = 0,087 menggunakan Stata ( tabi 2 1 \ 2 3 \ .... , exact. Eksekusi butuh 0,19 detik).

Sunting setelah komentar chl di bawah ini (mencoba menambahkan sebagai komentar tetapi tidak dapat memformat):

Ia bekerja di R 2.12.0 untuk saya, meskipun saya harus meningkatkan opsi 'workspace' di atas nilai default 200000:

> fisher.test(x)
Error in fisher.test(x) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
> system.time(result<-fisher.test(x, workspace = 400000))
   user  system elapsed 
   0.11    0.00    0.11 
> result$p.value
[1] 0.0866764

(Waktu pelaksanaannya sedikit lebih cepat daripada di Stata, tapi itu relevansi yang meragukan mengingat waktu yang dibutuhkan untuk mencari tahu makna pesan kesalahan, yang menggunakan 'ruang kerja' untuk mengartikan sesuatu yang berbeda dari makna R yang biasa meskipun fakta bahwa fisher.test adalah bagian dari paket 'statistik' inti R.)

onestop
sumber
1
Menarik, tes Fisher jatuh pada R.
chl
Tidak dapat memilih lagi, maaf. Sepertinya saya belum cukup meningkatkan wksp :)
chl
Bukankah tes "tepat" Fisher sebenarnya menjawab pertanyaan yang sedikit berbeda: "... digunakan untuk menguji signifikansi hubungan (kontingensi) antara dua jenis klasifikasi" (halaman wiki). Dalam kasus saya, saya berusaha untuk mengkonfirmasi (atau membantah) hipotesis bahwa distribusi fenotipe antara 2 kelompok adalah serupa (sama). Ketika saya menemukan tes online itu (lihat posting pertama) bernama "Chi-square test untuk persamaan distribusi" Saya pikir itu tepat untuk masalah saya ...
Membran
Juga, jika Anda berpikir bahwa versi yang disebutkan dari uji Fisher baik untuk membandingkan dua distribusi, dapat juga digunakan untuk memeriksa keseragaman distribusi (yaitu untuk mengatakan bahwa fenotipe dalam satu kelompok didistribusikan secara tidak seragam antara sejumlah terbatas fenotipe yang mungkin) ? Orang dapat melakukan ini bahkan di Excel menggunakan fungsi CHITEST, tetapi bagaimana jika saya memiliki distribusi yang mirip dengan yang di atas, dengan banyak fenotipe diamati kurang dari 5 kali?
Membran
@ Membran # 1: Ini adalah pertanyaan yang sedikit berbeda karena kondisi pengujian Fisher yang tepat pada kedua set total marginal. Bagi saya ini kelihatan seperti statistik akademik, dan saya seorang ahli statistik di bidang akademik. (BTW dapatkah Anda mengklarifikasi ke wiki mana yang Anda rujuk?) @Membran # 2: Saya tidak akan menyebut tes eksak bersyarat "Fisher's exact test" dalam kasus tabel satu arah, tetapi tes semacam itu harus dimungkinkan. Dan saya akan berpikir lebih mudah untuk tabel satu arah, tetapi saat ini saya tidak dapat menemukan perangkat lunak untuk membantu dan saya tidak punya waktu untuk melakukan perhitungan tanpa.
onestop
5

Pedoman yang biasa adalah bahwa penghitungan yang diharapkan harus lebih besar dari 5, tetapi bisa agak santai seperti yang dibahas dalam artikel berikut:

Campbell, I, Chi-squared dan Fisher-Irwin menguji dua-dua tabel dengan rekomendasi sampel kecil , Statistics in Medicine (2007) 26 (19): 3661-3675.

Lihat juga beranda Ian Campbell .

Perhatikan bahwa dalam R, selalu ada kemungkinan untuk menghitung nilai dengan pendekatan Monte Carlo ( ), alih-alih mengandalkan distribusi asimptotik.pchisq.test(..., sim=TRUE)

Dalam kasus Anda, tampak bahwa sekitar 80% dari jumlah yang diharapkan di bawah 5, dan 40% di bawah 1. Apakah masuk akal untuk mengumpulkan beberapa fenotipe yang diamati?

chl
sumber
Terima kasih atas sarannya. Secara logis, tidak mungkin untuk menggabungkan fenotipe karena masing-masing merupakan kombinasi unik dari tiga parameter yang direkam. Karena masing-masing parameter ini dapat naik "naik", "turun" atau tetap "tidak berubah" sebagai akibat dari mutasi, sehingga dapat ada 3 ^ 3 = 27 fenotipe yang berbeda. Dalam contoh di atas saya menghapus fenotipe yang kedua kelompok mencetak "0", jadi hanya ada 21 di antaranya. Saya memang melihat prevalensi fenotipe tertentu tetapi saya ingin memiliki bukti statistik bahwa distribusi fenotipe tersebut dalam berbagai kelompok mutan serupa (atau tidak). Terima kasih!
Membran
1
@Membran Aggregation tidak harus bermakna: Anda bebas untuk menggabungkan tempat sampah sesuka Anda. Masalah yang halus, bagaimanapun, adalah bahwa agregasi post-facto membuat nilai-p ragu; agregasi harus independen dari data.
whuber