Aturan untuk menerapkan simulasi Monte Carlo dari nilai-p untuk uji chi-squared

9

Saya ingin memahami penggunaan simulasi Monte Carlo dalam chisq.test()fungsi di R.

Saya memiliki variabel kualitatif yang memiliki 128 level / kelas. Ukuran sampel saya adalah 26 (saya tidak dapat mengambil sampel lebih banyak "individu"). Jadi jelas, saya akan memiliki beberapa level dengan 0 "individu". Tetapi kenyataannya adalah bahwa saya hanya memiliki sejumlah kecil kelas yang diwakili dari 127 yang mungkin. Ketika saya telah mendengar bahwa untuk menerapkan uji chi-squared kita harus memiliki setidaknya 5 orang di setiap level (saya tidak sepenuhnya memahami alasannya), saya pikir saya harus menggunakan simulate.p.valueopsi untuk menggunakan simulasi Monte Carlo untuk memperkirakan distribusi dan menghitung nilai p. Tanpa simulasi Monte Carlo, R memberi saya nilai p < 1e-16. Dengan simulasi Monte Carlo, itu memberi saya nilai p di 4e-5.

Saya mencoba untuk menghitung nilai-p dengan vektor 26 dan 101 nol, dan dengan simulasi Monte-Carlo, saya mendapatkan nilai-p pada 1.

Apakah boleh menyatakan bahwa, bahkan jika ukuran sampel saya kecil dibandingkan dengan jumlah kelas yang mungkin, distribusi yang diamati sedemikian rupa sehingga sangat tidak mungkin bahwa semua kelas yang mungkin ada pada probabilitas yang sama (1/127) dalam populasi nyata ?

jtextori
sumber
3
Jika data Anda benar-benar bahwa Anda mengamati 26 kelas yang berbeda dari sampel 26, maka pada dasarnya Anda tidak memiliki bukti terhadap hipotesis bahwa semua 127 kelas memiliki probabilitas yang sama. Ini dapat dinilai dengan perhitungan distribusi multinomial.
whuber
1
" Seperti yang saya dengar bahwa untuk menerapkan uji chi-squared kita harus memiliki setidaknya 5 orang di setiap level (saya tidak sepenuhnya memahami alasan untuk itu) " - tidak cukup. Nasihat asli adalah bahwa penghitungan yang diharapkan , bukan penghitungan yang sebenarnya harus setidaknya 5. Tujuan dengan aturan (yang sudah lama ketinggalan) adalah untuk mencoba memastikan distribusi chi-square adalah perkiraan yang wajar untuk distribusi diskrit dari statistik uji. Nasihat dari sekian banyak makalah selama 4 dekade terakhir ini adalah 'aturannya agak terlalu ketat'.
Glen_b -Reinstate Monica

Jawaban:

6

Dengan mencari, tampaknya titik Simulasi Monte-Carlo adalah untuk menghasilkan distribusi referensi, berdasarkan sampel yang dihasilkan secara acak yang akan memiliki ukuran yang sama dengan sampel yang diuji, untuk menghitung nilai-p ketika kondisi pengujian tidak terpenuhi.

Ini dijelaskan dalam Hope A. J Royal Stat Society Seri B (1968) yang dapat ditemukan di JSTOR .

Berikut ini kutipan yang relevan dari makalah Hope:

Prosedur uji signifikansi Monte-Carlo terdiri dari perbandingan data yang diamati dengan sampel acak yang dihasilkan sesuai dengan hipotesis yang diuji. ... Lebih disukai menggunakan uji yang diketahui tentang efisiensi yang baik alih-alih prosedur uji Monte-Carlo dengan asumsi bahwa hipotesis statistik alternatif dapat ditentukan secara lengkap. Namun, tidak selalu mungkin untuk menggunakan tes seperti itu karena kondisi yang diperlukan untuk menerapkan tes mungkin tidak terpenuhi, atau distribusi yang mendasarinya mungkin tidak diketahui atau mungkin sulit untuk memutuskan kriteria pengujian yang tepat.

jtextori
sumber