Saya ingin memahami penggunaan simulasi Monte Carlo dalam chisq.test()
fungsi di R.
Saya memiliki variabel kualitatif yang memiliki 128 level / kelas. Ukuran sampel saya adalah 26 (saya tidak dapat mengambil sampel lebih banyak "individu"). Jadi jelas, saya akan memiliki beberapa level dengan 0 "individu". Tetapi kenyataannya adalah bahwa saya hanya memiliki sejumlah kecil kelas yang diwakili dari 127 yang mungkin. Ketika saya telah mendengar bahwa untuk menerapkan uji chi-squared kita harus memiliki setidaknya 5 orang di setiap level (saya tidak sepenuhnya memahami alasannya), saya pikir saya harus menggunakan simulate.p.value
opsi untuk menggunakan simulasi Monte Carlo untuk memperkirakan distribusi dan menghitung nilai p. Tanpa simulasi Monte Carlo, R memberi saya nilai p < 1e-16
. Dengan simulasi Monte Carlo, itu memberi saya nilai p di 4e-5
.
Saya mencoba untuk menghitung nilai-p dengan vektor 26 dan 101 nol, dan dengan simulasi Monte-Carlo, saya mendapatkan nilai-p pada 1.
Apakah boleh menyatakan bahwa, bahkan jika ukuran sampel saya kecil dibandingkan dengan jumlah kelas yang mungkin, distribusi yang diamati sedemikian rupa sehingga sangat tidak mungkin bahwa semua kelas yang mungkin ada pada probabilitas yang sama (1/127) dalam populasi nyata ?
sumber
Jawaban:
Dengan mencari, tampaknya titik Simulasi Monte-Carlo adalah untuk menghasilkan distribusi referensi, berdasarkan sampel yang dihasilkan secara acak yang akan memiliki ukuran yang sama dengan sampel yang diuji, untuk menghitung nilai-p ketika kondisi pengujian tidak terpenuhi.
Ini dijelaskan dalam Hope A. J Royal Stat Society Seri B (1968) yang dapat ditemukan di JSTOR .
Berikut ini kutipan yang relevan dari makalah Hope:
sumber