Data:
Untuk keperluan pertanyaan / komunikasi ini kita dapat mengasumsikan data tampak seperti rnbinom(1000,size=0.1,prob=0.01)
dalam R, yang menghasilkan sampel acak dari 1.000 pengamatan dari distribusi binomial negatif (dengan size=0.1
dan probabilitas keberhasilan prob=0.01
). Ini adalah parametrization di mana variabel acak mewakili jumlah kegagalan sebelum size
jumlah keberhasilan. Ekornya panjang, dan 1.000 pengamatan tidak banyak data.
Masalahnya: Saya telah diberikan beberapa data (bilangan bulat pada {1,2, ....}) [lihat di atas] (1.500 titik data) dan diminta untuk menemukan distribusi "paling cocok" dan perkiraan parameter apa pun. Saya tidak tahu apa-apa tentang data. Saya sadar saya ini bukan sampel yang sangat besar untuk data dengan ekor panjang. Lebih banyak data adalah suatu kemungkinan.
Apa yang telah saya lakukan: Saya telah mempertimbangkan untuk menggunakan uji rasio kemungkinan dengan memasukkan dua distribusi yang berbeda ke data, tetapi saya tidak berpikir ini berlaku (seperti pada, saya tidak dapat menentukan nilai-p kritis yang tepat) kecuali dua distribusi tersebut bersarang ...
Saya kemudian mempertimbangkan untuk menggunakan tes Kolmogorov-Smirnov (disesuaikan untuk data diskrit) tetapi, dalam R, itu mengeluh tidak bisa menghitung nilai p untuk "data dengan ikatan".
Apa cara terbaik bagi saya untuk menguji / menentukan kesesuaian distribusi yang berbeda dalam konteks ini? Berikut adalah beberapa hal lain yang saya pertimbangkan:
- Mintalah (banyak) lebih banyak data. Tetapi apakah ini akan membantu? Apakah saya dapat menggunakan hasil asimptotik, misalnya?
- Pertimbangkan skema bootstrap / re-sampling / monte-carlo? Jika demikian, adakah referensi standar yang dapat / harus saya baca untuk mempelajari cara melakukannya dengan benar? Terima kasih
sumber