Goodness of fit untuk data diskrit: pendekatan terbaik

9

Data: Untuk keperluan pertanyaan / komunikasi ini kita dapat mengasumsikan data tampak seperti rnbinom(1000,size=0.1,prob=0.01)dalam R, yang menghasilkan sampel acak dari 1.000 pengamatan dari distribusi binomial negatif (dengan size=0.1dan probabilitas keberhasilan prob=0.01). Ini adalah parametrization di mana variabel acak mewakili jumlah kegagalan sebelum sizejumlah keberhasilan. Ekornya panjang, dan 1.000 pengamatan tidak banyak data.

Masalahnya: Saya telah diberikan beberapa data (bilangan bulat pada {1,2, ....}) [lihat di atas] (1.500 titik data) dan diminta untuk menemukan distribusi "paling cocok" dan perkiraan parameter apa pun. Saya tidak tahu apa-apa tentang data. Saya sadar saya ini bukan sampel yang sangat besar untuk data dengan ekor panjang. Lebih banyak data adalah suatu kemungkinan.

Apa yang telah saya lakukan: Saya telah mempertimbangkan untuk menggunakan uji rasio kemungkinan dengan memasukkan dua distribusi yang berbeda ke data, tetapi saya tidak berpikir ini berlaku (seperti pada, saya tidak dapat menentukan nilai-p kritis yang tepat) kecuali dua distribusi tersebut bersarang ...

Saya kemudian mempertimbangkan untuk menggunakan tes Kolmogorov-Smirnov (disesuaikan untuk data diskrit) tetapi, dalam R, itu mengeluh tidak bisa menghitung nilai p untuk "data dengan ikatan".

Apa cara terbaik bagi saya untuk menguji / menentukan kesesuaian distribusi yang berbeda dalam konteks ini? Berikut adalah beberapa hal lain yang saya pertimbangkan:

  1. Mintalah (banyak) lebih banyak data. Tetapi apakah ini akan membantu? Apakah saya dapat menggunakan hasil asimptotik, misalnya?
  2. Pertimbangkan skema bootstrap / re-sampling / monte-carlo? Jika demikian, adakah referensi standar yang dapat / harus saya baca untuk mempelajari cara melakukannya dengan benar? Terima kasih
Rusan Kax
sumber

Jawaban:

6

Jika saya memahami pertanyaan Anda dengan benar, Anda hanya perlu menyesuaikan data dengan distribusi . Dalam hal ini, Anda bisa menggunakan salah satu fungsi dalam paket R, seperti fitdistrdari MASSpaket, yang menggunakan estimasi kemungkinan maksimum (MLE) dan mendukung distribusi diskrit , termasuk binomial dan Poisson .

Kemudian, sebagai langkah kedua, Anda perlu melakukan satu (atau lebih ) tes goodness-of-fit (GoF) untuk memvalidasi hasil . Tes Kolillogorov -Smirnov , Anderson-Darling dan (AFAIK) semua tidak berlaku untuk distribusi diskrit. Namun, untungnya, uji GoF chi-square berlaku untuk distribusi kontinu dan diskrit dan dalam R adalah masalah fungsi panggilan .stats::chisq.test()

Atau , karena data Anda mewakili distribusi diskrit, Anda dapat menggunakan vcdpaket dan fungsinya goodfit(). Fungsi ini dapat digunakan sebagai pengganti uji GoF standar chisq.test(), atau, bahkan lebih baik, sebagai alur kerja penuh ( distribusi distribusi dan pengujian GoF ). Untuk opsi alur kerja penuh , cukup gunakan pengaturan default dan jangan tentukan parameter par(Anda dapat menentukan size, jika type = "nbinomial"). Parameter akan diperkirakan, menggunakan kemungkinan maksimum atau chi-square minimum (Anda dapat memilih metode). Hasil dapat diperoleh dengan memanggil summary()fungsi.

Aleksandr Blekh
sumber
3
Sebenarnya, tes KS diskrit memang ada: stat.yale.edu/~jay/EmersonMaterials/DiscreteGOF.pdf
Astrid
@Arrid Bagus! Terima kasih atas pembaruan Anda dan Selamat Tahun Baru!
Aleksandr Blekh
Empat tahun lebih baik terlambat daripada tidak pernah: D Selamat tahun baru untukmu juga!
Astrid
1
@Arrid "... lebih baik terlambat daripada tidak pernah" - tidak bisa berdebat dengan itu. :-) Terima kasih!
Aleksandr Blekh