Bagaimana saya bisa mengecek apakah data saya mis. Gaji berasal dari distribusi eksponensial berkelanjutan dalam R?
Ini histogram dari sampel saya:
. Bantuan apa pun akan sangat dihargai!
r
distributions
goodness-of-fit
exponential
bersabar
sumber
sumber
fitdistr
di R. Ini menyesuaikan fungsi kepadatan probabilitas (pdf) berdasarkan metode estimasi kemungkinan maksimum (MLE). Juga mencari dalam istilah situs ini sebagai pdf, fitdistr, mle dan pertanyaan serupa akan muncul. Ingatlah bahwa pertanyaan seperti itu hampir membutuhkan contoh yang dapat direproduksi untuk mengumpulkan jawaban yang baik. Juga, akan membantu jika pertanyaannya tidak murni tentang pemrograman (yang mungkin membuatnya ditunda sebagai topik yang tidak dibahas).Jawaban:
Saya akan melakukannya dengan terlebih dahulu memperkirakan hanya
rate
menggunakan parameter distribusifitdistr
. Ini tidak akan memberi tahu Anda apakah distribusinya cocok atau tidak, jadi Anda harus menggunakan uji goodness of fit . Untuk ini, Anda dapat menggunakanks.test
:Dari pengalaman pribadi saya (meskipun saya belum pernah menemukannya secara resmi di mana pun, harap konfirmasikan atau koreksi saya),
ks.test
hanya akan berjalan jika Anda memberikan perkiraan parameter terlebih dahulu. Anda tidak dapat membiarkannya memperkirakan parameter secara otomatis seperti misalnyagoodfit
melakukannya. Itu sebabnya Anda membutuhkan prosedur dua langkah inifitdistr
.Untuk info lebih lanjut ikuti panduan yang sangat baik dari Ricci: PEMASANGAN DISTRIBUSI DENGAN R .
sumber
Walaupun saya biasanya merekomendasikan memeriksa eksponensial dengan menggunakan plot diagnostik (seperti plot QQ), saya akan membahas tes, karena orang sering menginginkannya:
Seperti yang disarankan Tomas, tes Kolmogorov-Smirnov tidak cocok untuk menguji eksponensialitas dengan parameter yang tidak ditentukan.
Namun, jika Anda menyesuaikan tabel untuk estimasi parameter, Anda mendapatkan tes Lilliefors untuk distribusi eksponensial.
Lilliefors, H. (1969), "Pada uji Kolmogorov-Smirnov untuk distribusi eksponensial dengan mean tidak diketahui", Jurnal Asosiasi Statistik Amerika , Vol. 64. hlm. 387-389.
Penggunaan tes ini dibahas dalam Conover's Statistik Nonparametrik Praktis .
Namun, di D'Agostino & Stephens ' Teknik Kebaikan , mereka membahas modifikasi serupa dari uji Anderson-Darling (agak tidak jelas jika saya ingat benar, tetapi saya pikir semua informasi yang diperlukan tentang cara mendekatinya untuk kasus eksponensial adalah dapat ditemukan dalam buku), dan itu hampir pasti memiliki lebih banyak kekuatan terhadap alternatif yang menarik.
Akhirnya, orang mungkin mengambil pendekatan uji kelancaran , seperti dalam buku karya Rayner & Best ( Tes Kelancaran Goodness of Fit) , 1990 - meskipun saya percaya ada yang lebih baru, dengan Thas dan " dalam R " ditambahkan ke judul). Kasus eksponensial juga tercakup dalam:
JCW Rayner dan DJ Best (1990), "Uji Kelancaran Goodness of Fit: An Overview", Statistik Internasional , Vol. 58, No. 1 (Apr., 1990), hlm. 9-17
Cosma Shalizi juga membahas tes mulus dalam satu bab dari catatan kuliah Analisis Data Lanjutan Sarjana , atau lihat Ch15 bukunya Analisis Data Lanjutan dari Sudut Pandang Dasar .
Untuk beberapa hal di atas, Anda mungkin perlu mensimulasikan distribusi statistik uji; untuk tabel lain tersedia (tetapi dalam beberapa kasus, mungkin akan lebih mudah untuk mensimulasikan, atau bahkan lebih akurat untuk mensimulasikan diri Anda, seperti dengan tes Lilliefors, karena ukuran simulasi terbatas pada aslinya).
sumber
Anda dapat menggunakan plot-qq , yang merupakan metode grafis untuk membandingkan dua distribusi probabilitas dengan memplot kuantilnya satu sama lain.
Di R, tidak ada fungsi qq-plot out-of-the-box untuk distribusi eksponensial secara khusus (setidaknya di antara fungsi-fungsi dasar). Namun, Anda dapat menggunakan ini:
Sementara menginterpretasikan hasil Anda: Jika dua distribusi yang dibandingkan adalah serupa, titik-titik dalam plot qq kira-kira akan terletak pada baris y = x. Jika distribusi terkait linier, titik-titik dalam plot qq kira-kira akan terletak pada garis, tetapi tidak harus pada garis y = x.
sumber
qexp
dari SSC adalah implementasi kalengan.