Saya pernah membaca bahwa uji Kolmogorov-Smirnov tidak boleh digunakan untuk menguji kebaikan kesesuaian distribusi yang parameternya telah diperkirakan dari sampel.
Apakah masuk akal untuk membagi sampel saya menjadi dua dan menggunakan paruh pertama untuk estimasi parameter dan yang kedua untuk uji KS?
Terima kasih sebelumnya
estimation
fitting
kolmogorov-smirnov
sortega
sumber
sumber
Jawaban:
Pendekatan yang lebih baik adalah menghitung nilai kritis nilai-p Anda dengan simulasi. Masalahnya adalah bahwa ketika Anda memperkirakan parameter dari data daripada menggunakan nilai-nilai hipotesis maka distribusi statistik KS tidak mengikuti distribusi nol.
Anda bisa mengabaikan nilai-p dari tes KS dan sebaliknya mensimulasikan sekelompok dataset dari distribusi kandidat (dengan set parameter yang bermakna) dengan ukuran yang sama dengan data asli Anda. Kemudian untuk setiap set, estimasi parameter dan lakukan uji KS menggunakan parameter estimasi. Nilai p Anda akan menjadi proporsi statistik uji dari set simulasi yang lebih ekstreeme daripada untuk data asli Anda.
sumber
Pemisahan sampel mungkin dapat mengurangi masalah dengan distribusi statistik, tetapi tidak menghapusnya.
Gagasan Anda menghindari masalah bahwa perkiraan akan 'terlalu dekat' relatif terhadap nilai populasi karena didasarkan pada sampel yang sama.
Anda tidak menghindari masalah yang masih diperkirakan. Distribusi statistik uji bukan yang ditabulasi.
Dalam hal ini meningkatkan tingkat penolakan di bawah nol, bukannya mengurangi secara dramatis.
Pilihan yang lebih baik adalah menggunakan tes di mana parameter tidak dianggap diketahui, seperti Shapiro Wilk.
Jika Anda menggunakan jenis tes Kolmogorov-Smirnov, Anda dapat mengambil pendekatan tes Lilliefors.
Artinya, untuk menggunakan statistik KS tetapi memiliki distribusi statistik uji mencerminkan efek estimasi parameter - mensimulasikan distribusi statistik uji di bawah estimasi parameter. (Tidak lagi bebas distribusi, jadi Anda perlu tabel baru untuk setiap distribusi.)
http://en.wikipedia.org/wiki/Lilliefors_test
Liliefors menggunakan simulasi untuk kasus normal dan eksponensial, tetapi Anda dapat dengan mudah melakukannya untuk distribusi tertentu; dalam sesuatu seperti R itu masalah saat untuk mensimulasikan 10.000 atau 100.000 sampel dan mendapatkan distribusi statistik uji di bawah nol.
[Alternatif mungkin untuk mempertimbangkan Anderson-Darling, yang memang memiliki masalah yang sama, tetapi yang - menilai dari buku karya D'Agostino dan Stephens ( Goodness-of-fit-teknik ) tampaknya kurang sensitif terhadapnya. Anda bisa mengadaptasi ide Lilliefors, tetapi mereka menyarankan penyesuaian yang relatif sederhana yang tampaknya bekerja dengan cukup baik.]
Namun masih ada pendekatan lain; ada keluarga uji kelancaran goodness of fit, misalnya (misalnya, lihat buku karya Rayner dan Best) yang dalam sejumlah kasus tertentu dapat menangani estimasi parameter.
* efeknya masih bisa cukup besar - mungkin lebih besar dari biasanya dianggap dapat diterima; Momo benar untuk mengungkapkan kekhawatirannya. Jika tingkat kesalahan tipe I yang lebih tinggi (dan kurva daya yang lebih rata) adalah masalah, maka ini mungkin bukan peningkatan!
sumber
Saya khawatir itu tidak akan menyelesaikan masalah. Saya percaya masalahnya bukan bahwa parameter diperkirakan dari sampel yang sama tetapi dari sampel apa pun . Derivasi dari distribusi nol biasa dari tes KS tidak memperhitungkan kesalahan estimasi dalam parameter dari distribusi referensi, melainkan melihatnya sebagai diberikan. Lihat juga Durbin 1973 yang membahas masalah ini secara panjang lebar dan menawarkan solusi.
sumber