Dapatkah saya menggunakan tes Kolmogorov-Smirnov dan memperkirakan parameter distribusi?

14

Saya pernah membaca bahwa uji Kolmogorov-Smirnov tidak boleh digunakan untuk menguji kebaikan kesesuaian distribusi yang parameternya telah diperkirakan dari sampel.

Apakah masuk akal untuk membagi sampel saya menjadi dua dan menggunakan paruh pertama untuk estimasi parameter dan yang kedua untuk uji KS?

Terima kasih sebelumnya

sortega
sumber
1
Distribusi apa yang ingin Anda uji dan mengapa?
gung - Reinstate Monica
Saya menduga data mengikuti distribusi eksponensial.
sortega

Jawaban:

13

Pendekatan yang lebih baik adalah menghitung nilai kritis nilai-p Anda dengan simulasi. Masalahnya adalah bahwa ketika Anda memperkirakan parameter dari data daripada menggunakan nilai-nilai hipotesis maka distribusi statistik KS tidak mengikuti distribusi nol.

Anda bisa mengabaikan nilai-p dari tes KS dan sebaliknya mensimulasikan sekelompok dataset dari distribusi kandidat (dengan set parameter yang bermakna) dengan ukuran yang sama dengan data asli Anda. Kemudian untuk setiap set, estimasi parameter dan lakukan uji KS menggunakan parameter estimasi. Nilai p Anda akan menjadi proporsi statistik uji dari set simulasi yang lebih ekstreeme daripada untuk data asli Anda.

Greg Snow
sumber
2
Saya menemukan solusinya sedikit membingungkan (setidaknya untuk saya); apa yang Anda maksud dengan "seperangkat parameter yang berarti" untuk distribusi kandidat? Anda awalnya tidak tahu parameter dari distribusi kandidat, bagaimana Anda tahu apa itu "set parameter yang bermakna" itu?
Néstor
Anda dapat mencoba set parameter yang berbeda untuk melihat apakah ada bedanya atau tidak (untuk normal tidak, tetapi beberapa distribusi mungkin). Kemudian pikirkan tentang ilmu di balik data Anda, atau berbicara dengan seorang ahli di bidang ini, Anda harus bisa mendapatkan ide umum di mana untuk memulai, misalnya saya sudah tahu berapa tinggi rata-rata pria dewasa di Nigeria, tapi saya cukup yakin bahwa itu positif dan kurang dari 3 meter.
Greg Snow
@ GrregSnow saya menemukan posting ini karena relevan dengan pekerjaan saya saat ini. Saya bertanya-tanya apakah ada pembenaran teoretis untuk metode yang Anda sarankan? Artinya, bagaimana kita tahu bahwa "nilai-p" yang diusulkan memang didistribusikan secara seragam dari 0 ke 1? Nilai p yang diusulkan tampaknya tidak menjadi nilai p konvensional karena hipotesis Null sekarang adalah seperangkat distribusi
renrenthehamster
@renrenthehamster, Anda punya poin bagus, itu sebabnya saya menyarankan simulasi dalam kondisi yang berbeda. Untuk beberapa distribusi (saya harapkan yang normal) tidak masalah, tetapi yang lain mungkin memerlukan cut-off yang berbeda untuk nilai parameter true yang berbeda. Jika demikian, maka pengguna (Anda) perlu menemukan nol bermakna untuk diuji yang mencakup bentuk distribusi dan satu set atau rentang parameter yang Anda sukai.
Greg Snow
1
@LilyLong, simulasi dulu jauh lebih sulit dan memakan waktu, sehingga tes dikembangkan menjadi lebih cepat / mudah daripada simulasi, beberapa tabel awal dibuat oleh simulasi. Banyak tes sekarang dapat dengan mudah diganti dengan simulasi, tetapi mungkin akan bersama kami untuk sementara waktu lebih lama karena tradisi dan kesederhanaan.
Greg Snow
7

Pemisahan sampel mungkin dapat mengurangi masalah dengan distribusi statistik, tetapi tidak menghapusnya.

Gagasan Anda menghindari masalah bahwa perkiraan akan 'terlalu dekat' relatif terhadap nilai populasi karena didasarkan pada sampel yang sama.

Anda tidak menghindari masalah yang masih diperkirakan. Distribusi statistik uji bukan yang ditabulasi.

Dalam hal ini meningkatkan tingkat penolakan di bawah nol, bukannya mengurangi secara dramatis.

Pilihan yang lebih baik adalah menggunakan tes di mana parameter tidak dianggap diketahui, seperti Shapiro Wilk.

Jika Anda menggunakan jenis tes Kolmogorov-Smirnov, Anda dapat mengambil pendekatan tes Lilliefors.

Artinya, untuk menggunakan statistik KS tetapi memiliki distribusi statistik uji mencerminkan efek estimasi parameter - mensimulasikan distribusi statistik uji di bawah estimasi parameter. (Tidak lagi bebas distribusi, jadi Anda perlu tabel baru untuk setiap distribusi.)

http://en.wikipedia.org/wiki/Lilliefors_test

Liliefors menggunakan simulasi untuk kasus normal dan eksponensial, tetapi Anda dapat dengan mudah melakukannya untuk distribusi tertentu; dalam sesuatu seperti R itu masalah saat untuk mensimulasikan 10.000 atau 100.000 sampel dan mendapatkan distribusi statistik uji di bawah nol.

[Alternatif mungkin untuk mempertimbangkan Anderson-Darling, yang memang memiliki masalah yang sama, tetapi yang - menilai dari buku karya D'Agostino dan Stephens ( Goodness-of-fit-teknik ) tampaknya kurang sensitif terhadapnya. Anda bisa mengadaptasi ide Lilliefors, tetapi mereka menyarankan penyesuaian yang relatif sederhana yang tampaknya bekerja dengan cukup baik.]

Namun masih ada pendekatan lain; ada keluarga uji kelancaran goodness of fit, misalnya (misalnya, lihat buku karya Rayner dan Best) yang dalam sejumlah kasus tertentu dapat menangani estimasi parameter.

* efeknya masih bisa cukup besar - mungkin lebih besar dari biasanya dianggap dapat diterima; Momo benar untuk mengungkapkan kekhawatirannya. Jika tingkat kesalahan tipe I yang lebih tinggi (dan kurva daya yang lebih rata) adalah masalah, maka ini mungkin bukan peningkatan!

Glen_b -Reinstate Monica
sumber
1
dapatkah Anda menjelaskan bagaimana "pemisahan sampel akan menyelesaikan masalah dengan distribusi statistik"? Menurut pendapat saya, parameter akan diperkirakan dari subsampel dan kemudian dicolokkan untuk uji KS subsampel kedua, tetapi parameter masih akan dikaitkan dengan kesalahan pengambilan sampel yang tidak diperhitungkan dalam distribusi nol. Ini kedengarannya bagi saya seolah-olah seseorang dapat dengan ide yang sama memisahkan sampel dari distribusi normal, memperkirakan standar deviasi dalam satu subsampel dan melakukan perbandingan rata-rata dengan standar normal daripada t-dist pada sampel kedua.
Momo
1
@Momo 'memecahkan' terlalu kuat; 'kurangi' lebih baik. Jika parameter diperkirakan dari pengamatan yang sama Anda pengujian sedang, maka - kecuali jika Anda memperhitungkan efek yang - penyimpangan sampel dari distribusi akan 'terlalu kecil' - tingkat penolakan berjalan waay turun. Menggunakan sampel lain menghilangkan efek itu. Nilai parameter yang dihasilkan dari estimasi dari sampel kedua masih mengalami kesalahan pengambilan sampel. Itu akan berdampak pada pengujian (meningkatkan tingkat kesalahan tipe I), tetapi tidak akan memiliki efek bias dramatis yang menggunakan data yang sama untuk keduanya.
Glen_b -Reinstate Monica
@Momo Saya telah mengedit komentar saya untuk menghapus 'memecahkan' dan menggantinya dengan beberapa penjelasan
Glen_b -Reinstate Monica
5

Saya khawatir itu tidak akan menyelesaikan masalah. Saya percaya masalahnya bukan bahwa parameter diperkirakan dari sampel yang sama tetapi dari sampel apa pun . Derivasi dari distribusi nol biasa dari tes KS tidak memperhitungkan kesalahan estimasi dalam parameter dari distribusi referensi, melainkan melihatnya sebagai diberikan. Lihat juga Durbin 1973 yang membahas masalah ini secara panjang lebar dan menawarkan solusi.

Momo
sumber
1
Ini sebenarnya adalah dua masalah terpisah. Jika Anda menggunakan data yang sama untuk memperkirakan parameter dan untuk melakukan KS-Test, Anda biasanya akan melihat nilai-p yang meningkat , karena Anda pada dasarnya menyesuaikan distribusi ke data sebelum menguji terhadapnya. Namun, jika Anda menggunakan dua set sampel independen, ini bukan masalahnya. Namun, perkiraan parameter yang tidak tepat dapat menurunkan nilai p yang Anda dapatkan dalam kasus ini, karena sekarang Anda pada dasarnya menguji terhadap distribusi yang (sedikit) salah .
fgp