Saya mencoba menentukan apakah dataset data kontinu saya mengikuti distribusi gamma dengan parameter shape 1.7 dan rate 0.000063.
Masalahnya adalah ketika saya menggunakan R untuk membuat plot QQ dari dataset saya terhadap gamma distribusi teoritis (1,7, 0,000063), saya mendapatkan plot yang menunjukkan bahwa data empiris secara kasar setuju dengan distribusi gamma. Hal yang sama terjadi dengan plot ECDF.
Namun ketika saya menjalankan tes Kolmogorov-Smirnov, itu memberi saya nilai kecil yang tidak masuk akal dari .< 1 %
Mana yang harus saya pilih untuk percaya? Output grafis atau hasil dari KS-test?
pdf
kolmogorov-smirnov
cdf
qq-plot
pengguna22119
sumber
sumber
Jawaban:
Saya tidak melihat akal untuk tidak "mempercayai" plot QQ (jika Anda sudah memproduksinya dengan benar); itu hanya representasi grafis dari realitas data Anda, disandingkan dengan distribusi definisi. Jelas itu bukan pasangan yang sempurna, tetapi jika itu cukup baik untuk tujuan Anda, itu mungkin lebih atau kurang akhir cerita. Anda mungkin ingin memeriksa pertanyaan terkait ini: Apakah pengujian normal 'pada dasarnya tidak berguna'?
Apakah data Anda terlalu berbeda dari distribusi gamma untuk tujuan yang Anda tuju adalah pertanyaan lain. Tes KS sendiri tidak dapat menjawabnya untuk Anda (karena hasilnya akan tergantung pada ukuran sampel Anda, di antara alasan lain), tetapi plot QQ mungkin membantu Anda memutuskan. Anda mungkin juga ingin melihat ke dalam alternatif yang kuat untuk analisis lain yang Anda rencanakan untuk dijalankan, dan jika Anda sangat serius tentang kepekaan dari setiap analisis selanjutnya terhadap penyimpangan dari distribusi gamma, Anda mungkin ingin mempertimbangkan untuk melakukan beberapa pengujian simulasi juga .
sumber
Apa yang bisa Anda lakukan adalah membuat beberapa sampel dari distribusi teoretis Anda dan plotkan itu di latar belakang plot-QQ Anda. Itu akan memberi Anda gambaran tentang variabilitas seperti apa yang dapat Anda harapkan secara wajar dari hanya pengambilan sampel.
Anda dapat memperluas gagasan itu untuk membuat amplop di sekitar garis teoretis, menggunakan contoh dari halaman 86-89 dari:
Venables, WN dan Ripley, BD 2002. Statistik terapan modern dengan S. New York: Springer.
Ini akan menjadi amplop poin-bijaksana. Anda dapat memperluas gagasan itu lebih jauh untuk membuat amplop keseluruhan menggunakan ide-ide dari halaman 151-154 dari:
Davison, AC dan Hinkley, DV 1997. Metode bootstrap dan aplikasinya. Cambridge: Cambridge University Press.
Namun, untuk eksplorasi dasar saya pikir hanya memplot beberapa sampel referensi di latar belakang QQ-plot Anda akan lebih dari cukup.
sumber
Tes KS mengasumsikan parameter tertentu dari distribusi Anda. Ini menguji hipotesis "data didistribusikan sesuai dengan distribusi khusus ini". Anda mungkin telah menentukan parameter ini di suatu tempat. Jika tidak, beberapa default yang tidak cocok mungkin telah digunakan. Perhatikan bahwa uji KS akan menjadi konservatif jika parameter yang diperkirakan dicolokkan ke hipotesis.
Namun, sebagian besar tes good-of-fit digunakan dengan cara yang salah. Jika tes KS tidak menunjukkan signifikansi, ini tidak berarti bahwa model yang ingin Anda buktikan sesuai. Itulah yang dikatakan @Nick Stauner tentang ukuran sampel yang terlalu kecil. Masalah ini mirip dengan tes hipotesis titik dan tes kesetaraan.
Jadi pada akhirnya: Hanya pertimbangkan plot-QQ.
sumber
QQ Plot adalah teknik analisis data eksplorasi dan harus diperlakukan seperti itu - demikian juga semua plot EDA lainnya. Mereka hanya dimaksudkan untuk memberi Anda wawasan awal tentang data yang ada. Anda tidak boleh memutuskan atau menghentikan analisis Anda berdasarkan plot EDA seperti plot QQ. Ini adalah saran yang salah untuk mempertimbangkan plot QQ saja. Anda pasti harus menggunakan teknik kuantitatif seperti Tes KS. Misalkan Anda memiliki plot QQ lain untuk kumpulan data yang serupa, bagaimana Anda membandingkan keduanya tanpa alat kuantitatif? Langkah selanjutnya yang tepat bagi Anda, setelah tes EDA dan KS adalah untuk mencari tahu mengapa tes KS memberikan nilai-p rendah (dalam kasus Anda, itu bahkan bisa disebabkan oleh beberapa kesalahan).
Teknik EDA TIDAK dimaksudkan untuk berfungsi sebagai alat pengambilan keputusan. Bahkan, saya akan mengatakan bahkan statistik inferensial hanya dimaksudkan untuk eksplorasi. Mereka memberi Anda petunjuk ke arah mana analisis statistik Anda harus dilanjutkan. Misalnya, uji-t pada sampel hanya akan memberi Anda tingkat kepercayaan bahwa sampel tersebut mungkin (atau mungkin tidak) milik populasi, Anda masih dapat melanjutkan lebih lanjut berdasarkan wawasan tersebut mengenai distribusi data milik Anda dan apa adalah parameternya dll. Bahkan, ketika beberapa negara bahkan menerapkan teknik sebagai bagian dari perpustakaan pembelajaran mesin juga bersifat eksplorasi !!! Saya harap mereka bersungguh-sungguh dalam hal ini ...!
Untuk menyimpulkan keputusan statistik berdasarkan plot atau teknik visualisasi adalah mengejek kemajuan yang dibuat dalam ilmu statistik. Jika Anda bertanya kepada saya, Anda harus menggunakan plot ini sebagai alat untuk mengkomunikasikan kesimpulan akhir berdasarkan analisis statistik kuantitatif Anda.
sumber