Mengukur plot QQ

10

Plot qq dapat digunakan untuk memvisualisasikan seberapa mirip dua distribusi itu (misalnya memvisualisasikan kesamaan distribusi ke distribusi normal, tetapi juga untuk membandingkan dua distribusi data artibrary). Apakah ada statistik yang menghasilkan ukuran numerik yang lebih obyektif yang mewakili kesamaan mereka (lebih disukai dalam bentuk normal (0 <= x <= 1))? Koefisien Gini misalnya digunakan dalam ekonomi ketika bekerja dengan kurva Lorenz; apakah ada sesuatu untuk plot QQ?

Ampleforth
sumber

Jawaban:

8

Seperti yang saya katakan dalam menanggapi komentar Anda pada pertanyaan Anda sebelumnya, periksa tes Kolmogorov-Smirnov. Ia menggunakan jarak absolut maksimum antara dua fungsi distribusi kumulatif (alternatifnya dipahami sebagai jarak absolut maksimum kurva dalam plot QQ dari garis 45 derajat) sebagai statistik. Tes KS dapat ditemukan di R menggunakan perintah ks.test()di perpustakaan 'statistik'. Berikut informasi lebih lanjut tentang penggunaan R.

Charlie
sumber
Perhatikan bahwa (seperti yang saya mengerti), tes KS adalah untuk menguji data empiris terhadap distribusi a priori. Tidak tepat untuk membandingkan dua distribusi empiris, juga tidak tepat untuk membandingkan data empiris terhadap distribusi a priori yang nilai parameternya diperkirakan dari data empiris.
Mike Lawrence
4
@ Mike, Anda dapat menggunakan tes KS untuk membandingkan dua distribusi yang diturunkan secara empiris, lihat jawaban Charlie sebelumnya dan komentar stats.stackexchange.com/questions/2918/lorenz-curve-qq-plot/…
Andy W
@Andy, Ah, saya mengambil poin 3 dari itl.nist.gov/div898/handbook/eda/section3/eda35g.htm sebagai akibat wajar bahwa Anda tidak dapat membandingkan dua CDF empiris, tetapi saya melihat bahwa asumsi saya tidak sesuai. Senang tahu, terima kasih!
Mike Lawrence
2
Namun, poin 3 tidak menyiratkan bahwa Anda tidak dapat menggunakan KS untuk menguji apakah data Anda berasal dari distribusi normal dengan mean dan sd diperkirakan dari data . Ini adalah kesalahan populer di kalangan mahasiswa psikologi yang saya temui.
Stephan Kolassa
1
(+1) Aspek superior dari jawaban ini adalah bahwa statistik KS dapat dibaca langsung dari plot QQ.
Whuber
2

Saya baru-baru ini menggunakan korelasi antara CDF empiris dan CDF yang dipasang untuk mengukur good-of-fit, dan saya ingin tahu apakah pendekatan ini juga berguna dalam kasus saat ini, yang seperti yang saya pahami melibatkan membandingkan dua set data empiris. Interpolasi mungkin diperlukan jika ada jumlah pengamatan yang berbeda antara set.

Mike Lawrence
sumber
Makalah Anda termasuk angka yang sangat bagus :)
chl
@chi: Mereka semua dibuat di R menggunakan ggplot2. Ini adalah sistem produksi grafis yang fantastis!
Mike Lawrence
Apa maksud Anda dengan CDF yang pas?
Ampleforth
@ Ampleforth, dalam makalah itu, saya memasukkan distribusi ke data empiris, jadi dengan "CDF yang pas" saya maksudkan CDF teoretis dari distribusi yang pas. Maaf, saya mengerti bagaimana saya bisa lebih jelas!
Mike Lawrence
Oh, tolong jangan minta maaf. Kurangnya statistik saya agak besar dan itu adalah satu-satunya masalah di sini;) Saya juga tidak membaca makalah Anda, tetapi hanya melirik grafik Anda yang sangat saya sukai.
Ampleforth
1

Saya akan mengatakan bahwa cara kanonik lebih untuk membandingkan dua distribusi akan menjadi tes chi-squared. Statistiknya tidak dinormalisasi, dan itu tergantung pada bagaimana Anda memilih tempat sampah. Poin terakhir tentu saja dapat dilihat sebagai fitur, bukan bug: memilih nampan secara tepat memungkinkan Anda untuk melihat lebih dekat kesamaan di ekor daripada di tengah distribusi, misalnya.

Stephan Kolassa
sumber
1

Ukuran yang cukup langsung dari "kedekatan" dengan linearitas dalam plot QQ adalah statistik uji Shapiro-Francia (yang terkait erat dengan Shapiro-Wilk yang lebih dikenal dan dapat dianggap sebagai perkiraan sederhana untuk itu).

Statistik Shapiro-Francia adalah korelasi kuadrat antara nilai data yang diurutkan dan statistik urutan normal yang diharapkan (kadang-kadang diberi label "kuantil teoretis") - yaitu, itu harus kuadrat dari korelasi yang Anda lihat dalam plot, yang cukup langsung ukuran ringkasan.

(Shapiro-Wilk serupa tetapi memperhitungkan korelasi di antara statistik ordo; ia memiliki interpretasi yang mirip dengan Shapiro-Francia dan cukup berguna seperti ringkasan plot QQ.)

Either way, untuk ringkasan nomor tunggal dari apa yang ditunjukkan plot QQ, salah satunya bisa menjadi cara yang cocok untuk meringkas plot.

1-W

n1-W)nn(1-W)nnncatatan(n)catatan(n)n

Glen_b -Reinstate Monica
sumber