Saya memiliki histogram, kepadatan kernel dan distribusi normal pengembalian keuangan log, yang diubah menjadi kerugian (tanda-tanda diubah), dan plot QQ normal dari data ini:
Plot QQ menunjukkan dengan jelas bahwa ekor tidak dipasang dengan benar. Tetapi jika saya melihat histogram dan distribusi normal yang dipasang (biru), bahkan nilai sekitar 0,0 tidak dipasang dengan benar. Jadi plot QQ menunjukkan bahwa hanya ekor yang tidak dipasang dengan tepat, tetapi jelas seluruh distribusi tidak dipasang dengan benar. Mengapa ini tidak muncul di plot QQ?
data-visualization
normality-assumption
histogram
qq-plot
Stat Tistician
sumber
sumber
Jawaban:
+1 ke @NickSabbe, karena 'plotnya hanya memberi tahu Anda bahwa "ada sesuatu yang salah"', yang seringkali merupakan cara terbaik untuk menggunakan plot-qq (karena mungkin sulit untuk memahami bagaimana menafsirkannya). Namun, adalah mungkin untuk mempelajari bagaimana menafsirkan plot-qq dengan memikirkan cara membuatnya.
Anda akan mulai dengan menyortir data Anda, kemudian Anda akan menghitung jalan Anda dari nilai minimum dengan mengambil masing-masing sebagai persentase yang sama. Misalnya, jika Anda memiliki 20 titik data, ketika Anda menghitung yang pertama (minimum), Anda akan berkata pada diri sendiri, 'Saya menghitung 5% dari data saya'. Anda akan mengikuti prosedur ini sampai selesai, pada titik mana Anda akan melewati 100% dari data Anda. Nilai persentase ini kemudian dapat dibandingkan dengan nilai persentase yang sama dari normal teoretis yang sesuai (yaitu normal dengan mean dan SD yang sama).
Ketika Anda memplotnya, Anda akan menemukan bahwa Anda memiliki masalah dengan nilai terakhir, yaitu 100%, karena ketika Anda telah melewati 100% dari teori normal Anda 'tidak terhingga'. Masalah ini ditangani dengan menambahkan konstanta kecil ke penyebut pada setiap titik dalam data Anda sebelum menghitung persentase. Nilai tipikal adalah menambahkan 1 ke penyebut; misalnya, Anda akan menyebut titik data 1 (20) Anda 1 / (20 + 1) = 5%, dan yang terakhir Anda adalah 20 / (20 + 1) = 95%. Sekarang jika Anda memplot poin-poin ini terhadap teori normal yang sesuai, Anda akan memiliki plot-pp(untuk merencanakan probabilitas terhadap probabilitas). Plot seperti itu kemungkinan besar akan menunjukkan penyimpangan antara distribusi Anda dan normal di pusat distribusi. Ini karena 68% dari distribusi normal terletak di +/- 1 SD, sehingga plot-pp memiliki resolusi yang sangat baik di sana, dan resolusi yang buruk di tempat lain. (Untuk lebih lanjut tentang hal ini, mungkin membantu untuk membaca jawaban saya di sini: Plot PP vs Plot QQ .)
Seringkali, kita paling prihatin dengan apa yang terjadi di ekor distribusi kita. Untuk mendapatkan resolusi yang lebih baik di sana (dan dengan demikian resolusi yang lebih buruk di tengah), kita dapat membangun plot-qq sebagai gantinya. Kami melakukan ini dengan mengambil set probabilitas kami dan melewati mereka melalui kebalikan dari CDF distribusi normal (ini seperti membaca tabel-z di belakang buku statistik mundur - Anda membaca dalam probabilitas dan membaca sebuah z- skor). Hasil dari operasi ini adalah dua set kuantil , yang dapat diplot terhadap satu sama lain secara serupa.
@whuber benar bahwa garis referensi diplot sesudahnya (biasanya) dengan menemukan garis pemasangan terbaik melalui 50% tengah dari poin (yaitu, dari kuartil pertama ke ketiga). Ini dilakukan untuk membuat plot lebih mudah dibaca. Dengan menggunakan baris ini, Anda dapat menafsirkan plot sebagai menunjukkan kepada Anda apakah kuantil distribusi Anda semakin menyimpang dari normal saat Anda bergerak ke ekor. (Perhatikan bahwa posisi titik-titik lebih jauh dari pusat tidak benar-benar independen dari orang-orang yang lebih dekat, sehingga fakta bahwa, dalam histogram spesifik Anda, ekor tampaknya bersatu setelah memiliki 'bahu' berbeda tidak berarti bahwa kuantil sekarang sama lagi.)
Anda dapat menginterpretasikan plot qq secara analitik dengan mempertimbangkan nilai yang dibaca dari sumbu dibandingkan dengan titik yang diberikan. Jika data dideskripsikan dengan baik oleh distribusi normal, nilainya harus hampir sama. Sebagai contoh, ambil titik ekstrem di sudut paling kiri bawah: nilai -nya adalah di masa lalu , tetapi nilai -nya hanya sedikit di masa lalu , jadi jauh lebih jauh dari yang seharusnya. Secara umum, rubrik sederhana untuk mengartikan qq-plot adalah bahwa jika ekor yang diberikan berputar berlawanan arah jarum jam dari garis referensi, ada lebih banyak data dalam ekor distribusi Anda daripada dalam normal teoretis, dan jika ekor berputar lepas searah jarum jam di sana adalah kurang- 3 y - .2x - 3 y - .2 data dalam ekor distribusi Anda daripada dalam teori normal. Dengan kata lain:
sumber
Sederhananya: plot QQ menunjukkan peringkat dalam distribusi empiris dibandingkan dengan distribusi yang diharapkan. Dalam kasus Anda (dan ini sebenarnya cukup sering terjadi; selalu dengan distribusi simetris), jajaran di dekat tengah akan serupa antara yang diharapkan dan empiris, karenanya, plot QQ dekat dengan garis di sana.
Tidak begitu mudah untuk benar-benar mengidentifikasi pengamatan "aneh" berdasarkan posisi mereka dalam plot QQ: plot hanya memberi tahu Anda bahwa "ada sesuatu yang salah", dan jika Anda tahu lebih banyak tentang data / distribusi, Anda mungkin mencari tahu dimana masalahnya.
sumber
R
mendasarkan kesesuaiannya pada beberapa persentil sedang, seperti kuartil, sementara ternyata kesesuaian dengan histogram didasarkan pada saat-saat yang cocok.)