Saya bekerja dengan dataset kecil (21 pengamatan) dan memiliki plot QQ normal berikut di R:
Melihat plot tidak mendukung normalitas, apa yang bisa saya simpulkan tentang distribusi yang mendasarinya? Sepertinya bagi saya bahwa distribusi yang lebih condong ke kanan akan lebih cocok, bukan? Juga, kesimpulan apa lagi yang bisa kita ambil dari data?
Jawaban:
Jika nilai-nilai terletak di sepanjang garis distribusi memiliki bentuk yang sama (hingga lokasi dan skala) seperti distribusi teoritis yang kami perkirakan.
Perilaku lokal : Ketika melihat nilai sampel yang diurutkan pada sumbu y dan (perkiraan) kuantil yang diharapkan pada sumbu x, kita dapat mengidentifikasi dari bagaimana nilai dalam beberapa bagian plot berbeda secara lokal dari tren linear keseluruhan dengan melihat apakah nilai-nilai lebih atau kurang terkonsentrasi daripada distribusi teoritis kira dalam bagian plot:
Seperti yang kita lihat, titik yang kurang terkonsentrasi meningkat lebih banyak dan lebih banyak titik terkonsentrasi daripada yang seharusnya meningkat lebih cepat daripada hubungan linear keseluruhan akan menyarankan, dan dalam kasus ekstrim sesuai dengan kesenjangan dalam kepadatan sampel (ditunjukkan sebagai lompatan hampir vertikal) atau lonjakan nilai konstan (nilai selaras secara horizontal). Ini memungkinkan kita untuk menemukan ekor yang berat atau ekor yang ringan dan karenanya, kemiringan lebih besar atau lebih kecil dari distribusi teoretis, dan seterusnya.
Penampilan secara keseluruhan:
Berikut adalah apa yang tampak seperti plot QQ (untuk pilihan distribusi tertentu) rata-rata :
Tetapi keacakan cenderung mengaburkan hal-hal, terutama dengan sampel kecil:
Anda juga dapat menemukan saran di sini berguna ketika mencoba memutuskan seberapa banyak Anda harus khawatir tentang jumlah kelengkungan atau kerontokan tertentu.
Panduan yang lebih cocok untuk interpretasi secara umum juga akan mencakup tampilan pada ukuran sampel yang lebih kecil dan lebih besar.
sumber
Saya membuat aplikasi yang mengkilap untuk membantu menafsirkan plot QQ yang normal. Coba tautan ini .
Dalam aplikasi ini, Anda dapat menyesuaikan kemiringan, kekeliruan (kurtosis) dan modalitas data dan Anda dapat melihat bagaimana histogram dan perubahan plot QQ. Sebaliknya, Anda dapat menggunakannya dengan cara yang diberi pola plot QQ, lalu periksa bagaimana kemiringan dll.
Untuk perincian lebih lanjut, lihat dokumentasi di dalamnya.
Saya menyadari bahwa saya tidak memiliki cukup ruang kosong untuk menyediakan aplikasi ini secara online. Sebagai permintaan, saya akan memberikan semua tiga potongan kode:
sample.R
,server.R
danui.R
di sini. Mereka yang tertarik menjalankan aplikasi ini mungkin hanya memuat file-file ini ke dalam Rstudio kemudian menjalankannya di PC Anda sendiri.The
sample.R
File:The
server.R
File:Akhirnya,
ui.R
file:sumber
Penjelasan yang sangat membantu (dan intuitif) diberikan oleh Prof. Philippe Rigollet dalam kursus MIT MOOC: 18.650 Statistik untuk Aplikasi, Musim Gugur 2016 - lihat video pada 45 menit
https://www.youtube.com/watch?v=vMaKx9fmJHE
Saya dengan kasar menyalin diagramnya yang saya simpan di catatan saya karena saya merasa sangat berguna.
Dalam contoh 1, pada diagram kiri atas, kita melihat bahwa pada ekor kanan kuantil empiris (atau sampel) kurang dari kuantil teoretis
Qe <Qt
sumber
Karena utas ini telah dianggap sebagai definitif "bagaimana menafsirkan plot qq normal" posting StackExchange, saya ingin mengarahkan pembaca ke hubungan matematis yang bagus dan tepat antara plot qq normal dan statistik kurtosis berlebih.
Ini dia:
https://stats.stackexchange.com/a/354076/102879
Ringkasan singkat (dan terlalu disederhanakan) diberikan sebagai berikut (lihat tautan untuk pernyataan matematis yang lebih tepat): Anda benar-benar dapat melihat kelebihan kurtosis dalam plot qq normal sebagai jarak rata-rata antara kuantil data dan kuantil normal teoretis yang sesuai, tertimbang dengan jarak dari data ke rata-rata. Jadi, ketika nilai absolut di ekor plot qq umumnya menyimpang dari nilai normal yang diharapkan sangat ke arah ekstrim, Anda memiliki kelebihan kurtosis positif.
Karena kurtosis adalah rata-rata dari penyimpangan ini yang ditimbang oleh jarak dari rata-rata, nilai-nilai di dekat pusat plot qq berdampak kecil pada kurtosis. Oleh karena itu, kelebihan kurtosis tidak terkait dengan pusat distribusi, di mana "puncak" berada. Sebaliknya, kelebihan kurtosis hampir seluruhnya ditentukan oleh perbandingan ekor distribusi data dengan distribusi normal.
sumber