Plot QQ tidak cocok dengan histogram

12

Saya memiliki histogram, kepadatan kernel dan distribusi normal pengembalian keuangan log, yang diubah menjadi kerugian (tanda-tanda diubah), dan plot QQ normal dari data ini:

http://tinypic.com/r/34ocwvr/6

Plot QQ menunjukkan dengan jelas bahwa ekor tidak dipasang dengan benar. Tetapi jika saya melihat histogram dan distribusi normal yang dipasang (biru), bahkan nilai sekitar 0,0 tidak dipasang dengan benar. Jadi plot QQ menunjukkan bahwa hanya ekor yang tidak dipasang dengan tepat, tetapi jelas seluruh distribusi tidak dipasang dengan benar. Mengapa ini tidak muncul di plot QQ?

Stat Tistician
sumber
10
Kurva biru di sebelah kiri sesuai dengan garis hipotetis "paling cocok" di sebelah kanan. Garis di sebelah kanan bukan garis yang paling cocok: garis yang paling cocok dengan nilai tengah dalam distribusi. Jika Anda memasukkan "kurva lonceng" ke tengah dua pertiga atau lebih histogram, alih-alih keseluruhannya, kurva itu akan mendekati mengikuti puncak dan sisi miring yang curam, tetapi kemudian akan jauh terlalu rendah di pundak dan ekor. Itulah tepatnya yang ditunjukkan oleh garis dalam plot qq: plot-plot itu berada dalam kesepakatan yang sempurna; itu adalah cocok yang berbeda.
whuber

Jawaban:

11

+1 ke @NickSabbe, karena 'plotnya hanya memberi tahu Anda bahwa "ada sesuatu yang salah"', yang seringkali merupakan cara terbaik untuk menggunakan plot-qq (karena mungkin sulit untuk memahami bagaimana menafsirkannya). Namun, adalah mungkin untuk mempelajari bagaimana menafsirkan plot-qq dengan memikirkan cara membuatnya.

Anda akan mulai dengan menyortir data Anda, kemudian Anda akan menghitung jalan Anda dari nilai minimum dengan mengambil masing-masing sebagai persentase yang sama. Misalnya, jika Anda memiliki 20 titik data, ketika Anda menghitung yang pertama (minimum), Anda akan berkata pada diri sendiri, 'Saya menghitung 5% dari data saya'. Anda akan mengikuti prosedur ini sampai selesai, pada titik mana Anda akan melewati 100% dari data Anda. Nilai persentase ini kemudian dapat dibandingkan dengan nilai persentase yang sama dari normal teoretis yang sesuai (yaitu normal dengan mean dan SD yang sama).

Ketika Anda memplotnya, Anda akan menemukan bahwa Anda memiliki masalah dengan nilai terakhir, yaitu 100%, karena ketika Anda telah melewati 100% dari teori normal Anda 'tidak terhingga'. Masalah ini ditangani dengan menambahkan konstanta kecil ke penyebut pada setiap titik dalam data Anda sebelum menghitung persentase. Nilai tipikal adalah menambahkan 1 ke penyebut; misalnya, Anda akan menyebut titik data 1 (20) Anda 1 / (20 + 1) = 5%, dan yang terakhir Anda adalah 20 / (20 + 1) = 95%. Sekarang jika Anda memplot poin-poin ini terhadap teori normal yang sesuai, Anda akan memiliki plot-pp(untuk merencanakan probabilitas terhadap probabilitas). Plot seperti itu kemungkinan besar akan menunjukkan penyimpangan antara distribusi Anda dan normal di pusat distribusi. Ini karena 68% dari distribusi normal terletak di +/- 1 SD, sehingga plot-pp memiliki resolusi yang sangat baik di sana, dan resolusi yang buruk di tempat lain. (Untuk lebih lanjut tentang hal ini, mungkin membantu untuk membaca jawaban saya di sini: Plot PP vs Plot QQ .)

Seringkali, kita paling prihatin dengan apa yang terjadi di ekor distribusi kita. Untuk mendapatkan resolusi yang lebih baik di sana (dan dengan demikian resolusi yang lebih buruk di tengah), kita dapat membangun plot-qq sebagai gantinya. Kami melakukan ini dengan mengambil set probabilitas kami dan melewati mereka melalui kebalikan dari CDF distribusi normal (ini seperti membaca tabel-z di belakang buku statistik mundur - Anda membaca dalam probabilitas dan membaca sebuah z- skor). Hasil dari operasi ini adalah dua set kuantil , yang dapat diplot terhadap satu sama lain secara serupa.

@whuber benar bahwa garis referensi diplot sesudahnya (biasanya) dengan menemukan garis pemasangan terbaik melalui 50% tengah dari poin (yaitu, dari kuartil pertama ke ketiga). Ini dilakukan untuk membuat plot lebih mudah dibaca. Dengan menggunakan baris ini, Anda dapat menafsirkan plot sebagai menunjukkan kepada Anda apakah kuantil distribusi Anda semakin menyimpang dari normal saat Anda bergerak ke ekor. (Perhatikan bahwa posisi titik-titik lebih jauh dari pusat tidak benar-benar independen dari orang-orang yang lebih dekat, sehingga fakta bahwa, dalam histogram spesifik Anda, ekor tampaknya bersatu setelah memiliki 'bahu' berbeda tidak berarti bahwa kuantil sekarang sama lagi.)

Anda dapat menginterpretasikan plot qq secara analitik dengan mempertimbangkan nilai yang dibaca dari sumbu dibandingkan dengan titik yang diberikan. Jika data dideskripsikan dengan baik oleh distribusi normal, nilainya harus hampir sama. Sebagai contoh, ambil titik ekstrem di sudut paling kiri bawah: nilai -nya adalah di masa lalu , tetapi nilai -nya hanya sedikit di masa lalu , jadi jauh lebih jauh dari yang seharusnya. Secara umum, rubrik sederhana untuk mengartikan qq-plot adalah bahwa jika ekor yang diberikan berputar berlawanan arah jarum jam dari garis referensi, ada lebih banyak data dalam ekor distribusi Anda daripada dalam normal teoretis, dan jika ekor berputar lepas searah jarum jam di sana adalah kurang- 3 y - .2x3y.2data dalam ekor distribusi Anda daripada dalam teori normal. Dengan kata lain:

  • jika kedua ekor memutar berlawanan arah jarum jam Anda memiliki ekor yang berat ( leptokurtosis ),
  • jika kedua ekor memutar searah jarum jam, Anda memiliki ekor ringan (platykurtosis),
  • jika ekor kanan Anda berputar berlawanan arah jarum jam dan ekor kiri Anda berputar searah jarum jam, Anda memiliki kecenderungan yang benar
  • jika ekor kiri Anda berputar berlawanan arah jarum jam dan ekor kanan Anda memutar searah jarum jam, Anda condong ke kiri
gung - Pasang kembali Monica
sumber
Saya menemukan rubrik seperti itu kurang memuaskan. Salah satunya adalah bahwa mereka tidak memiliki hubungan langsung dengan prinsip-prinsip di balik plot: mereka harus dihafal secara terpisah (dan dapat sepenuhnya dibingungkan oleh memori yang salah). Lain (dalam hal ini) adalah bahwa terlalu rumit untuk dapat diandalkan. Namun yang lain adalah bahwa kurangnya standarisasi dalam cara plot tersebut dibuat dapat membuat metode ini salah ketika diterapkan pada plot qq yang dibuat oleh prosedur yang berbeda. Tapi plot qq mudah diinterpretasikan: lihat upaya saya pada penjelasan setengah quantdec.com/envstats/notes/class_03/probability.htm .
whuber
5

Sederhananya: plot QQ menunjukkan peringkat dalam distribusi empiris dibandingkan dengan distribusi yang diharapkan. Dalam kasus Anda (dan ini sebenarnya cukup sering terjadi; selalu dengan distribusi simetris), jajaran di dekat tengah akan serupa antara yang diharapkan dan empiris, karenanya, plot QQ dekat dengan garis di sana.

Tidak begitu mudah untuk benar-benar mengidentifikasi pengamatan "aneh" berdasarkan posisi mereka dalam plot QQ: plot hanya memberi tahu Anda bahwa "ada sesuatu yang salah", dan jika Anda tahu lebih banyak tentang data / distribusi, Anda mungkin mencari tahu dimana masalahnya.

Nick Sabbe
sumber
1
Saya akan mempertahankan kesimpulan yang berlawanan, Nick: plot qq membuatnya lebih mudah untuk mengidentifikasi dan mengevaluasi hasil "aneh" dibandingkan dengan tubuh data, sedangkan histogram cenderung mengaburkan banyak yang diungkapkan oleh plot qq. Masalahnya di sini bukanlah apakah plot qq dekat dengan sebuah baris: itu menyangkut apa yang dipilih oleh perangkat lunak sebagai referensi untuk plot! (Saya curiga Rmendasarkan kesesuaiannya pada beberapa persentil sedang, seperti kuartil, sementara ternyata kesesuaian dengan histogram didasarkan pada saat-saat yang cocok.)
whuber
1
@whuber: Secara pribadi, saya suka melihat keduanya jika mungkin (kebanyakan karena saya "membaca" histogram lebih mudah daripada plot QQ). Tapi Anda benar dan saya berdiri dikoreksi.
Nick Sabbe
Dan Anda benar bahwa kedua teknik tersebut saling melengkapi. Misalnya, bimodality cenderung lebih mudah untuk dideteksi (dan dikuantifikasi) dalam histogram daripada dalam plot qq. Saya percaya bahwa dengan latihan, baik histogram dan plot qq menjadi mudah dibaca. Plot QQ mungkin membutuhkan waktu sedikit lebih lama untuk dipelajari hanya karena mereka tidak memiliki bentuk presentasi standar: Anda selalu harus memeriksa sumbu mana yang nilainya dan yang mana kuantil, dan kadang-kadang kuantil dikonversi ke "nilai yang setara" (bukan sedang distandarisasi).
whuber