Manfaat menggunakan plot QQ dibandingkan histogram

22

Dalam komentar ini , Nick Cox menulis:

Masuk ke kelas adalah metode kuno. Sementara histogram dapat berguna, perangkat lunak statistik modern membuatnya mudah dan disarankan untuk menyesuaikan distribusi dengan data mentah. Binning hanya membuang detail yang sangat penting dalam menentukan distribusi mana yang masuk akal.

Konteks komentar ini menyarankan menggunakan plot QQ sebagai sarana alternatif untuk mengevaluasi kecocokan. Pernyataan ini kedengarannya sangat masuk akal, tetapi saya ingin tahu tentang referensi yang dapat diandalkan yang mendukung pernyataan ini. Apakah ada beberapa makalah yang melakukan investigasi yang lebih teliti terhadap fakta ini, di luar sekadar "well, ini terdengar jelas"? Adakah perbandingan sistematis hasil yang aktual atau yang sejenisnya?

Saya juga ingin melihat sejauh mana manfaat QQ-plot lebih dari histogram dapat diregangkan, untuk aplikasi selain pemasangan model. Jawaban atas pertanyaan ini setuju bahwa "plot QQ [...] hanya memberi tahu Anda bahwa" ada sesuatu yang salah "". Saya berpikir untuk menggunakannya sebagai alat untuk mengidentifikasi struktur dalam data yang diamati dibandingkan dengan model nol dan bertanya-tanya apakah ada prosedur yang ditetapkan untuk menggunakan plot QQ (atau data yang mendasarinya) untuk tidak hanya mendeteksi tetapi juga menggambarkan non-acak struktur dalam data yang diamati. Referensi yang mencakup arah ini akan sangat berguna.

MvG
sumber
4
stats.stackexchange.com/questions/51718/... sudah menjawab setengah dari pertanyaan, yaitu mengapa histogram sebaiknya dihindari, apa pun yang Anda gantikan.
Gala

Jawaban:

25

Makalah kanonik di sini adalah

Wilk, MB dan R. Gnanadesikan. 1968. Probabilitas merencanakan metode untuk analisis data. Biometrika 55: 1-17

dan itu masih membayar dekat dan diulang membaca.

Perlakuan jernih dengan banyak contoh yang baik diberikan oleh

Cleveland, WS 1993. Visualisasi Data. Summit, NJ: Hobart Press.

dan perlu disebutkan lebih banyak pengantar

Cleveland, WS 1994. Elemen Data Grafik. Summit, NJ: Hobart Press.

Teks-teks lain yang mengandung paparan yang masuk akal untuk pendekatan ini termasuk

Davison, AC 2003. Model Statistik. Cambridge: Cambridge University Press.

Rice, JA 2007. Statistik Matematika dan Analisis Data. Belmont, CA: Duxbury.

Selain itu, saya tidak tahu apa pun yang Anda tanyakan. Setelah Anda melihat titik plot kuantil-kuantil, menunjukkan secara rinci bahwa histogram adalah alternatif tingkat kedua tampaknya tidak menarik atau berguna, terlalu mirip dengan menembak ikan dalam per barel.

Tapi saya akan meringkas seperti ini:

  1. Binning menekan detail, dan detailnya seringkali penting. Ini dapat diterapkan tidak hanya pada apa yang terjadi di ekor tetapi juga pada apa yang terjadi di tengah. Sebagai contoh, granularitas atau multimodality mungkin penting serta kemiringan atau berat ekor.

  2. Binning membutuhkan keputusan tentang asal-usul tempat sampah dan lebar tempat sampah, yang dapat memengaruhi tampilan histogram dengan hebatnya, sehingga sulit untuk melihat apa yang nyata dan apa efek samping dari pilihan. Jika perangkat lunak Anda membuat keputusan ini untuk Anda, masalahnya tetap ada. (Misalnya, pilihan nampan bawaan sering dirancang agar Anda tidak menggunakan "terlalu banyak nampan", yaitu dengan motif menghaluskan sedikit.)

  3. Masalah grafis dan psikologis membandingkan dua histogram lebih sulit daripada menilai kecocokan satu set poin dengan garis lurus.

-berarti) / SD. Jika kuantil hanyalah statistik urutan, maka yang perlu Anda lakukan adalah menerapkan transformasi, seperti misalnya logaritma maksimum secara identik adalah maksimum logaritma, dan sebagainya. (Sepele, balas balik membalik urutan.) Bahkan jika Anda memplot kuantil terpilih yang didasarkan pada dua statistik urutan, biasanya mereka hanya diinterpolasi antara dua nilai data asli dan efek interpolasi sepele. Sebaliknya, histogram pada log atau skala transformasi lainnya memerlukan keputusan baru tentang asal dan lebar tempat sampah yang tidak terlalu sulit, tetapi tidak sepele. Hal yang sama dapat dikatakan tentang estimasi kepadatan sebagai cara untuk meringkas distribusi.

Nick Cox
sumber
8

Lihat karya William S. Cleveland.

Memvisualisasikan data mungkin merupakan sumber tunggal terbaik, tetapi juga melihat halaman web- nya , terutama bibliografi dan halaman untuk Visualisasi Data (termasuk kode S + yang dapat diadaptasi untuk digunakan R).

Cleveland memiliki banyak alasan mengapa plot QQ bagus dan mengapa histogram tidak begitu baik.

Peter Flom - Pasang kembali Monica
sumber
7

Setelah Anda mempelajari cara menggunakannya, plot QQ memungkinkan Anda mengidentifikasi kemiringan, kekecilan, bentuk umum, puncak, dan sebagainya, fitur yang sama yang cenderung digunakan oleh orang-orang dalam histogram untuk mencoba menilai.

Perkiraan kepadatan kernel atau perkiraan kepadatan log-spline dapat menghindari beberapa masalah dengan histogram yang ditunjukkan Gala dalam komentar.

Pertimbangkan contoh ini dari tautan itu:

Namun, kecuali jika Anda sangat beruntung, kelonggaran yang tidak terduga kadang-kadang dapat dilewatkan dengan histogram, dan bahkan dengan perkiraan kepadatan halus (karena mereka halus, secara alami), tetapi akan sering terlihat jelas pada plot QQ. Perkiraan kerapatan halus - kecuali jika diperlakukan secara khusus - juga dapat mengalami masalah dengan variabel terikat.

Histogram dan estimasi kerapatan halus keduanya bergantung pada perkiraan terhadap data - yang dapat berguna - tetapi juga dapat memperkenalkan artefak atau hal-hal yang agak keliru.

Glen_b -Reinstate Monica
sumber