Dalam komentar ini , Nick Cox menulis:
Masuk ke kelas adalah metode kuno. Sementara histogram dapat berguna, perangkat lunak statistik modern membuatnya mudah dan disarankan untuk menyesuaikan distribusi dengan data mentah. Binning hanya membuang detail yang sangat penting dalam menentukan distribusi mana yang masuk akal.
Konteks komentar ini menyarankan menggunakan plot QQ sebagai sarana alternatif untuk mengevaluasi kecocokan. Pernyataan ini kedengarannya sangat masuk akal, tetapi saya ingin tahu tentang referensi yang dapat diandalkan yang mendukung pernyataan ini. Apakah ada beberapa makalah yang melakukan investigasi yang lebih teliti terhadap fakta ini, di luar sekadar "well, ini terdengar jelas"? Adakah perbandingan sistematis hasil yang aktual atau yang sejenisnya?
Saya juga ingin melihat sejauh mana manfaat QQ-plot lebih dari histogram dapat diregangkan, untuk aplikasi selain pemasangan model. Jawaban atas pertanyaan ini setuju bahwa "plot QQ [...] hanya memberi tahu Anda bahwa" ada sesuatu yang salah "". Saya berpikir untuk menggunakannya sebagai alat untuk mengidentifikasi struktur dalam data yang diamati dibandingkan dengan model nol dan bertanya-tanya apakah ada prosedur yang ditetapkan untuk menggunakan plot QQ (atau data yang mendasarinya) untuk tidak hanya mendeteksi tetapi juga menggambarkan non-acak struktur dalam data yang diamati. Referensi yang mencakup arah ini akan sangat berguna.
Jawaban:
Makalah kanonik di sini adalah
Wilk, MB dan R. Gnanadesikan. 1968. Probabilitas merencanakan metode untuk analisis data. Biometrika 55: 1-17
dan itu masih membayar dekat dan diulang membaca.
Perlakuan jernih dengan banyak contoh yang baik diberikan oleh
Cleveland, WS 1993. Visualisasi Data. Summit, NJ: Hobart Press.
dan perlu disebutkan lebih banyak pengantar
Cleveland, WS 1994. Elemen Data Grafik. Summit, NJ: Hobart Press.
Teks-teks lain yang mengandung paparan yang masuk akal untuk pendekatan ini termasuk
Davison, AC 2003. Model Statistik. Cambridge: Cambridge University Press.
Rice, JA 2007. Statistik Matematika dan Analisis Data. Belmont, CA: Duxbury.
Selain itu, saya tidak tahu apa pun yang Anda tanyakan. Setelah Anda melihat titik plot kuantil-kuantil, menunjukkan secara rinci bahwa histogram adalah alternatif tingkat kedua tampaknya tidak menarik atau berguna, terlalu mirip dengan menembak ikan dalam per barel.
Tapi saya akan meringkas seperti ini:
Binning menekan detail, dan detailnya seringkali penting. Ini dapat diterapkan tidak hanya pada apa yang terjadi di ekor tetapi juga pada apa yang terjadi di tengah. Sebagai contoh, granularitas atau multimodality mungkin penting serta kemiringan atau berat ekor.
Binning membutuhkan keputusan tentang asal-usul tempat sampah dan lebar tempat sampah, yang dapat memengaruhi tampilan histogram dengan hebatnya, sehingga sulit untuk melihat apa yang nyata dan apa efek samping dari pilihan. Jika perangkat lunak Anda membuat keputusan ini untuk Anda, masalahnya tetap ada. (Misalnya, pilihan nampan bawaan sering dirancang agar Anda tidak menggunakan "terlalu banyak nampan", yaitu dengan motif menghaluskan sedikit.)
Masalah grafis dan psikologis membandingkan dua histogram lebih sulit daripada menilai kecocokan satu set poin dengan garis lurus.
sumber
Lihat karya William S. Cleveland.
Memvisualisasikan data mungkin merupakan sumber tunggal terbaik, tetapi juga melihat halaman web- nya , terutama bibliografi dan halaman untuk Visualisasi Data (termasuk kode S + yang dapat diadaptasi untuk digunakan
R
).Cleveland memiliki banyak alasan mengapa plot QQ bagus dan mengapa histogram tidak begitu baik.
sumber
Setelah Anda mempelajari cara menggunakannya, plot QQ memungkinkan Anda mengidentifikasi kemiringan, kekecilan, bentuk umum, puncak, dan sebagainya, fitur yang sama yang cenderung digunakan oleh orang-orang dalam histogram untuk mencoba menilai.
Perkiraan kepadatan kernel atau perkiraan kepadatan log-spline dapat menghindari beberapa masalah dengan histogram yang ditunjukkan Gala dalam komentar.
Pertimbangkan contoh ini dari tautan itu:
Namun, kecuali jika Anda sangat beruntung, kelonggaran yang tidak terduga kadang-kadang dapat dilewatkan dengan histogram, dan bahkan dengan perkiraan kepadatan halus (karena mereka halus, secara alami), tetapi akan sering terlihat jelas pada plot QQ. Perkiraan kerapatan halus - kecuali jika diperlakukan secara khusus - juga dapat mengalami masalah dengan variabel terikat.
Histogram dan estimasi kerapatan halus keduanya bergantung pada perkiraan terhadap data - yang dapat berguna - tetapi juga dapat memperkenalkan artefak atau hal-hal yang agak keliru.
sumber