Saya ingin tahu apakah ada varian boxplot yang disesuaikan dengan data yang didistribusikan Poisson (atau mungkin distribusi lainnya)?
Dengan distribusi Gaussian, kumis ditempatkan pada L = Q1 - 1,5 IQR dan U = Q3 + 1,5 IQR, boxplot memiliki properti bahwa akan ada kira-kira banyak outlier rendah (poin di bawah L) karena ada outlier tinggi (poin di atas U ).
Jika data didistribusikan Poisson, ini tidak berlaku lagi karena kemiringan positif yang kita dapatkan Pr (X <L) <Pr (X> U) . Apakah ada cara alternatif untuk menempatkan kumis sehingga akan cocok dengan distribusi Poisson?
Jawaban:
Boxplots tidak dirancang untuk memastikan probabilitas rendah melebihi ujung kumis dalam semua kasus: mereka dimaksudkan, dan biasanya digunakan, sebagai karakterisasi grafis sederhana dari sebagian besar dataset. Dengan demikian, mereka baik-baik saja bahkan ketika data memiliki distribusi yang sangat miring (walaupun mereka mungkin tidak mengungkapkan informasi sebanyak yang mereka lakukan tentang distribusi yang kurang dikenal).
Ketika plot kotak menjadi miring, karena mereka akan dengan distribusi Poisson, langkah selanjutnya adalah mengekspresikan kembali variabel yang mendasarinya (dengan monoton, meningkatkan transformasi) dan menggambar ulang plot kotak. Karena varian dari distribusi Poisson sebanding dengan rata-ratanya, transformasi yang baik untuk digunakan adalah akar kuadrat.
Setiap kotak menggambarkan 50 iid draw dari distribusi Poisson dengan intensitas yang diberikan (dari 1 hingga 10, dengan dua percobaan untuk setiap intensitas). Perhatikan bahwa kecenderungannya cenderung rendah.
Data yang sama pada skala akar kuadrat cenderung memiliki plot kotak yang sedikit lebih simetris dan (kecuali untuk intensitas terendah) memiliki IQR yang kira-kira sama tanpa memandang intensitasnya.
Singkatnya, jangan ubah algoritma boxplot: ekspresikan kembali data sebagai gantinya.
Secara kebetulan, peluang yang relevan untuk komputasi adalah sebagai berikut: berapakah peluang bahwa varian normal independen akan melebihi pagar U ( L ) atas (bawah ) seperti yang diperkirakan dari n penarikan independen dari distribusi yang sama?X U L. n Ini menjelaskan fakta bahwa pagar di dalam boxplot tidak dihitung dari distribusi yang mendasarinya tetapi diperkirakan dari data. Dalam kebanyakan kasus, peluangnya jauh lebih besar dari 1%! Misalnya, di sini (berdasarkan 10.000 uji coba Monte-Carlo) adalah histogram dari log (basis 10) peluang untuk kasus :n = 9
(Karena distribusi normal simetris, histogram ini berlaku untuk kedua pagar.) Logaritma 1% / 2 adalah sekitar -2,3. Jelas, sebagian besar waktu kemungkinannya lebih besar dari ini. Sekitar 16% dari waktu itu melebihi 10%!
Ternyata (saya tidak akan mengacaukan jawaban ini dengan detail) bahwa distribusi peluang ini sebanding dengan kasus normal (untuk kecil ) bahkan untuk distribusi intensitas Poisson serendah 1, yang cukup miring. Perbedaan utama adalah bahwa biasanya lebih kecil kemungkinannya untuk menemukan pencilan yang rendah dan sedikit lebih mungkin untuk menemukan pencilan yang tinggi.n
sumber
Ada generalisasi plot kotak standar yang saya tahu di mana panjang kumis disesuaikan untuk memperhitungkan data yang miring. Rinciannya lebih baik dijelaskan dalam kertas putih yang sangat jelas & ringkas (Vandervieren, E., Hubert, M. (2004) "Plot kotak yang disesuaikan untuk distribusi miring", lihat di sini ).
Saya pribadi menganggapnya sebagai alternatif yang lebih baik untuk transformasi data (meskipun juga didasarkan pada aturan ad-hoc, lihat buku putih).
Kebetulan, saya menemukan sesuatu untuk ditambahkan pada contoh whuber di sini. Sejauh kita membahas perilaku kumis, kita juga harus mempertimbangkan apa yang terjadi ketika mempertimbangkan data yang terkontaminasi:
Dalam model kontaminasi ini, B1 pada dasarnya memiliki distribusi log-normal menyimpan 20 persen dari data yang setengah kiri, setengah outlier kanan (titik rincian adjbox sama dengan plot box biasa, yaitu mengasumsikan bahwa paling banyak 25 persen data bisa buruk).
Grafik menggambarkan boxplot klasik dari data yang ditransformasi (menggunakan transformasi akar kuadrat)
dan boxplot yang disesuaikan dari data yang tidak diubah.
Dibandingkan dengan boxplots yang disesuaikan, opsi sebelumnya menutupi outlier nyata dan label data yang baik sebagai outlier. Secara umum, ia akan berusaha menyembunyikan bukti asimetri dalam data dengan mengklasifikasikan poin yang menyinggung sebagai outlier.
Dalam contoh ini, pendekatan menggunakan boxplot standar pada akar kuadrat data menemukan 13 outlier (semuanya di sebelah kanan), sedangkan boxplot yang disesuaikan menemukan 10 outlier kanan dan 14 outlier kiri.
Sunting: plot kotak yang disesuaikan singkatnya.
Dalam kotak-kotak klasik 'kumis ditempatkan di:
Aturan praktis ini bersifat ad-hoc: justifikasi adalah bahwa jika bagian data yang tidak terkontaminasi adalah sekitar Gaussian, maka kurang dari 1% dari data yang baik akan diklasifikasikan sebagai buruk menggunakan aturan ini.
Kelemahan aturan pagar ini, seperti yang ditunjukkan oleh OP, adalah bahwa panjang kedua kumis identik, artinya aturan pagar hanya masuk akal jika bagian yang tidak terkontaminasi dari data memiliki distribusi simetris.
Pendekatan populer adalah untuk melestarikan aturan pagar dan untuk menyesuaikan data. Idenya adalah untuk mengubah data menggunakan beberapa transformasi koreksi monoton condong (akar kuadrat atau log atau lebih umumnya transformasi box-cox). Ini adalah pendekatan yang agak berantakan: ini bergantung pada logika sirkuler (transformasi harus dipilih untuk memperbaiki kemiringan bagian data yang tidak terkontaminasi, yang pada tahap ini tidak dapat diamati) dan cenderung membuat data lebih sulit untuk ditafsirkan. secara visual. Bagaimanapun, ini tetap merupakan prosedur aneh di mana seseorang mengubah data untuk mempertahankan apa yang akhirnya merupakan aturan ad-hoc.
Alternatifnya adalah membiarkan data tidak tersentuh dan mengubah aturan kumis. Boxplot yang disesuaikan memungkinkan panjang masing-masing kumis bervariasi sesuai dengan indeks yang mengukur kemiringan bagian data yang tidak tercemar:
sumber