Saya punya pertanyaan tentang interpretasi kumis dari boxplot. Saya telah membaca yang berikut ini: "Di bagian atas dan bawah dari persegi panjang," kumis "menunjukkan kisaran 1,5 kali jarak antara 0,25- dan 0,75-kuantil", tetapi tidak sepenuhnya memahami apa yang dimaksud dengan "jarak" .
Tidak mungkin bahwa massa probabilitas dimaksudkan, karena antara kuantil 0,25 dan 0,75 kita jelas selalu memiliki persentase data yang sama. Lalu apa idenya?
sumber
Boxplot dimaksudkan untuk merangkum sekumpulan data yang relatif kecil dengan cara yang terlihat jelas
Nilai sentral.
Penyebaran nilai "khas".
Nilai-nilai individual yang jauh berbeda dari nilai pusat, relatif terhadap sebaran, sehingga dipilih untuk perhatian khusus dan diidentifikasi secara terpisah (dengan nama, misalnya). Ini disebut "nilai yang teridentifikasi."
Ini harus dilakukan dengan cara yang kuat : itu berarti boxplot tidak boleh terlihat sangat berbeda ketika satu, atau sebagian kecil, dari nilai data diubah secara sewenang-wenang.
Solusi yang diadopsi oleh penemunya John Tukey adalah dengan menggunakan statistik pesanan - data yang diurutkan dari yang terendah ke yang tertinggi - secara sistematis. Untuk kesederhanaan (dia melakukan perhitungan secara mental atau dengan pensil dan kertas) Tukey fokus pada median : nilai tengah kumpulan angka. (Untuk batch dengan jumlah genap, Tukey menggunakan titik tengah dari dua nilai tengah.) Median tahan terhadap perubahan hingga setengah data yang menjadi dasarnya, menjadikannya sangat baik sebagai statistik yang kuat. Jadi:
Nilai pusat diperkirakan dengan median semua data.
The Penyebaran diperkirakan dengan perbedaan antara median dari "bagian atas" - semua data sama dengan atau di atas median - dan "bawah setengah" - semua data sama atau kurang dari median. Kedua median ini disebut "engsel" atas dan bawah. Mereka sekarang cenderung digantikan oleh hal-hal yang disebut kuartil (yang tidak memiliki definisi universal, sayangnya).
Pagar tak terlihat untuk menyaring outlier dibangun 1,5 dan 3 kali penyebaran di luar engsel (jauh dari nilai sentral).
(Mereka yang cukup tua untuk mengingat argumen hippie tahun 60-an akan mengerti lelucon itu.)
Karena penyebaran adalah perbedaan nilai data, pagar ini memiliki satuan ukuran yang sama dengan data asli: ini adalah arti "jarak" dalam pertanyaan.
Mengenai nilai data untuk diidentifikasi, Tukey menulis
Setiap metode grafis untuk menampilkan median, engsel, dan nilai-nilai yang diidentifikasi layak disebut sebagai "boxplot" (awalnya, "plot kotak-dan-kumis"). Pagar biasanya tidak digambarkan. Desain Tukey terdiri dari sebuah persegi panjang yang menggambarkan engsel dengan "pinggang" di median. "Kumis" yang menyerupai garis memanjang ke luar dari engsel ke nilai yang teridentifikasi paling dalam (baik di atas maupun di bawah kotak). Biasanya nilai yang teridentifikasi paling dalam ini adalah nilai yang berdekatan yang didefinisikan di atas.
Akibatnya, tampilan default dari plot kotak adalah untuk memperluas kumis ke nilai data non-outlying paling ekstrim dan untuk mengidentifikasi (melalui label teks) data yang terdiri dari ujung kumis dan semua outlier. Misalnya, gunung berapi Tupungatito adalah nilai berdekatan yang tinggi untuk data ketinggian gunung berapi yang digambarkan di kanan gambar: kumis berhenti di sana. Tupungatito dan semua gunung berapi yang lebih tinggi diidentifikasi secara terpisah.
Sehingga ini akan menampilkan data dengan setia, jarak dalam grafik sebanding dengan perbedaan nilai data. (Setiap keberangkatan dari proporsionalitas langsung akan memperkenalkan "Faktor Kebohongan" dalam terminologi Tufte (1983).)
Dua plot kotak ini dari buku Tukey EDA (hlm. 41) menggambarkan komponen. Patut dicatat bahwa ia telah mengidentifikasi nilai-nilai yang tidak outlying pada bagian atas dan bawah dataset Amerika di sebelah kiri dan satu nilai non-outlying yang tinggi dari ketinggian Volcano di sebelah kanan. Ini mencontohkan interaksi yang saling mempengaruhi antara aturan dan penilaian yang meliputi buku ini.
(Anda dapat mengatakan bahwa data yang teridentifikasi ini bukan pelosok, karena Anda dapat memperkirakan lokasi pagar. Misalnya, engsel ketinggian negara bagian mendekati 11.000 dan 1.000, memberikan penyebaran sekitar 10.000. Mengalikan dengan 1,5 dan 3 memberikan jarak dari 15.000 dan 30.000. Dengan demikian, pagar atas yang tidak terlihat harus dekat 11.000 + 15.000 = 26.000 dan pagar bawah, pada 1.000 - 15.000, akan di bawah nol. Pagar jauh akan berada di dekat 11.000 + 30.000 = 41.000 dan 1.000 - 30.000 = -29.000.)
Referensi
Tufte, Edward. Tampilan Visual Informasi Kuantitatif. Cheshire Press, 1983.
Tukey, John. Bab 2, EDA . Addison-Wesley, 1977.
sumber