Memahami kumis dari boxplot

9

Saya punya pertanyaan tentang interpretasi kumis dari boxplot. Saya telah membaca yang berikut ini: "Di bagian atas dan bawah dari persegi panjang," kumis "menunjukkan kisaran 1,5 kali jarak antara 0,25- dan 0,75-kuantil", tetapi tidak sepenuhnya memahami apa yang dimaksud dengan "jarak" .

Tidak mungkin bahwa massa probabilitas dimaksudkan, karena antara kuantil 0,25 dan 0,75 kita jelas selalu memiliki persentase data yang sama. Lalu apa idenya?

Guest555
sumber

Jawaban:

6

Nilai X yang sesuai dengan 75 quantile minus nilai X yang sesuai dengan ke-25 adalah jarak. Misalnya, untuk Tes Matematika SAT, 620 adalah yang ke-75 dan 520 adalah yang ke-25. Jadi, jika skor Anda di atas 620, Anda sudah selesai lebih baik dari 75% peserta tes. Kumis akan memperpanjang hingga 1,5 * (620-520) poin.

Dimitriy V. Masterov
sumber
Ya, tapi kumisnya akan sama panjangnya di kedua sisi kotak (yang belum tentu demikian).
Tamu555
8
+1, jawaban lengkap (sedikit lebih) adalah bahwa kumis hingga 1,5 * IQR, jika Anda tidak memiliki data lagi dalam interval itu, kumis berhenti pendek. Selain itu, setiap data tambahan di luar titik itu diplot secara individual sebagai pencilan potensial.
gung - Reinstate Monica
Dengan penjelasan tambahan kecil ini sudah jelas sekarang, terima kasih banyak!
Tamu555
Saya mengedit jawaban dengan titik bagus @ gung.
Dimitriy V. Masterov
5
@ung dan jawaban yang lebih lengkap adalah bahwa kumis selalu terletak pada titik yang ada dalam data
hadley
4

Boxplot dimaksudkan untuk merangkum sekumpulan data yang relatif kecil dengan cara yang terlihat jelas

  • Nilai sentral.

  • Penyebaran nilai "khas".

  • Nilai-nilai individual yang jauh berbeda dari nilai pusat, relatif terhadap sebaran, sehingga dipilih untuk perhatian khusus dan diidentifikasi secara terpisah (dengan nama, misalnya). Ini disebut "nilai yang teridentifikasi."

Ini harus dilakukan dengan cara yang kuat : itu berarti boxplot tidak boleh terlihat sangat berbeda ketika satu, atau sebagian kecil, dari nilai data diubah secara sewenang-wenang.

Solusi yang diadopsi oleh penemunya John Tukey adalah dengan menggunakan statistik pesanan - data yang diurutkan dari yang terendah ke yang tertinggi - secara sistematis. Untuk kesederhanaan (dia melakukan perhitungan secara mental atau dengan pensil dan kertas) Tukey fokus pada median : nilai tengah kumpulan angka. (Untuk batch dengan jumlah genap, Tukey menggunakan titik tengah dari dua nilai tengah.) Median tahan terhadap perubahan hingga setengah data yang menjadi dasarnya, menjadikannya sangat baik sebagai statistik yang kuat. Jadi:

  • Nilai pusat diperkirakan dengan median semua data.

  • The Penyebaran diperkirakan dengan perbedaan antara median dari "bagian atas" - semua data sama dengan atau di atas median - dan "bawah setengah" - semua data sama atau kurang dari median. Kedua median ini disebut "engsel" atas dan bawah. Mereka sekarang cenderung digantikan oleh hal-hal yang disebut kuartil (yang tidak memiliki definisi universal, sayangnya).

  • Pagar tak terlihat untuk menyaring outlier dibangun 1,5 dan 3 kali penyebaran di luar engsel (jauh dari nilai sentral).

    • "Nilai di setiap ujung paling dekat dengan, tetapi masih di dalam, pagar bagian dalam 'berdekatan'."
    • Nilai di luar pagar pertama disebut "outliers."
    • Nilai di luar pagar kedua "jauh."

(Mereka yang cukup tua untuk mengingat argumen hippie tahun 60-an akan mengerti lelucon itu.)

Karena penyebaran adalah perbedaan nilai data, pagar ini memiliki satuan ukuran yang sama dengan data asli: ini adalah arti "jarak" dalam pertanyaan.

Mengenai nilai data untuk diidentifikasi, Tukey menulis

Setidaknya kita dapat mengidentifikasi nilai-nilai ekstrem, dan mungkin sebaiknya mengidentifikasi beberapa nilai lagi.

Setiap metode grafis untuk menampilkan median, engsel, dan nilai-nilai yang diidentifikasi layak disebut sebagai "boxplot" (awalnya, "plot kotak-dan-kumis"). Pagar biasanya tidak digambarkan. Desain Tukey terdiri dari sebuah persegi panjang yang menggambarkan engsel dengan "pinggang" di median. "Kumis" yang menyerupai garis memanjang ke luar dari engsel ke nilai yang teridentifikasi paling dalam (baik di atas maupun di bawah kotak). Biasanya nilai yang teridentifikasi paling dalam ini adalah nilai yang berdekatan yang didefinisikan di atas.

Akibatnya, tampilan default dari plot kotak adalah untuk memperluas kumis ke nilai data non-outlying paling ekstrim dan untuk mengidentifikasi (melalui label teks) data yang terdiri dari ujung kumis dan semua outlier. Misalnya, gunung berapi Tupungatito adalah nilai berdekatan yang tinggi untuk data ketinggian gunung berapi yang digambarkan di kanan gambar: kumis berhenti di sana. Tupungatito dan semua gunung berapi yang lebih tinggi diidentifikasi secara terpisah.

Sehingga ini akan menampilkan data dengan setia, jarak dalam grafik sebanding dengan perbedaan nilai data. (Setiap keberangkatan dari proporsionalitas langsung akan memperkenalkan "Faktor Kebohongan" dalam terminologi Tufte (1983).)

Gambar dari EDA

Dua plot kotak ini dari buku Tukey EDA (hlm. 41) menggambarkan komponen. Patut dicatat bahwa ia telah mengidentifikasi nilai-nilai yang tidak outlying pada bagian atas dan bawah dataset Amerika di sebelah kiri dan satu nilai non-outlying yang tinggi dari ketinggian Volcano di sebelah kanan. Ini mencontohkan interaksi yang saling mempengaruhi antara aturan dan penilaian yang meliputi buku ini.

(Anda dapat mengatakan bahwa data yang teridentifikasi ini bukan pelosok, karena Anda dapat memperkirakan lokasi pagar. Misalnya, engsel ketinggian negara bagian mendekati 11.000 dan 1.000, memberikan penyebaran sekitar 10.000. Mengalikan dengan 1,5 dan 3 memberikan jarak dari 15.000 dan 30.000. Dengan demikian, pagar atas yang tidak terlihat harus dekat 11.000 + 15.000 = 26.000 dan pagar bawah, pada 1.000 - 15.000, akan di bawah nol. Pagar jauh akan berada di dekat 11.000 + 30.000 = 41.000 dan 1.000 - 30.000 = -29.000.)


Referensi

Tufte, Edward. Tampilan Visual Informasi Kuantitatif. Cheshire Press, 1983.

Tukey, John. Bab 2, EDA . Addison-Wesley, 1977.

whuber
sumber