box plot dalam R: Apakah outlier menghitung ketika kuantil ditentukan?

8

Saya memiliki dataset 1 dimensi dan saya menggunakan boxplotfungsinya untuk membuat plot kotak. Maka saya bisa melihat bahwa saya memiliki beberapa outlier.

Apakah pencilan dihitung ketika kuantil ditentukan?

Apakah ada cara yang benar / salah atau keduanya benar selama kita jelas tentang metode mana yang telah digunakan? Jika demikian, bagaimana R melakukannya?

k.dkhk
sumber
6
Ini sebagian masalah penggunaan bahasa Inggris, tetapi program boxplot tidak menentukan pencilan. Paling-paling, mereka merencanakan secara terpisah poin-poin yang harus dipikirkan dan mungkin (univariat) outlier.
Nick Cox
1
Untuk sampel besar dari distribusi eksponensial sekitar dari sampel mungkin muncul di luar kumis atas. Jika Anda mengecualikan ini, Anda bisa mendapatkan kuantil yang salah besar4.8%
Henry

Jawaban:

12

R - seperti banyak, tetapi tidak semua program - kebanyakan menggunakan definisi Tukey * tentang cara menggambar boxplot.

The seluruh sampel asli yang digunakan untuk menghitung engsel (di mana kotak-ujungnya ditarik).

Engsel sangat mirip dengan kuartil (bisa dibilang itu cara tertentu untuk menghitung kuartil atas dan bawah yang sedikit berbeda dari definisi kuartil yang lebih umum - meskipun ada sejumlah definisi kuartil sampel yang berbeda juga; memang R menawarkan sembilan perhitungan kuartil yang berbeda, tidak termasuk engselnya sendiri).

Engsel atas berada di median bagian atas data (bagian atas termasuk median sampel asli jika itu adalah titik data) dan engsel bawah adalah pada median dari setengah bagian bawah (yang juga termasuk median dari sampel asli jika berada pada titik data):

Diagram yang menggambarkan perhitungan engsel

Jadi misalnya dengan 6 pengamatan engsel adalah pengamatan terbesar kedua dan kelima terbesar (masing-masing 3 poin). Dengan 9 pengamatan engsel adalah yang terbesar ke-3 dan ke-8 (5 poin di masing-masing bagian, median masuk di kedua bagian). Dengan 11 pengamatan, engsel bawah berada di tengah-tengah antara pengamatan terbesar ke-3 dan ke-4 dan engsel atas adalah setengah di antara pengamatan terbesar ke-8 dan ke-9 (masing-masing 6 poin). Ilustrasi menunjukkan kasus dengan 13 pengamatan.

Perhatikan bahwa kuartil (/ engsel) sama sekali tidak peka terhadap nilai outlier, hanya pada kenyataan bahwa mereka berada di luar kuartil. Anda dapat memindahkan mereka semua dekat dengan ujung kotak (sehingga tidak ada outlier) tanpa mengubah kuartil / engsel, atau sejauh yang Anda suka (jadi mereka semua jauh), lagi tanpa mengubah nilai kuartil . Jadi benar-benar tidak perlu melakukan apa pun ketika ada "pencilan".


* Atau lebih tepatnya, salah satunya; Tukey memberikan beberapa definisi, meskipun untuk tujuan saat ini kita hanya perlu khawatir tentang bagaimana perhitungan engsel bekerja; Saya katakan sebagian besar karena versi dengan "outlier" akan menjadi apa yang Tukey sebut plot skematik tetapi mereka tidak melakukan yang dengan dua jenis tanda "outlier" yang berbeda.

Glen_b -Reinstate Monica
sumber
Apakah definisi untuk engsel dalam konteks ini sama dengan deskripsi Tukey tentang penggunaan spread keempat ? Ketika membaca Memahami Robust and Exploratory Data Analysis ia menyatakan, "Beberapa pembaca mungkin akrab dengan kisaran interkuartil , yang sangat dekat dengan penyebaran keempat karena kuartil hampir sama dengan yang keempat." Saya tidak melihat di buku itu di mana dia pernah menjelaskan perbedaan antara keduanya.
Tavrock
@Tavrock perempat memiliki definisi yang sama seperti engsel . Kedua istilah tersebut adalah penemuan Tukey's. Jadi "sebaran engsel" sama dengan "sebaran keempat".
Glen_b -Reinstate Monica