Saya memiliki dataset 1 dimensi dan saya menggunakan boxplot
fungsinya untuk membuat plot kotak. Maka saya bisa melihat bahwa saya memiliki beberapa outlier.
Apakah pencilan dihitung ketika kuantil ditentukan?
Apakah ada cara yang benar / salah atau keduanya benar selama kita jelas tentang metode mana yang telah digunakan? Jika demikian, bagaimana R melakukannya?
r
data-visualization
boxplot
k.dkhk
sumber
sumber
Jawaban:
R - seperti banyak, tetapi tidak semua program - kebanyakan menggunakan definisi Tukey * tentang cara menggambar boxplot.
The seluruh sampel asli yang digunakan untuk menghitung engsel (di mana kotak-ujungnya ditarik).
Engsel sangat mirip dengan kuartil (bisa dibilang itu cara tertentu untuk menghitung kuartil atas dan bawah yang sedikit berbeda dari definisi kuartil yang lebih umum - meskipun ada sejumlah definisi kuartil sampel yang berbeda juga; memang R menawarkan sembilan perhitungan kuartil yang berbeda, tidak termasuk engselnya sendiri).
Engsel atas berada di median bagian atas data (bagian atas termasuk median sampel asli jika itu adalah titik data) dan engsel bawah adalah pada median dari setengah bagian bawah (yang juga termasuk median dari sampel asli jika berada pada titik data):
Jadi misalnya dengan 6 pengamatan engsel adalah pengamatan terbesar kedua dan kelima terbesar (masing-masing 3 poin). Dengan 9 pengamatan engsel adalah yang terbesar ke-3 dan ke-8 (5 poin di masing-masing bagian, median masuk di kedua bagian). Dengan 11 pengamatan, engsel bawah berada di tengah-tengah antara pengamatan terbesar ke-3 dan ke-4 dan engsel atas adalah setengah di antara pengamatan terbesar ke-8 dan ke-9 (masing-masing 6 poin). Ilustrasi menunjukkan kasus dengan 13 pengamatan.
Perhatikan bahwa kuartil (/ engsel) sama sekali tidak peka terhadap nilai outlier, hanya pada kenyataan bahwa mereka berada di luar kuartil. Anda dapat memindahkan mereka semua dekat dengan ujung kotak (sehingga tidak ada outlier) tanpa mengubah kuartil / engsel, atau sejauh yang Anda suka (jadi mereka semua jauh), lagi tanpa mengubah nilai kuartil . Jadi benar-benar tidak perlu melakukan apa pun ketika ada "pencilan".
* Atau lebih tepatnya, salah satunya; Tukey memberikan beberapa definisi, meskipun untuk tujuan saat ini kita hanya perlu khawatir tentang bagaimana perhitungan engsel bekerja; Saya katakan sebagian besar karena versi dengan "outlier" akan menjadi apa yang Tukey sebut plot skematik tetapi mereka tidak melakukan yang dengan dua jenis tanda "outlier" yang berbeda.
sumber