Definisi standar pencilan untuk plot Kotak dan Kumis adalah poin di luar rentang , di mana dan adalah kuartil pertama dan adalah kuartil ketiga dari data.
Apa dasar dari definisi ini? Dengan sejumlah besar poin, bahkan distribusi yang normal sekalipun menghasilkan outlier.
Misalnya, Anda mulai dengan urutan:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Urutan ini menciptakan peringkat persentil dari 4000 poin data.
Pengujian normalitas untuk qnorm
seri ini menghasilkan:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Hasilnya persis seperti yang diharapkan: normalitas dari distribusi normal adalah normal. Membuat qqnorm(qnorm(xseq))
menciptakan (seperti yang diharapkan) garis lurus data:
Jika boxplot dari data yang sama dibuat, boxplot(qnorm(xseq))
hasilkan:
Boxplot, tidak seperti shapiro.test
, ad.test
atau qqnorm
mengidentifikasi beberapa titik sebagai outlier ketika ukuran sampel cukup besar (seperti dalam contoh ini).
sumber
Jawaban:
Petak kotak
Berikut adalah bagian yang relevan dari Hoaglin, Mosteller dan Tukey (2000): Memahami Robust and Exploratory Data Analysis. Wiley . Bab 3, "Boxplots dan Batch Perbandingan", ditulis oleh John D. Emerson dan Judith Strenio (dari halaman 62):
Mereka melanjutkan dan menunjukkan aplikasi ke populasi Gaussian (halaman 63):
Begitu
Selanjutnya, mereka menulis
Mereka menyediakan tabel dengan proporsi nilai yang diharapkan yang berada di luar batas outlier (diberi label "Total% Keluar"):
Jadi cutoffs ini di mana tidak pernah dimaksudkan untuk menjadi aturan ketat tentang poin data apa yang outlier atau tidak. Seperti yang Anda catat, bahkan distribusi normal yang sempurna diharapkan untuk menunjukkan "pencilan" dalam sebuah kotak.
Pencilan
Sejauh yang saya tahu, tidak ada definisi pencilan yang diterima secara universal. Saya suka definisi oleh Hawkins (1980):
Idealnya, Anda hanya harus memperlakukan titik data sebagai outlier setelah Anda memahami mengapa mereka tidak termasuk dalam data lainnya. Aturan sederhana tidak cukup. Perlakuan outlier yang baik dapat ditemukan di Aggarwal (2013).
Referensi
Aggarwal CC (2013): Analisis Pencilan. Peloncat.
Hawkins D (1980): Identifikasi Pencilan. Chapman dan Hall.
Hoaglin, Mosteller dan Tukey (2000): Memahami Analisis Data Yang Kuat dan Eksplorasi. Wiley.
sumber
Kata 'outlier' sering dianggap memiliki arti seperti 'nilai data yang keliru, menyesatkan, salah atau rusak dan karenanya harus dihilangkan dari analisis', tetapi bukan itu yang dimaksud Tukey dengan penggunaan outlier-nya. Outlier hanyalah titik yang jauh dari median dataset.
Poin Anda tentang mengharapkan pencilan dalam banyak kumpulan data adalah benar dan penting. Dan ada banyak pertanyaan dan jawaban yang bagus tentang topik tersebut.
Menghapus pencilan dari data asimetris
Apakah pantas untuk mengidentifikasi dan menghapus pencilan karena menyebabkan masalah?
sumber
Seperti halnya semua metode deteksi outlier, perawatan dan pemikiran harus digunakan untuk menentukan nilai apa yang benar-benar outlier. Saya pikir boxplot hanya menyediakan visualisasi yang baik dari penyebaran data dan pencilan yang benar akan mudah ditangkap.
sumber
Saya pikir Anda harus khawatir jika Anda tidak mendapatkan beberapa outlier sebagai bagian dari distribusi normal, jika tidak, Anda mungkin harus mencari alasan tidak ada. Jelas mereka harus ditinjau untuk memastikan mereka tidak merekam kesalahan, tetapi mereka diharapkan.
sumber