Apa dasar dari definisi outlier Box dan Whisker Plot?

17

Definisi standar pencilan untuk plot Kotak dan Kumis adalah poin di luar rentang , di mana dan adalah kuartil pertama dan adalah kuartil ketiga dari data.{Q11.5IQR,Q3+1.5IQR}IQR=Q3Q1Q1Q3

Apa dasar dari definisi ini? Dengan sejumlah besar poin, bahkan distribusi yang normal sekalipun menghasilkan outlier.

Misalnya, Anda mulai dengan urutan:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

Urutan ini menciptakan peringkat persentil dari 4000 poin data.

Pengujian normalitas untuk qnormseri ini menghasilkan:

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

Hasilnya persis seperti yang diharapkan: normalitas dari distribusi normal adalah normal. Membuat qqnorm(qnorm(xseq))menciptakan (seperti yang diharapkan) garis lurus data:

qqnorm plot data

Jika boxplot dari data yang sama dibuat, boxplot(qnorm(xseq))hasilkan:

boxplot data

Boxplot, tidak seperti shapiro.test, ad.testatau qqnormmengidentifikasi beberapa titik sebagai outlier ketika ukuran sampel cukup besar (seperti dalam contoh ini).

Tavrock
sumber
apa yang kamu maksud dengan "basis"? ini adalah beberapa definisi, dan tidak ada yang mengatakan distribusi normal tidak memiliki outlier
Haitao Du
2
@ hxd1011, definisi distribusi tidak boleh merupakan pencilan dari dirinya sendiri. Definisi pengujian untuk pencilan pada kotak dan plot kumis adalah pengujian / sesuatu / untuk memberikan hasilnya, apa pun pengujiannya akan menjadi dasar pengujian.
Tavrock
Saya pikir definisi outlier kotak dan kumis hanya beberapa heuristik ... Juga, mengapa definisi distribusi tidak dapat memiliki outlier dari diri sendiri?
Haitao Du
3
Tidak masalah aturan apa yang Anda pilih, Anda akan berakhir mengatakan "dengan sejumlah besar poin, bahkan distribusi yang normal akan menghasilkan outlier". [Cobalah untuk menemukan cara mengidentifikasi outlier yang berguna yang tidak dapat menolak poin jika Anda mengambil sampel dari distribusi normal.]
Glen_b -Reinstate Monica
1
Anekdot yang sering diulang adalah bahwa John Tukey, yang datang dengan aturan praktis ini, ditanya mengapa 1.5; dan berkata bahwa aku akan terlalu sedikit dan terlalu banyak. Mengingat beberapa kali saya telah melihatnya salah membaca sebagai kriteria definitif, oracular, saya akan lebih dari senang untuk itu memudar. Sekarang kita semua memiliki komputer yang dapat menampilkan semua data!
Nick Cox

Jawaban:

25

Petak kotak

Berikut adalah bagian yang relevan dari Hoaglin, Mosteller dan Tukey (2000): Memahami Robust and Exploratory Data Analysis. Wiley . Bab 3, "Boxplots dan Batch Perbandingan", ditulis oleh John D. Emerson dan Judith Strenio (dari halaman 62):

FL32dFFU+32dF

FLFUdFFUFL

Mereka melanjutkan dan menunjukkan aplikasi ke populasi Gaussian (halaman 63):

0100.67450.67451.34943322.02352±2.69822399.3%

Begitu

0.7%

Selanjutnya, mereka menulis

[...] Dengan demikian kita dapat menilai apakah data kita nampak lebih berekor daripada Gaussian dengan berapa banyak poin yang berada di luar batas outlier. [...]

Mereka menyediakan tabel dengan proporsi nilai yang diharapkan yang berada di luar batas outlier (diberi label "Total% Keluar"):

Tabel 3-2

Jadi cutoffs ini di mana tidak pernah dimaksudkan untuk menjadi aturan ketat tentang poin data apa yang outlier atau tidak. Seperti yang Anda catat, bahkan distribusi normal yang sempurna diharapkan untuk menunjukkan "pencilan" dalam sebuah kotak.


Pencilan

Sejauh yang saya tahu, tidak ada definisi pencilan yang diterima secara universal. Saya suka definisi oleh Hawkins (1980):

Pencilan adalah pengamatan yang menyimpang begitu banyak dari pengamatan lain sehingga menimbulkan kecurigaan bahwa itu dihasilkan oleh mekanisme yang berbeda.

Idealnya, Anda hanya harus memperlakukan titik data sebagai outlier setelah Anda memahami mengapa mereka tidak termasuk dalam data lainnya. Aturan sederhana tidak cukup. Perlakuan outlier yang baik dapat ditemukan di Aggarwal (2013).

Referensi

Aggarwal CC (2013): Analisis Pencilan. Peloncat.
Hawkins D (1980): Identifikasi Pencilan. Chapman dan Hall.
Hoaglin, Mosteller dan Tukey (2000): Memahami Analisis Data Yang Kuat dan Eksplorasi. Wiley.

COOLSerdash
sumber
7

Kata 'outlier' sering dianggap memiliki arti seperti 'nilai data yang keliru, menyesatkan, salah atau rusak dan karenanya harus dihilangkan dari analisis', tetapi bukan itu yang dimaksud Tukey dengan penggunaan outlier-nya. Outlier hanyalah titik yang jauh dari median dataset.

Poin Anda tentang mengharapkan pencilan dalam banyak kumpulan data adalah benar dan penting. Dan ada banyak pertanyaan dan jawaban yang bagus tentang topik tersebut.

Menghapus pencilan dari data asimetris

Apakah pantas untuk mengidentifikasi dan menghapus pencilan karena menyebabkan masalah?

Michael Lew - mengembalikan Monica
sumber
2

Seperti halnya semua metode deteksi outlier, perawatan dan pemikiran harus digunakan untuk menentukan nilai apa yang benar-benar outlier. Saya pikir boxplot hanya menyediakan visualisasi yang baik dari penyebaran data dan pencilan yang benar akan mudah ditangkap.

bdeonovic
sumber
0

Saya pikir Anda harus khawatir jika Anda tidak mendapatkan beberapa outlier sebagai bagian dari distribusi normal, jika tidak, Anda mungkin harus mencari alasan tidak ada. Jelas mereka harus ditinjau untuk memastikan mereka tidak merekam kesalahan, tetapi mereka diharapkan.

Robert Jones
sumber