Di bawah definisi klasik dari pencilan sebagai titik data di luar 1,5 * IQR dari kuartil atas atau bawah, ada asumsi distribusi tidak miring. Untuk distribusi miring (Eksponensial, Poisson, Geometris, dll) adalah cara terbaik untuk mendeteksi pencilan dengan menganalisis transformasi fungsi asli?
Misalnya, distribusi yang secara longgar diatur oleh distribusi eksponensial, dapat ditransformasikan dengan fungsi log - pada titik mana dapat diterima untuk mencari pencilan berdasarkan definisi IQR yang sama?
1.5*IQR
definisi pencilan tidak diterima secara universal. Coba bongkar pertanyaan Anda dan perluas masalah yang Anda coba selesaikan.Jawaban:
Ini adalah aturan untuk mengidentifikasi titik-titik di luar ujung kumis dalam kotak. Tukey sendiri tidak akan keberatan untuk menyebut mereka outlier atas dasar ini (dia tidak selalu menganggap poin di luar batas itu sebagai outlier). Ini lebih baik berupa poin yang - jika data Anda diharapkan dari distribusi yang agak mirip dengan distribusi normal - orang mungkin akan diselidiki lebih lanjut (seperti memeriksa Anda tidak mengubah dua digit, misalnya) - paling banyak bisa menjadi pencilan potensial . Seperti yang ditunjukkan oleh Nick Cox dalam komentar di bawah jawaban ini , ekor dari banyak poin seperti itu akan dianggap lebih sebagai indikator bahwa ekspresi ulang mungkin lebih cocok daripada indikasi perlunya menganggap poin sebagai outlier.
Saya berasumsi dengan 'non-condong' yang Anda maksud simetris. Maka anggapannya lebih dari itu. Distribusi berat tetapi simetris mungkin memiliki banyak poin di luar batas pada aturan itu.
Itu tergantung pada apa yang merupakan pencilan untuk tujuan Anda. Tidak ada definisi tunggal yang cocok untuk setiap tujuan - memang, umumnya Anda mungkin lebih baik melakukan hal-hal lain yang (katakanlah) memilih outlier dan menghilangkannya.
Untuk eksponensial atau geometris, Anda mungkin melakukan perhitungan yang serupa dengan yang untuk plot kotak, tetapi yang akan mengidentifikasi fraksi yang sama di ekor kanan saja (Anda tidak akan memiliki titik-titik low-end diidentifikasi dalam eksponensial atau geometris) † .. atau Anda mungkin melakukan hal lain.†
Dalam sampel besar, boxplot menandai sekitar 0,35% poin di setiap ujung, atau sekitar 0,7% secara total. Untuk eksponensial, Anda dapat menandai beberapa median, misalnya. Jika Anda ingin menandai sekitar 0,7% dari total poin untuk eksponensial aktual, itu akan menyarankan menandai poin di luar sekitar 7,1 kali median.†
Menandai poin di atas 7,1 kali median untuk n = 1000 biasanya akan mencapai antara 0,4% hingga 1,1% dari nilai:
Itu benar-benar tergantung pada apa yang Anda maksud dengan "dapat diterima". Perhatikan, bahwa -
i) distribusi yang dihasilkan sebenarnya tidak simetris, tetapi condong ke kiri.
Akibatnya, Anda biasanya hanya akan menandai poin di ujung kiri (yaitu mendekati nol, di mana Anda mengharapkan nilai eksponensial tetap) daripada di kanan (di mana "outlier" mungkin), kecuali mereka benar - benar ekstrim.
ii) kesesuaian aturan seperti itu akan sangat tergantung pada apa yang Anda lakukan.
Jika Anda khawatir tentang nilai aneh ganjil yang mempengaruhi kesimpulan Anda, secara umum, Anda mungkin lebih baik menggunakan prosedur yang kuat daripada mengidentifikasi outlier secara formal.
Jika Anda benar-benar ingin menggunakan aturan berbasis normal untuk mentransformasikan data eksponensial atau Poisson, setidaknya saya sarankan menerapkannya ke akar kuadrat ‡ untuk Poisson (selama rata-rata tidak terlalu kecil, seharusnya kira-kira normal) dan untuk memotong akar atau bahkan akar keempat untuk eksponensial (dan mungkin, dengan ekstensi, geometrik).‡
atau mungkin √‡ , seperti padatransformasi AnscombeX+ 38-----√
Untuk eksponensial, dalam sampel besar pendekatan cube-root akan cenderung untuk menandai poin hanya di ekor atas (pada tingkat yang kira-kira sama itu menandai mereka di ekor atas untuk normal) dan pendekatan akar keempat menandai poin di kedua ekor (sedikit lebih banyak di ekor bawah, total pada sesuatu yang mendekati 40% dari laju yang dilakukannya untuk normal). Dari kemungkinan-kemungkinan, root cube lebih masuk akal bagi saya daripada dua yang lain, tapi saya tidak akan menyarankan menggunakan ini sebagai aturan keras dan cepat.
sumber
Saya akan menjawab pertanyaan Anda dalam urutan yang berlawanan dengan yang Anda tanyakan, sehingga paparan berlangsung dari spesifik ke umum.
Pertama, mari kita pertimbangkan situasi di mana Anda dapat mengasumsikan bahwa kecuali untuk sebagian kecil pencilan, sebagian besar data Anda dapat digambarkan dengan baik oleh distribusi yang diketahui (dalam kasus Anda eksponensial).
Penaksir MLE biasa dari parameter adalah [0, p 506]:
dan
Berikut adalah contoh di
R
:Alternatif untuk MLE mentah adalah (a) menemukan outlier menggunakan aturan identifikasi outlier yang kuat , (b) menyisihkannya sebagai data palsu dan (c) menghitung MLE pada bagian yang tidak palsu dari sampel.
Aturan identifikasi outlier kuat yang paling terkenal adalah aturan med / mad yang diusulkan oleh Hampel [3] yang menghubungkannya dengan Gauss (saya menggambarkan aturan ini di sini ). Dalam aturan med / mad, ambang penolakan didasarkan pada asumsi bahwa pengamatan asli dalam sampel Anda didekati dengan baik oleh distribusi normal.
Tentu saja, jika Anda memiliki informasi tambahan (seperti mengetahui bahwa distribusi pengamatan asli diperkirakan dengan baik oleh distribusi poisson seperti dalam contoh ini ) tidak ada yang mencegah Anda mengubah data Anda dan menggunakan aturan penolakan outlier dasar ( med / mad) tapi ini membuat saya agak canggung untuk mengubah data untuk mempertahankan apa yang akhirnya merupakan aturan ad-hoc.
Tampaknya jauh lebih logis bagi saya untuk menyimpan data tetapi menyesuaikan aturan penolakan. Kemudian, Anda masih akan menggunakan prosedur 3 langkah yang saya jelaskan di tautan pertama di atas, tetapi dengan ambang penolakan disesuaikan dengan distribusi Anda mencurigai bagian baik dari data. Di bawah ini, saya memberikan aturan penolakan dalam situasi di mana pengamatan asli dilengkapi dengan distribusi eksponensial. Dalam hal ini, Anda bisa membuat ambang penolakan yang baik menggunakan aturan berikut:
2) tolak karena semua pengamatan di luar palsu [2, p 188]
(faktor 9 dalam aturan di atas diperoleh sebagai 7.1 dalam jawaban Glen_b di atas, tetapi menggunakan cut-off yang lebih tinggi. Faktor (1 + 2 / n) adalah faktor koreksi sampel kecil yang diperoleh dengan simulasi dalam [2]. Untuk ukuran sampel yang cukup besar, pada dasarnya sama dengan 1).
menggunakan aturan ini pada contoh sebelumnya, Anda akan mendapatkan:
Pada contoh ketiga:
Sekarang, untuk kasus umum di mana Anda tidak memiliki distribusi kandidat yang baik agar sesuai dengan sebagian besar pengamatan Anda di luar mengetahui bahwa distribusi simetris tidak akan dilakukan, Anda dapat menggunakan boxplot yang disesuaikan [4]. Ini adalah generalisasi dari boxplot yang memperhitungkan ukuran kemiringan (non parametrik dan outlier) dari data Anda (sehingga ketika sebagian besar data simetris runtuh ke boxplot yang biasa). Anda juga dapat memeriksa jawaban ini untuk ilustrasi.
sumber
Pertama, saya akan mempertanyakan definisi, klasik atau sebaliknya. "Pencilan" adalah poin yang mengejutkan. Menggunakan aturan tertentu (bahkan untuk distribusi simetris) adalah ide yang cacat, terutama saat ini ketika ada begitu banyak set data besar. Dalam kumpulan data (katakanlah) satu juta pengamatan (tidak terlalu besar, di beberapa bidang), akan ada banyak kasus di luar batas 1,5 IQR yang Anda sebutkan, bahkan jika distribusinya normal-normal saja.
Kedua, saya sarankan mencari pencilan pada data asli. Ini hampir selalu lebih intuitif. Misalnya, dengan data pendapatan, cukup umum untuk mengambil log. Tetapi bahkan di sini saya akan mencari outlier pada skala asli (dolar atau euro atau apa pun) karena kita memiliki perasaan yang lebih baik untuk angka-angka seperti itu. (Jika Anda mengambil log, saya sarankan log base 10, setidaknya untuk deteksi outlier, karena setidaknya sedikit intuitif).
Ketiga, saat mencari pencilan, waspadalah terhadap penyamaran.
Akhirnya, saya sedang meneliti algoritma "pencarian maju" yang diusulkan oleh Atkinson dan Riani untuk berbagai macam data dan masalah. Ini terlihat sangat menjanjikan.
sumber