Apakah ada cara sederhana untuk mendeteksi outlier?

14

Saya bertanya-tanya apakah ada cara sederhana untuk mendeteksi outlier.

Untuk salah satu proyek saya, yang pada dasarnya merupakan korelasi antara berapa kali responden berpartisipasi dalam aktivitas fisik dalam seminggu dan berapa kali mereka makan di luar rumah (makanan cepat saji) dalam seminggu, saya menggambar sebar dan benar-benar menghapus titik data yang ekstrem. (Scatterplot menunjukkan korelasi negatif.)

Ini didasarkan pada penilaian nilai (berdasarkan sebar di mana titik-titik data ini jelas ekstrim). Saya tidak melakukan tes statistik apa pun.

Saya hanya ingin tahu apakah ini cara yang baik untuk berurusan dengan outlier.

Saya memiliki data dari 350 orang sehingga kehilangan (katakanlah) 20 titik data tidak mengkhawatirkan saya.

Amarald
sumber
Lihat juga jawaban untuk pertanyaan serupa definisi ketat pencilan
Jonas
3
Juga sangat terkait erat adalah stats.stackexchange.com/questions/175 . Banyak metode deteksi outlier potensial dijelaskan dalam jawaban di stats.stackexchange.com/questions/213 . Tetapi yang lebih penting adalah konteks : apa yang Anda lakukan dengan sebar ini? Kesimpulan apa yang Anda coba tarik darinya? Beberapa kesimpulan akan sedikit bergantung pada apa yang Anda lakukan dengan outlier, sedangkan yang lain mungkin bergantung pada mereka secara kritis. Ini menunjukkan bahwa metode yang Anda gunakan untuk mengidentifikasi dan menangani outlier harus bergantung pada analisis yang dimaksud.
Whuber
Dalam dataset ekonomi, praktik standarnya hanyalah dengan mengatakan "Kami memutar-mutar dataset pada 2,5% dan 97,5%", atau sebagai alternatif 1% dan 99%. Kemudian mereka hanya menghapus pengamatan yang berada di luar rentang kuantil itu.
@ Harokitty Winsorising tampaknya berarti memotong nilai daripada membuangnya.
Peter Wood
Saya akan merekomendasikan bahwa Anda juga melaporkan plot pencar yang belum diedit terlepas dari kesalahan dalam perekaman data. Mungkin saja ada satu atau lebih populasi berbeda tambahan. Sebagai contoh, lihat entri Wikipedia untuk diagram Hertzsprung – Russell di en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram
Robert Jones

Jawaban:

21

Tidak ada cara sederhana untuk menghilangkan outlier. Pencilan dapat terdiri dari dua jenis:

1) Kesalahan entri data. Ini sering yang paling mudah dikenali dan selalu yang paling mudah untuk dihadapi. Jika Anda dapat menemukan data yang tepat, perbaiki; jika tidak, hapus saja.

2) Data sah yang tidak biasa. Ini jauh lebih sulit. Untuk data bivariat seperti milik Anda, pencilan dapat berupa univariat atau bivariat.

a) Univariat. Pertama, "tidak biasa" tergantung pada distribusi dan ukuran sampel. Anda memberi kami ukuran sampel 350, tetapi apa distribusinya? Jelas tidak normal, karena itu bilangan bulat yang relatif kecil. Apa yang tidak biasa di bawah Poisson tidak akan berada di bawah binomial negatif. Saya agak curiga hubungan binomial negatif nol-meningkat.

Tetapi bahkan ketika Anda memiliki distribusi, outlier (mungkin) akan mempengaruhi parameter. Anda dapat melihat distribusi "tinggalkan satu", di mana Anda memeriksa apakah titik data q akan menjadi pencilan jika data memiliki semua titik selain q. Meski begitu, bagaimana jika ada banyak outlier?

b) Bivariat. Di sinilah nilai variabel tidak biasa dalam dirinya sendiri, tetapi bersama-sama mereka aneh. Mungkin ada laporan apokrif bahwa sensus pernah mengatakan ada 20.000 janda berusia 12 tahun di Amerika Serikat. 12 tahun tidak biasa, janda juga tidak, tetapi janda 12 tahun adalah tidak biasa.

Mengingat semua ini, mungkin lebih mudah untuk melaporkan ukuran hubungan yang kuat.

Peter Flom - Pasang kembali Monica
sumber
Terima kasih. Saya berpikir mungkin elips kepercayaan akan menjadi indikator outlier yang baik karena akan menunjukkan persen data yang akan berada dalam tingkat kepercayaan tertentu (diberikan distribusi normal bivariat).
Amarald
Data Anda tidak boleh bivariat normal, karena terdiri dari bilangan bulat non-negatif
Peter Flom - Reinstate Monica
18

Saya telah melakukan banyak penelitian tentang pencilan, khususnya ketika saya mengerjakan validasi data energi di Oak Ridge dari tahun 1978 hingga 1980. Ada tes formal untuk pencilan univariat untuk data normal (misalnya, uji Grubb dan uji rasio Dixon). Ada tes untuk pencilan multivarian dan seri waktu. Buku karya Barnett dan Lewis tentang "Pencilan Data Statistik" adalah Alkitab tentang pencilan dan mencakup hampir segalanya.

Ketika saya berada di Oak Ridge mengerjakan validasi data, kami memiliki banyak set data multivarian. Untuk outlier univariat ada arah untuk ekstrem (sangat di atas rata-rata dan sangat di bawah rata-rata). Tetapi untuk outlier multivarian ada banyak arah untuk mencari outlier. Filosofi kami adalah untuk mempertimbangkan apa tujuan penggunaan data. Jika Anda mencoba memperkirakan parameter tertentu seperti korelasi bivariat atau koefisien regresi, maka Anda ingin melihat ke arah yang memberikan efek terbesar pada parameter bunga. Pada waktu itu saya telah membaca karya Mallows yang tidak dipublikasikan tentang fungsi pengaruh. Penggunaan fungsi pengaruh untuk mendeteksi outlier dicakup dalam buku analisis multivariat Gnanadesikan. Tentu saja Anda dapat menemukannya di Barnett dan Lewis juga.

Fungsi pengaruh untuk parameter didefinisikan pada titik-titik dalam ruang multivariat dari pengamatan dan pada dasarnya mengukur perbedaan antara estimasi parameter ketika titik data dimasukkan dibandingkan dengan ketika ditinggalkan. Anda dapat melakukan estimasi tersebut dengan setiap titik sampel tetapi biasanya Anda dapat memperoleh bentuk fungsional yang bagus untuk fungsi pengaruh yang memberikan wawasan dan perhitungan yang lebih cepat.

Misalnya dalam makalah saya di American Journal of Matematika dan Ilmu Manajemen pada tahun 1982 "Fungsi Pengaruh dan Penerapannya pada Validasi Data" Saya menunjukkan rumus analitik untuk fungsi pengaruh untuk korelasi bivariat dan bahwa kontur pengaruh konstan adalah hiperbola. Jadi kontur menunjukkan arah pada bidang di mana fungsi pengaruh meningkat paling cepat.

Dalam makalah saya, saya menunjukkan bagaimana kami menerapkan fungsi pengaruh untuk korelasi bivariat dengan data FPC Form 4 tentang pembangkitan dan konsumsi energi. Ada korelasi positif yang sangat tinggi antara keduanya dan kami menemukan beberapa outlier yang sangat berpengaruh pada estimasi korelasi. Investigasi lebih lanjut menunjukkan bahwa setidaknya salah satu poin salah dan kami dapat memperbaikinya.

Tapi poin penting yang selalu saya sebutkan ketika membahas outlier adalah bahwa penolakan otomatis itu salah. Pencilan tidak selalu merupakan kesalahan dan terkadang memberikan informasi penting tentang data. Data yang valid tidak boleh dihapus hanya karena tidak sesuai dengan teori realitas kami. Apakah itu sulit dilakukan atau tidak, alasan mengapa pencilan terjadi harus selalu diselidiki.

Saya harus menyebutkan bahwa ini bukan pertama kalinya outlier multivarian telah dibahas di situs ini. Pencarian outlier mungkin akan menimbulkan beberapa pertanyaan di mana outlier multivariat telah dibahas. Saya tahu bahwa saya telah merujuk makalah saya dan buku-buku ini sebelumnya dan memberikan tautan kepada mereka.

Juga ketika penolakan outlier dibahas banyak dari kita di situs ini telah merekomendasikan menentangnya terutama jika itu dilakukan hanya berdasarkan tes statistik. Peter Huber sering menyebutkan estimasi kuat sebagai alternatif penolakan outlier. Idenya adalah bahwa prosedur yang kuat akan menurunkan bobot outlier mengurangi efeknya pada estimasi tanpa langkah berat menolaknya dan menggunakan estimator yang tidak kuat.

Fungsi pengaruh sebenarnya dikembangkan oleh Frank Hampel dalam disertasi PhD-nya pada awal 1970-an (saya kira 1974). Idenya sebenarnya adalah untuk menggunakan fungsi pengaruh untuk mengidentifikasi penduga yang tidak kuat terhadap outlier dan untuk membantu mengembangkan penduga yang kuat.

Berikut adalah tautan ke diskusi sebelumnya tentang topik ini di mana saya menyebutkan beberapa pekerjaan saya tentang mendeteksi pencilan dalam deret waktu menggunakan fungsi pengaruh.

Michael R. Chernick
sumber
2

Pendekatan sederhana lain untuk berurusan dengan pencilan adalah dengan menggunakan statistik non-parametrik. Mungkin dengan ukuran sampel Anda, Spearman rho akan bekerja dengan baik sebagai indeks korelasi. (Namun, perhatikan bahwa statistik non-parametrik dan peringkat-urutan tidak banyak membantu Anda dengan hubungan non-linear.)

Jika Anda ingin menggunakan r Pearson (statistik parametrik), dan jika Anda tidak dapat menghitung jarak Cook, Anda dapat menggunakan standar praktis bahwa titik data apa pun yang lebih dari 2,67 standar deviasi (sd) dari mean , atau 4,67 sd dari rata-rata adalah outlier atau ekstrim. Ini adalah nilai cutoff tipikal untuk outlier dan titik data ekstrim yang digunakan dalam satu program analisis statistik standar (SPSS).

Hanya karena suatu titik data merupakan pencilan tidak berarti itu adalah data yang buruk untuk dibuang. Anda dapat menghitung korelasi Anda dengan dan tanpa poin ekstrim dan pergi dari sana.

Joel W.
sumber
1

Anda mungkin ingin mencoba Jarak Cook. Lihat artikel wikipedia untuk potongan yang disarankan. Juga, jika Anda menuju ke beberapa model regresi, maka Anda mungkin ingin mencoba regresi yang kuat.

Eric Brown
sumber
1
Ini lebih seperti komentar daripada jawaban; jawabannya biasanya lebih panjang dan lebih rinci. Misalnya, jika Anda memasukkan alasan mengapa jarak Cook adalah ujian yang baik untuk pencilan dan karenanya, ini akan menjadi jawaban.
Peter Flom - Reinstate Monica
1

Pertama, jangan hapus nilai-nilai atipikal kecuali Anda yakin itu di luar studi! Mereka mungkin mengandung beberapa informasi penting (variabilitas). Anda harus membuangnya jika jelas bahwa pencilan disebabkan oleh data yang dimasukkan atau diukur secara tidak benar. Jika Anda tidak tahu metode pengambilan sampel yang digunakan untuk mendapatkan data Anda, maka Anda harus mengidentifikasi nilai atipikal dan efeknya sebagai berikut:

  1. Tingkat kelainan: diharapkan 5% dari pengamatan dengan residu yang terstarisasi (esaya)> 2. Jika Anda memiliki residu yang lebih tinggi, Anda dapat mencurigai outlier.

  2. Tingkat jarak ke pusat gravitasi di ruang x's: hsayasaya(pengaruh). Ketika beberapahsayasaya sangat tinggi Anda memiliki pengamatan yang dapat merusak model Anda karena berada di luar jangkauan studi Anda.

  3. Tingkat pengaruh pada model yang dipasang: Poin yang berpengaruh adalah yang memiliki bobot yang cukup untuk mengubah model Anda. Kemudian, koefisien model pas menggunakan semua n pengamatan sangat berbeda dari koefisien model pas menggunakan semua titik tetapi tidak pengamatan inisaya-th.
    Jarak Cook atau Cook's D adalah estimasi yang biasa digunakan tentang pengaruh suatu titik data. :DCsaya=esaya2·hsayasaya/[(1-hsayasaya)·hal]

Solusi yang memungkinkan:

  • Mengubah variabel dan / atau menambahkan variabel baru ke model.
  • Untuk pengamatan berpengaruh yang tidak lain adalah pencilan, jika tidak banyak, Anda dapat menghapus individu-individu tersebut.
pengguna7334982
sumber