Saya bertanya-tanya apakah ada cara sederhana untuk mendeteksi outlier.
Untuk salah satu proyek saya, yang pada dasarnya merupakan korelasi antara berapa kali responden berpartisipasi dalam aktivitas fisik dalam seminggu dan berapa kali mereka makan di luar rumah (makanan cepat saji) dalam seminggu, saya menggambar sebar dan benar-benar menghapus titik data yang ekstrem. (Scatterplot menunjukkan korelasi negatif.)
Ini didasarkan pada penilaian nilai (berdasarkan sebar di mana titik-titik data ini jelas ekstrim). Saya tidak melakukan tes statistik apa pun.
Saya hanya ingin tahu apakah ini cara yang baik untuk berurusan dengan outlier.
Saya memiliki data dari 350 orang sehingga kehilangan (katakanlah) 20 titik data tidak mengkhawatirkan saya.
correlation
outliers
Amarald
sumber
sumber
Jawaban:
Tidak ada cara sederhana untuk menghilangkan outlier. Pencilan dapat terdiri dari dua jenis:
1) Kesalahan entri data. Ini sering yang paling mudah dikenali dan selalu yang paling mudah untuk dihadapi. Jika Anda dapat menemukan data yang tepat, perbaiki; jika tidak, hapus saja.
2) Data sah yang tidak biasa. Ini jauh lebih sulit. Untuk data bivariat seperti milik Anda, pencilan dapat berupa univariat atau bivariat.
a) Univariat. Pertama, "tidak biasa" tergantung pada distribusi dan ukuran sampel. Anda memberi kami ukuran sampel 350, tetapi apa distribusinya? Jelas tidak normal, karena itu bilangan bulat yang relatif kecil. Apa yang tidak biasa di bawah Poisson tidak akan berada di bawah binomial negatif. Saya agak curiga hubungan binomial negatif nol-meningkat.
Tetapi bahkan ketika Anda memiliki distribusi, outlier (mungkin) akan mempengaruhi parameter. Anda dapat melihat distribusi "tinggalkan satu", di mana Anda memeriksa apakah titik data q akan menjadi pencilan jika data memiliki semua titik selain q. Meski begitu, bagaimana jika ada banyak outlier?
b) Bivariat. Di sinilah nilai variabel tidak biasa dalam dirinya sendiri, tetapi bersama-sama mereka aneh. Mungkin ada laporan apokrif bahwa sensus pernah mengatakan ada 20.000 janda berusia 12 tahun di Amerika Serikat. 12 tahun tidak biasa, janda juga tidak, tetapi janda 12 tahun adalah tidak biasa.
Mengingat semua ini, mungkin lebih mudah untuk melaporkan ukuran hubungan yang kuat.
sumber
Saya telah melakukan banyak penelitian tentang pencilan, khususnya ketika saya mengerjakan validasi data energi di Oak Ridge dari tahun 1978 hingga 1980. Ada tes formal untuk pencilan univariat untuk data normal (misalnya, uji Grubb dan uji rasio Dixon). Ada tes untuk pencilan multivarian dan seri waktu. Buku karya Barnett dan Lewis tentang "Pencilan Data Statistik" adalah Alkitab tentang pencilan dan mencakup hampir segalanya.
Ketika saya berada di Oak Ridge mengerjakan validasi data, kami memiliki banyak set data multivarian. Untuk outlier univariat ada arah untuk ekstrem (sangat di atas rata-rata dan sangat di bawah rata-rata). Tetapi untuk outlier multivarian ada banyak arah untuk mencari outlier. Filosofi kami adalah untuk mempertimbangkan apa tujuan penggunaan data. Jika Anda mencoba memperkirakan parameter tertentu seperti korelasi bivariat atau koefisien regresi, maka Anda ingin melihat ke arah yang memberikan efek terbesar pada parameter bunga. Pada waktu itu saya telah membaca karya Mallows yang tidak dipublikasikan tentang fungsi pengaruh. Penggunaan fungsi pengaruh untuk mendeteksi outlier dicakup dalam buku analisis multivariat Gnanadesikan. Tentu saja Anda dapat menemukannya di Barnett dan Lewis juga.
Fungsi pengaruh untuk parameter didefinisikan pada titik-titik dalam ruang multivariat dari pengamatan dan pada dasarnya mengukur perbedaan antara estimasi parameter ketika titik data dimasukkan dibandingkan dengan ketika ditinggalkan. Anda dapat melakukan estimasi tersebut dengan setiap titik sampel tetapi biasanya Anda dapat memperoleh bentuk fungsional yang bagus untuk fungsi pengaruh yang memberikan wawasan dan perhitungan yang lebih cepat.
Misalnya dalam makalah saya di American Journal of Matematika dan Ilmu Manajemen pada tahun 1982 "Fungsi Pengaruh dan Penerapannya pada Validasi Data" Saya menunjukkan rumus analitik untuk fungsi pengaruh untuk korelasi bivariat dan bahwa kontur pengaruh konstan adalah hiperbola. Jadi kontur menunjukkan arah pada bidang di mana fungsi pengaruh meningkat paling cepat.
Dalam makalah saya, saya menunjukkan bagaimana kami menerapkan fungsi pengaruh untuk korelasi bivariat dengan data FPC Form 4 tentang pembangkitan dan konsumsi energi. Ada korelasi positif yang sangat tinggi antara keduanya dan kami menemukan beberapa outlier yang sangat berpengaruh pada estimasi korelasi. Investigasi lebih lanjut menunjukkan bahwa setidaknya salah satu poin salah dan kami dapat memperbaikinya.
Tapi poin penting yang selalu saya sebutkan ketika membahas outlier adalah bahwa penolakan otomatis itu salah. Pencilan tidak selalu merupakan kesalahan dan terkadang memberikan informasi penting tentang data. Data yang valid tidak boleh dihapus hanya karena tidak sesuai dengan teori realitas kami. Apakah itu sulit dilakukan atau tidak, alasan mengapa pencilan terjadi harus selalu diselidiki.
Saya harus menyebutkan bahwa ini bukan pertama kalinya outlier multivarian telah dibahas di situs ini. Pencarian outlier mungkin akan menimbulkan beberapa pertanyaan di mana outlier multivariat telah dibahas. Saya tahu bahwa saya telah merujuk makalah saya dan buku-buku ini sebelumnya dan memberikan tautan kepada mereka.
Juga ketika penolakan outlier dibahas banyak dari kita di situs ini telah merekomendasikan menentangnya terutama jika itu dilakukan hanya berdasarkan tes statistik. Peter Huber sering menyebutkan estimasi kuat sebagai alternatif penolakan outlier. Idenya adalah bahwa prosedur yang kuat akan menurunkan bobot outlier mengurangi efeknya pada estimasi tanpa langkah berat menolaknya dan menggunakan estimator yang tidak kuat.
Fungsi pengaruh sebenarnya dikembangkan oleh Frank Hampel dalam disertasi PhD-nya pada awal 1970-an (saya kira 1974). Idenya sebenarnya adalah untuk menggunakan fungsi pengaruh untuk mengidentifikasi penduga yang tidak kuat terhadap outlier dan untuk membantu mengembangkan penduga yang kuat.
Berikut adalah tautan ke diskusi sebelumnya tentang topik ini di mana saya menyebutkan beberapa pekerjaan saya tentang mendeteksi pencilan dalam deret waktu menggunakan fungsi pengaruh.
sumber
Pendekatan sederhana lain untuk berurusan dengan pencilan adalah dengan menggunakan statistik non-parametrik. Mungkin dengan ukuran sampel Anda, Spearman rho akan bekerja dengan baik sebagai indeks korelasi. (Namun, perhatikan bahwa statistik non-parametrik dan peringkat-urutan tidak banyak membantu Anda dengan hubungan non-linear.)
Jika Anda ingin menggunakan r Pearson (statistik parametrik), dan jika Anda tidak dapat menghitung jarak Cook, Anda dapat menggunakan standar praktis bahwa titik data apa pun yang lebih dari 2,67 standar deviasi (sd) dari mean , atau 4,67 sd dari rata-rata adalah outlier atau ekstrim. Ini adalah nilai cutoff tipikal untuk outlier dan titik data ekstrim yang digunakan dalam satu program analisis statistik standar (SPSS).
Hanya karena suatu titik data merupakan pencilan tidak berarti itu adalah data yang buruk untuk dibuang. Anda dapat menghitung korelasi Anda dengan dan tanpa poin ekstrim dan pergi dari sana.
sumber
Anda mungkin ingin mencoba Jarak Cook. Lihat artikel wikipedia untuk potongan yang disarankan. Juga, jika Anda menuju ke beberapa model regresi, maka Anda mungkin ingin mencoba regresi yang kuat.
sumber
Pertama, jangan hapus nilai-nilai atipikal kecuali Anda yakin itu di luar studi! Mereka mungkin mengandung beberapa informasi penting (variabilitas). Anda harus membuangnya jika jelas bahwa pencilan disebabkan oleh data yang dimasukkan atau diukur secara tidak benar. Jika Anda tidak tahu metode pengambilan sampel yang digunakan untuk mendapatkan data Anda, maka Anda harus mengidentifikasi nilai atipikal dan efeknya sebagai berikut:
Tingkat kelainan: diharapkan 5% dari pengamatan dengan residu yang terstarisasi (esaya∗ )> 2. Jika Anda memiliki residu yang lebih tinggi, Anda dapat mencurigai outlier.
Tingkat jarak ke pusat gravitasi di ruang x's:hi i (pengaruh). Ketika beberapahi i sangat tinggi Anda memiliki pengamatan yang dapat merusak model Anda karena berada di luar jangkauan studi Anda.
Tingkat pengaruh pada model yang dipasang: Poin yang berpengaruh adalah yang memiliki bobot yang cukup untuk mengubah model Anda. Kemudian, koefisien model pas menggunakan semua n pengamatan sangat berbeda dari koefisien model pas menggunakan semua titik tetapi tidak pengamatan inisaya -th. D Csaya= e i ∗2⋅ hi i/ [(1- ji i) ⋅ p ]
Jarak Cook atau Cook's D adalah estimasi yang biasa digunakan tentang pengaruh suatu titik data. :
Solusi yang memungkinkan:
sumber