Apakah saya boleh menghapus outlier dari data?

33

Saya mencari cara untuk menghapus outlier dari dataset dan saya menemukan pertanyaan ini .

Namun, dalam beberapa komentar dan jawaban untuk pertanyaan ini, orang-orang menyebutkan bahwa itu adalah praktik yang buruk untuk menghapus pencilan dari data.

Dalam dataset saya, saya memiliki beberapa outlier yang sangat mungkin hanya karena kesalahan pengukuran. Bahkan jika beberapa dari mereka tidak, saya tidak punya cara memeriksanya per kasus, karena ada terlalu banyak titik data. Apakah secara statistik valid daripada hanya untuk menghapus outlier? Atau, jika tidak, apa yang bisa menjadi solusi lain?

Jika saya membiarkan saja poin-poin itu di sana, mereka mempengaruhi misalnya mean dengan cara yang tidak mencerminkan kenyataan (karena kebanyakan dari mereka adalah kesalahan).

EDIT: Saya bekerja dengan data konduktansi kulit. Sebagian besar nilai ekstrem disebabkan oleh artefak seperti seseorang menarik kabel.

EDIT2: Ketertarikan utama saya dalam menganalisis data adalah untuk menentukan apakah ada perbedaan antara dua kelompok

Sininho
sumber
3
Dan apa yang ingin kamu lakukan? Ringkasan data? Analisis prediktif? Visualisasi data? Membuktikan bahwa ada (tidak ada) perbedaan yang signifikan antara dua kelompok? Seperti halnya semua pembersihan data, tidak ada jawaban umum.
Piotr Migdal
5
Saya seorang insinyur yang bekerja dengan banyak statistik. Itu adalah penafian dan pengakuan yang berarti saya harus mengirimkan produk. Kami hanya diizinkan untuk menghapus poin "buruk" yang sepenuhnya dikaitkan. Bisakah Anda membuktikannya dari seseorang yang menarik kawat? Jika Anda mendapatkan beberapa ukuran yang disengaja, Anda dapat mengikat dan mengelompok di sana. Kemudian Anda dapat membagi data pada cluster (tarik vs non-tarik) dan ini bukan tentang outlier lagi. Jika Anda tidak dapat membuktikan apa penyebab dasarnya, Anda harus (harus) mempertahankannya. Ini berbicara tentang variasi, dan itu adalah sebagian besar analisis. Anda tidak dapat menyingkirkannya jika Anda tidak menyukainya.
EngrStudent
4
Saya pikir Anda mulai dari ujung yang salah. Pertanyaan pertama adalah bagaimana Anda mengidentifikasi outlier di tempat pertama?
user603
5
Daripada menghilangkan sewenang-wenang pencilan yang diidentifikasi secara sewenang-wenang, Anda mungkin lebih baik mempertimbangkan sesuatu seperti "karena saya memiliki kontaminasi dari masalah seperti orang yang menggunakan kabel, metodologi apa yang dapat saya gunakan yang tidak terkena dampak buruk pencemaran seperti itu?"
Glen_b -Reinstate Monica

Jawaban:

26

Saya tidak merekomendasikan mengecualikan outlier dalam analisis utama (kecuali jika Anda benar-benar positif mereka salah). Anda dapat melakukannya dalam analisis sensitivitas, dan membandingkan hasil kedua analisis tersebut. Dalam sains, seringkali Anda menemukan hal-hal baru secara tepat ketika berfokus pada pencilan seperti itu.

Untuk lebih rinci, pikirkan saja penemuan semut Fleming tentang penisilin, berdasarkan kontaminasi yang tidak disengaja dari eksperimennya dengan cetakan:

http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1

Melihat masa lalu dekat atau sekarang, deteksi outlier sering digunakan untuk memandu inovasi dalam ilmu biomedis. Lihat misalnya artikel berikut (dengan beberapa kode R yang sesuai):

http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-artart-a2599-abstract?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

Akhirnya, jika Anda memiliki alasan yang masuk akal untuk mengecualikan beberapa data, Anda dapat melakukannya, lebih disukai dalam analisis sensitivitas, dan bukan yang primer. Misalnya Anda dapat mengecualikan semua nilai yang tidak masuk akal secara biologis (seperti suhu 48 derajat Celcius pada pasien septik). Demikian pula, Anda bisa mengecualikan semua pengukuran pertama dan terakhir untuk setiap pasien, untuk meminimalkan artefak gerakan. Namun perhatikan bahwa jika Anda melakukan ini post-hoc (tidak didasarkan pada kriteria yang ditentukan sebelumnya), risiko ini sama dengan memijat data.

Joe_74
sumber
5
Setuju, tetapi saya menemukan jawaban ini entah bagaimana singkat untuk membenarkannya. Mungkin Anda bisa memberikan contoh yang berhasil, atau menunjukkan mengapa dan bagaimana hal baru dapat ditemukan saat fokus pada pencilan? Ini mungkin tidak begitu jelas pada pandangan pertama.
Tim
26

Satu pilihan adalah untuk mengecualikan outlier, tetapi IMHO itu adalah sesuatu yang harus Anda hanya lakukan jika Anda dapat berdebat (dengan hampir pasti) mengapa poin tersebut tidak valid (misalnya peralatan pengukuran rusak, metode pengukuran tidak dapat diandalkan karena alasan tertentu, ...). Misalnya dalam pengukuran domain frekuensi, DC sering dibuang karena banyak istilah berbeda berkontribusi untuk DC, cukup sering tidak berhubungan dengan fenomena yang Anda coba amati.

Masalah dengan menghapus outlier, adalah untuk menentukan poin outlier, Anda harus memiliki model yang baik tentang apa yang bukan atau tidak "data yang baik". Jika Anda tidak yakin dengan model (faktor apa yang harus dimasukkan, struktur apa yang dimiliki model, apa asumsi kebisingan, ...), maka Anda tidak dapat yakin tentang outlier Anda. Pencilan tersebut mungkin hanya sampel yang mencoba memberi tahu Anda bahwa model Anda salah. Dengan kata lain: menghapus pencilan akan memperkuat model (salah!) Anda, alih-alih memungkinkan Anda untuk mendapatkan wawasan baru!

Pilihan lain, adalah menggunakan statistik yang kuat. Misalnya mean dan standar deviasi sensitif terhadap outlier, metrik "lokasi" dan "penyebaran" lainnya lebih kuat. Misalnya, bukannya rata-rata, gunakan median. Alih-alih standar deviasi, gunakan rentang antar kuartil. Alih-alih regresi kuadrat-terkecil standar, Anda bisa menggunakan regresi kuat. Semua metode yang kuat itu menekankan outlier dengan satu atau lain cara, tetapi mereka biasanya tidak menghapus data outlier sepenuhnya (yaitu hal yang baik).

Egon
sumber
5
Jawaban yang bagus Kebanyakan orang tidak menyadari bahwa tidak setiap teknik cocok untuk setiap jenis data . Berkonsentrasi pada rata-rata untuk data yang dikendarai dengan pencilan adalah salah satu hasil yang disayangkan. Semakin banyak panggilan bangun yang mereka dapatkan, dari jawaban seperti ini, semakin baik untuk semua orang.
rumtscho
16

Kupikir aku akan menambahkan kisah peringatan tentang menghapus outlier:

Ingat masalah dengan lubang di lapisan ozon kutub? Ada satelit yang diletakkan di orbit di atas kutub khusus untuk mengukur konsentrasi ozon. Selama beberapa tahun, data pasca-proses dari satelit melaporkan bahwa ozon kutub hadir pada tingkat normal, meskipun sumber lain dengan jelas menunjukkan bahwa ozon hilang. Akhirnya seseorang kembali untuk memeriksa perangkat lunak satelit. Ternyata seseorang telah menulis kode untuk memeriksa apakah pengukuran mentah berada dalam kisaran yang diharapkan tentang tingkat historis tipikal, dan untuk menganggap bahwa setiap pengukuran di luar rentang hanyalah instrumen 'lonjakan' (yaitu pencilan), otomatis mengoreksi nilai . Untungnya mereka juga mencatat pengukuran mentah; saat memeriksa mereka, mereka melihat bahwa lubang itu telah dilaporkan selama ini.

PMar
sumber
12
Akan lebih baik untuk memasukkan referensi ke kejadian : Mengapa mereka tidak menemukan fenomena sebelumnya? Sayangnya, perangkat lunak analisis data TOMS telah diprogram untuk menandai dan menyisihkan titik data yang sangat menyimpang dari pengukuran yang diharapkan, sehingga pengukuran awal yang seharusnya memicu alarm diabaikan. Singkatnya, tim TOMS gagal mendeteksi penipisan ozon bertahun-tahun sebelumnya karena jauh lebih parah dari yang diperkirakan para ilmuwan.
Johnny
3
Ini adalah kisah yang luar biasa. dan banyak diulang, tetapi bagi saya math.uni-augsburg.de/stochastik/pukelsheim/1990c.pdf meyakinkan mengidentifikasi itu sebagai mitos berdasarkan kesalahpahaman. Perhatikan kebetulan bahwa karena ada dua kutub, "lapisan ozon kutub" perlu ditulis ulang.
Nick Cox
3
Lihat juga akun otoritatif Christie. M. 2001. Lapisan Ozon Perspektif Filsafat Sains. Cambridge: Cambridge UP
Nick Cox
7

'Pencilan' adalah istilah yang mudah untuk mengumpulkan data yang tidak sesuai dengan yang Anda harapkan dari proses Anda, untuk menghapus dari analisis.

Saya akan menyarankan tidak pernah (peringatan kemudian) menghapus outlier. Latar belakang saya adalah kontrol proses statistik, sehingga sering berurusan dengan volume besar dari data time-series yang dihasilkan secara otomatis yang diproses menggunakan run chart / petak kotak bergerak / dll. Tergantung pada data dan distribusi.

Masalahnya dengan outlier adalah bahwa mereka akan selalu memberikan informasi tentang 'proses' Anda. Seringkali apa yang Anda pikirkan sebagai satu proses sebenarnya banyak proses dan jauh lebih kompleks daripada yang Anda berikan penghargaan.

Menggunakan contoh dalam pertanyaan Anda, saya akan menyarankan mungkin ada sejumlah 'proses'. akan ada variasi karena ...

  • sampel diambil oleh satu perangkat konduktansi
  • sampel diambil antara perangkat konduktansi
  • saat subjek menghapus probe
  • saat subjek bergerak
  • perbedaan dalam satu kulit subjek di seluruh tubuh mereka atau antara hari-hari pengambilan sampel yang berbeda (rambut, kelembaban, minyak, dll)
  • perbedaan antar subjek
  • pelatihan orang yang melakukan pengukuran dan variasi antar staf

Semua proses ini akan menghasilkan variasi ekstra dalam data dan mungkin akan memindahkan mean dan mengubah bentuk distribusi. Banyak dari ini Anda tidak akan dapat dipisahkan ke dalam proses yang berbeda.

Jadi pergi ke gagasan untuk menghapus poin data sebagai 'outlier' ... Saya hanya akan menghapus poin data, ketika saya pasti dapat menghubungkannya dengan 'proses' tertentu yang ingin saya tidak sertakan dalam analisis saya. Anda kemudian perlu memastikan bahwa alasan untuk tidak disertakan dicatat sebagai bagian dari analisis Anda, jadi itu sudah jelas. Jangan menganggap atribusi, itu hal utama tentang membuat catatan tambahan melalui pengamatan selama pengumpulan data Anda.

Saya akan menantang pernyataan Anda 'karena toh sebagian besar dari mereka adalah kesalahan', karena mereka bukan kesalahan, tetapi hanya bagian dari proses berbeda yang telah Anda identifikasi dalam pengukuran Anda sebagai berbeda.

Dalam contoh Anda, saya pikir masuk akal untuk mengecualikan poin data yang dapat Anda atributkan ke proses terpisah yang tidak ingin Anda analisis.

Marcus D
sumber
6

Jika Anda menghapus outlier, dalam sebagian besar situasi Anda perlu mendokumentasikan bahwa Anda melakukannya dan mengapa. Jika ini untuk makalah ilmiah, atau untuk tujuan pengaturan, ini bisa mengakibatkan statistik akhir Anda didiskon dan / atau ditolak.

Solusi yang lebih baik adalah mengidentifikasi ketika Anda berpikir Anda mendapatkan data yang buruk (misalnya ketika orang menarik kabel), kemudian mengidentifikasi ketika orang menarik kabel, dan menarik data karena alasan itu. Ini mungkin juga akan mengakibatkan beberapa poin data 'baik' hilang, tetapi Anda sekarang memiliki alasan 'nyata' untuk memberi tag dan diskon pada titik data tersebut di akhir pengumpulan daripada di akhir analisis. Selama Anda melakukannya dengan bersih dan transparan, itu jauh lebih mungkin diterima oleh pihak ketiga. Jika Anda menghapus titik data yang terkait dengan kabel yang ditarik, dan Anda masih mendapatkan outlier, maka kesimpulan yang mungkin adalah bahwa kabel yang ditarik bukan masalah (satu-satunya) - masalah selanjutnya bisa dengan desain eksperimen Anda, atau teori Anda.

Salah satu eksperimen pertama yang dimiliki ibu saya ketika kembali ke universitas untuk menyelesaikan BSc-nya adalah ketika siswa diberi teori 'buruk' tentang bagaimana suatu proses bekerja, dan kemudian disuruh menjalankan eksperimen. Siswa yang menghapus atau mengubah titik data 'buruk' yang dihasilkan gagal tugas. Mereka yang melaporkan dengan benar bahwa data mereka tidak setuju dengan hasil yang diprediksi oleh teori (buruk), berlalu. Inti dari tugas ini adalah untuk mengajarkan siswa untuk tidak 'memperbaiki' (memalsukan) data mereka ketika itu tidak seperti yang diharapkan.

Ringkasan: jika Anda menghasilkan data yang buruk, maka perbaiki eksperimen Anda, bukan data.

darkonc
sumber
5

Ini memang dilema moral. Di satu sisi, mengapa Anda membiarkan beberapa titik data yang mencurigakan merusak kesesuaian model Anda dengan sebagian besar data? Di sisi lain, menghapus pengamatan yang tidak setuju dengan konsep realitas model Anda adalah semacam sensor. Untuk titik @ Egon, outlier-outlier itu bisa mencoba memberitahumu sesuatu tentang kenyataan itu.

Dalam presentasi dari ahli statistik Steve MacEachern, ia mendefinisikan outlier sebagai "[tidak mewakili fenomena yang diteliti.]" Di bawah sudut pandang itu, jika Anda merasa bahwa titik data mencurigakan ini tidak mewakili fenomena konduktansi kulit yang Anda coba pelajari , mungkin mereka tidak termasuk dalam analisis. Atau jika mereka diizinkan untuk tinggal, metode harus digunakan yang membatasi pengaruh mereka. Dalam presentasi yang sama MacEachern memberikan contoh metode yang kuat, dan saya ingat bahwa, dalam beberapa contoh itu, metode klasik dengan pencilan dihapus selalu setuju dengan analisis yang kuat dengan pencilan yang masih disertakan. Secara pribadi, saya cenderung bekerja dengan teknik klasik yang paling saya sukai dan hidup dengan ketidakpastian moral penghapusan outlier.

Ben Ogorek
sumber
8
Dalam Box, Hunter & Hunter: "Statistics for Experimenters" mereka mengatakan bahwa, di industri kimia, outlier sering mengarah pada paten baru . Apakah Anda ingin membuang paten baru Anda?
kjetil b halvorsen
2
Tidak, saya tidak mau ketinggalan paten. Tetapi saya juga tidak ingin berputar dua belas siklus mencoba untuk mendapatkan model saya untuk mengakomodasi "seseorang menarik kabel." Itu hampir pasti bukan fenomena yang sedang diteliti. Saya memang menyukai ide outlier sebagai peluang, dan satu hal yang bisa dikatakan untuk penghapusan langsung adalah bahwa setidaknya kode akan memberikan dokumentasi penghapusan itu, sedangkan dalam metode yang kuat outlier hanya semacam hidup berdampingan dengan poin lainnya.
Ben Ogorek
2
Anda benar bahwa keadaan khusus harus dipertimbangkan. Apa yang tidak boleh dilakukan adalah menerapkan beberapa "aturan" bebas konteks untuk penolakan outlier. Tidak ada aturan yang baik.
kjetil b halvorsen
1
Poin favorit saya tentang kekuatan konteks diilustrasikan oleh pertanyaan, "Apakah Snickers bar sehat?" Nah, jika Anda telah tersesat di hutan selama tiga hari dan Anda baru saja menemukan beberapa di tanah, ternyata mereka cukup sehat. Saya merasa seperti jawaban populer di sini memberi tahu kami, "Jangan pernah makan Snickers bar, kecuali Anda benar-benar yakin Anda akan mati jika tidak."
Ben Ogorek
0

Jika saya melakukan sampel acak sebanyak 100 orang, dan salah satu dari mereka adalah Bill Gates, maka sejauh yang saya tahu, Bill Gates mewakili 1/100 populasi.

Rata-rata yang dipangkas memberi tahu saya penghasilan lotere rata-rata adalah $ 0.

AdamO
sumber
Tidak ada yang abnormal, rata-rata yang dipangkas tidak cocok untuk distribusi miring.
Yves Daoust
-2

Tentu saja Anda harus menghapus outlier, karena menurut definisi mereka tidak mengikuti distribusi di bawah pengawasan dan merupakan fenomena parasit.

Pertanyaan sebenarnya adalah "bagaimana saya bisa mendeteksi outlier dengan andal"!

Yves Daoust
sumber
Bagaimana jika distribusi seperti itu adalah Cauchy?
AdamO
@ AdamO: pertanyaan sebenarnya tetap, tentu saja.
Yves Daoust
Mengapa ini downvote?
Yves Daoust
3
(-1) karena saya tidak berpikir ini adalah kontribusi yang cukup berdasarkan teori, contoh, atau praktik. Apa itu "fenomena parasit" tapi pemahaman data yang puitis? Dalam berurusan dengan tekanan darah, natrium urin, dan pencitraan neurologis, saya melihat "pencilan" setiap hari yang mewakili populasi yang sedang dipertimbangkan. Menghapusnya bisa menjadi sumber bias yang signifikan. Mengatakan mereka adalah "fenomena parasit" secara sugestif dan menipu memungkinkan praktik statistik yang berisiko.
AdamO
@adam: Anda hanya menganjurkan untuk menyimpan inliers, yang saya setujui sepenuhnya.
Yves Daoust