Menghapus outlier dari data - jumlah outlier maksimum yang dapat Anda hapus?
9
Saya memiliki beberapa pencilan dalam data saya dan saya ingin mengecualikan mereka untuk melihat apakah ini mengubah hasil. Menurut Anda, berapa outlier maksimum yang harus dibatasi oleh seseorang?
Grafik Anda rusak di sini: label numerik pada sumbu y hilang dan entri legenda tidak berbeda. (Itu mungkin cara menyembunyikan data yang tidak dipublikasikan, tetapi itu tidak membantu kami untuk memberi Anda nasihat yang baik.) Legenda samar tidak memengaruhi pertanyaan Anda, tetapi tidak mengetahui skala apa yang Anda kerjakan membatasi ruang lingkup untuk jawaban yang bermanfaat . Data seperti yang ditunjukkan menunjukkan kecenderungan kiri atau negatif yang moderat; ini mungkin masuk akal, dan pencilan yang tampak hanya merupakan konsekuensi dari itu. Atau, mungkin Anda memiliki transformasi berlebihan, misalnya logaritma yang digunakan di mana data tidak pantas untuk itu.
Nick Cox
Jawaban:
9
Tidak ada maksimum atau minimum. Pencilan harus dihapus jika itu adalah data yang buruk atau jika ada alasan substantif lain untuk menghapusnya. Jika tidak ada alasan substantif, maka saya sarankan menggunakan metode yang kuat untuk outlier. Saya tidak akan menghapus outlier hanya karena mereka agak jauh dari poin lain.
Sepakat. Perhatikan bahwa Box, Hunter & Hunter: "Statistics for Experimenters" mengatakan bahwa dalam industri kimia, outlier sering menghasilkan paten baru! Tergantung pada keadaan, pencilan bisa menjadi bagian informasi yang paling penting dalam data Anda! Menghapusnya seharusnya tidak mudah.
kjetil b halvorsen
3
Juga dalam astrofisika. "Mari kita hapus lubang hitam dan bintang neutron dari data" :-).
Peter Flom
1
Peter Flom: Ya! Dan di antara manusia, jika tidak ada outlier di antara kita, kita masih akan hidup di zaman batu!
kjetil b halvorsen
5
Dalam contoh ini, perhatikan bahwa semua 7 outlier berlabel memiliki nilai rendah, sementara tidak ada yang memiliki nilai tinggi. Itu mungkin mewakili masalah dengan pengukuran, atau mungkin berarti sesuatu yang sangat menarik. Either way, hanya menghapus outlier di sini tanpa mempertimbangkan apa yang menyebabkan nilai-nilai yang rendah tampaknya tidak disarankan.
EdM
1
Saya menafsirkan pertanyaannya sedikit berbeda. Itu tidak mengusulkan penghapusan pencilan dari analisis, yang merupakan asumsi jawaban ini secara implisit. Hanya bertanya bagaimana melakukan analisis sensitivitas "untuk melihat apakah ini mengubah hasil." Meskipun saran yang diberikan di sini tentang apakah untuk menghapus outlier baik-baik saja - dan jelas akan memiliki beberapa bantalan pada keputusan berikutnya jika ternyata analisis adalah sensitif terhadap outlier - tampaknya tidak untuk melayani kepentingan OP dalam kasus ini.
whuber
1
Saya akan menekankan pada sesuatu yang dikatakan dalam jawaban dan komentar lain (saya pikir bahwa jawaban @Peter Flom akurat dan bahwa EdM benar tentang pengukuran, di antara semuanya).
Menganalisis data adalah sesuatu yang harus dilakukan dengan hati-hati. Anda harus sangat menyadari arti outlier dalam kontak Anda. Misalnya, dengan asumsi bahwa prosedur pengukuran Anda dilakukan "dengan benar" (maksud saya, Anda belum memperkenalkan bias, peralatan Anda dikalibrasi, orang yang membaca instrumen melakukannya dengan benar, dll.), Beberapa pencilan mungkin mengatakan sesuatu yang menarik dan terkadang sangat penting.
Berikut ini adalah contoh yang dibuat, harap memanjakan (tunjukkan dalam komentar) jika tidak 100% benar di semua aspek. ;)
Katakanlah seseorang sedang menguji pengaruh pemberian sejumlah zat pada beberapa kultur (populasi) bakteri. Sekarang, "secara umum", efeknya adalah menstabilkan jumlah bakteri dalam populasi, tetapi ada beberapa pencilan di antara kultur yang berbeda.
Bayangkan semua pencilan menunjukkan situasi di mana semua bakteri mati. Atau bahwa semua pencilan mewakili kultur di mana populasi bakteri telah tumbuh di luar kendali.
Yang ingin saya tunjukkan adalah bahwa sifat outlier yang Anda rasakan mungkin bermakna dan konsekuensinya masing-masing berbeda. Anda mungkin berada dalam situasi di mana tidak dapat ditoleransi bahwa jumlah bakteri meningkat, atau berkurang.
Tentu saja, jika Anda memperhatikan bahwa beberapa populasi di mana terhapus oleh zat tersebut, Anda mungkin akan menyelidiki masalah ini karena itu adalah situasi yang mudah dikenali. Namun tidak semua fenomena mudah dideteksi.
Singkatnya, gagasan outlier agak sewenang-wenang, tetapi maknanya beragam dan penting berbeda. Semoga itu akan membuat Anda berpikir tentang masalah ini ... :)
Jawaban:
Tidak ada maksimum atau minimum. Pencilan harus dihapus jika itu adalah data yang buruk atau jika ada alasan substantif lain untuk menghapusnya. Jika tidak ada alasan substantif, maka saya sarankan menggunakan metode yang kuat untuk outlier. Saya tidak akan menghapus outlier hanya karena mereka agak jauh dari poin lain.
sumber
Saya akan menekankan pada sesuatu yang dikatakan dalam jawaban dan komentar lain (saya pikir bahwa jawaban @Peter Flom akurat dan bahwa EdM benar tentang pengukuran, di antara semuanya).
Menganalisis data adalah sesuatu yang harus dilakukan dengan hati-hati. Anda harus sangat menyadari arti outlier dalam kontak Anda. Misalnya, dengan asumsi bahwa prosedur pengukuran Anda dilakukan "dengan benar" (maksud saya, Anda belum memperkenalkan bias, peralatan Anda dikalibrasi, orang yang membaca instrumen melakukannya dengan benar, dll.), Beberapa pencilan mungkin mengatakan sesuatu yang menarik dan terkadang sangat penting.
Berikut ini adalah contoh yang dibuat, harap memanjakan (tunjukkan dalam komentar) jika tidak 100% benar di semua aspek. ;)
Katakanlah seseorang sedang menguji pengaruh pemberian sejumlah zat pada beberapa kultur (populasi) bakteri. Sekarang, "secara umum", efeknya adalah menstabilkan jumlah bakteri dalam populasi, tetapi ada beberapa pencilan di antara kultur yang berbeda.
Bayangkan semua pencilan menunjukkan situasi di mana semua bakteri mati. Atau bahwa semua pencilan mewakili kultur di mana populasi bakteri telah tumbuh di luar kendali.
Yang ingin saya tunjukkan adalah bahwa sifat outlier yang Anda rasakan mungkin bermakna dan konsekuensinya masing-masing berbeda. Anda mungkin berada dalam situasi di mana tidak dapat ditoleransi bahwa jumlah bakteri meningkat, atau berkurang.
Tentu saja, jika Anda memperhatikan bahwa beberapa populasi di mana terhapus oleh zat tersebut, Anda mungkin akan menyelidiki masalah ini karena itu adalah situasi yang mudah dikenali. Namun tidak semua fenomena mudah dideteksi.
Singkatnya, gagasan outlier agak sewenang-wenang, tetapi maknanya beragam dan penting berbeda. Semoga itu akan membuat Anda berpikir tentang masalah ini ... :)
sumber