Saya mencari cara untuk menghapus outlier dari dataset dan saya menemukan pertanyaan ini .
Namun, dalam beberapa komentar dan jawaban untuk pertanyaan ini, orang-orang menyebutkan bahwa itu adalah praktik yang buruk untuk menghapus pencilan dari data.
Dalam dataset saya, saya memiliki beberapa outlier yang sangat mungkin hanya karena kesalahan pengukuran. Bahkan jika beberapa dari mereka tidak, saya tidak punya cara memeriksanya per kasus, karena ada terlalu banyak titik data. Apakah secara statistik valid daripada hanya untuk menghapus outlier? Atau, jika tidak, apa yang bisa menjadi solusi lain?
Jika saya membiarkan saja poin-poin itu di sana, mereka mempengaruhi misalnya mean dengan cara yang tidak mencerminkan kenyataan (karena kebanyakan dari mereka adalah kesalahan).
EDIT: Saya bekerja dengan data konduktansi kulit. Sebagian besar nilai ekstrem disebabkan oleh artefak seperti seseorang menarik kabel.
EDIT2: Ketertarikan utama saya dalam menganalisis data adalah untuk menentukan apakah ada perbedaan antara dua kelompok
Jawaban:
Saya tidak merekomendasikan mengecualikan outlier dalam analisis utama (kecuali jika Anda benar-benar positif mereka salah). Anda dapat melakukannya dalam analisis sensitivitas, dan membandingkan hasil kedua analisis tersebut. Dalam sains, seringkali Anda menemukan hal-hal baru secara tepat ketika berfokus pada pencilan seperti itu.
Untuk lebih rinci, pikirkan saja penemuan semut Fleming tentang penisilin, berdasarkan kontaminasi yang tidak disengaja dari eksperimennya dengan cetakan:
http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1
Melihat masa lalu dekat atau sekarang, deteksi outlier sering digunakan untuk memandu inovasi dalam ilmu biomedis. Lihat misalnya artikel berikut (dengan beberapa kode R yang sesuai):
http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-artart-a2599-abstract?article_id=2599
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678
Akhirnya, jika Anda memiliki alasan yang masuk akal untuk mengecualikan beberapa data, Anda dapat melakukannya, lebih disukai dalam analisis sensitivitas, dan bukan yang primer. Misalnya Anda dapat mengecualikan semua nilai yang tidak masuk akal secara biologis (seperti suhu 48 derajat Celcius pada pasien septik). Demikian pula, Anda bisa mengecualikan semua pengukuran pertama dan terakhir untuk setiap pasien, untuk meminimalkan artefak gerakan. Namun perhatikan bahwa jika Anda melakukan ini post-hoc (tidak didasarkan pada kriteria yang ditentukan sebelumnya), risiko ini sama dengan memijat data.
sumber
Satu pilihan adalah untuk mengecualikan outlier, tetapi IMHO itu adalah sesuatu yang harus Anda hanya lakukan jika Anda dapat berdebat (dengan hampir pasti) mengapa poin tersebut tidak valid (misalnya peralatan pengukuran rusak, metode pengukuran tidak dapat diandalkan karena alasan tertentu, ...). Misalnya dalam pengukuran domain frekuensi, DC sering dibuang karena banyak istilah berbeda berkontribusi untuk DC, cukup sering tidak berhubungan dengan fenomena yang Anda coba amati.
Masalah dengan menghapus outlier, adalah untuk menentukan poin outlier, Anda harus memiliki model yang baik tentang apa yang bukan atau tidak "data yang baik". Jika Anda tidak yakin dengan model (faktor apa yang harus dimasukkan, struktur apa yang dimiliki model, apa asumsi kebisingan, ...), maka Anda tidak dapat yakin tentang outlier Anda. Pencilan tersebut mungkin hanya sampel yang mencoba memberi tahu Anda bahwa model Anda salah. Dengan kata lain: menghapus pencilan akan memperkuat model (salah!) Anda, alih-alih memungkinkan Anda untuk mendapatkan wawasan baru!
Pilihan lain, adalah menggunakan statistik yang kuat. Misalnya mean dan standar deviasi sensitif terhadap outlier, metrik "lokasi" dan "penyebaran" lainnya lebih kuat. Misalnya, bukannya rata-rata, gunakan median. Alih-alih standar deviasi, gunakan rentang antar kuartil. Alih-alih regresi kuadrat-terkecil standar, Anda bisa menggunakan regresi kuat. Semua metode yang kuat itu menekankan outlier dengan satu atau lain cara, tetapi mereka biasanya tidak menghapus data outlier sepenuhnya (yaitu hal yang baik).
sumber
Kupikir aku akan menambahkan kisah peringatan tentang menghapus outlier:
Ingat masalah dengan lubang di lapisan ozon kutub? Ada satelit yang diletakkan di orbit di atas kutub khusus untuk mengukur konsentrasi ozon. Selama beberapa tahun, data pasca-proses dari satelit melaporkan bahwa ozon kutub hadir pada tingkat normal, meskipun sumber lain dengan jelas menunjukkan bahwa ozon hilang. Akhirnya seseorang kembali untuk memeriksa perangkat lunak satelit. Ternyata seseorang telah menulis kode untuk memeriksa apakah pengukuran mentah berada dalam kisaran yang diharapkan tentang tingkat historis tipikal, dan untuk menganggap bahwa setiap pengukuran di luar rentang hanyalah instrumen 'lonjakan' (yaitu pencilan), otomatis mengoreksi nilai . Untungnya mereka juga mencatat pengukuran mentah; saat memeriksa mereka, mereka melihat bahwa lubang itu telah dilaporkan selama ini.
sumber
'Pencilan' adalah istilah yang mudah untuk mengumpulkan data yang tidak sesuai dengan yang Anda harapkan dari proses Anda, untuk menghapus dari analisis.
Saya akan menyarankan tidak pernah (peringatan kemudian) menghapus outlier. Latar belakang saya adalah kontrol proses statistik, sehingga sering berurusan dengan volume besar dari data time-series yang dihasilkan secara otomatis yang diproses menggunakan run chart / petak kotak bergerak / dll. Tergantung pada data dan distribusi.
Masalahnya dengan outlier adalah bahwa mereka akan selalu memberikan informasi tentang 'proses' Anda. Seringkali apa yang Anda pikirkan sebagai satu proses sebenarnya banyak proses dan jauh lebih kompleks daripada yang Anda berikan penghargaan.
Menggunakan contoh dalam pertanyaan Anda, saya akan menyarankan mungkin ada sejumlah 'proses'. akan ada variasi karena ...
Semua proses ini akan menghasilkan variasi ekstra dalam data dan mungkin akan memindahkan mean dan mengubah bentuk distribusi. Banyak dari ini Anda tidak akan dapat dipisahkan ke dalam proses yang berbeda.
Jadi pergi ke gagasan untuk menghapus poin data sebagai 'outlier' ... Saya hanya akan menghapus poin data, ketika saya pasti dapat menghubungkannya dengan 'proses' tertentu yang ingin saya tidak sertakan dalam analisis saya. Anda kemudian perlu memastikan bahwa alasan untuk tidak disertakan dicatat sebagai bagian dari analisis Anda, jadi itu sudah jelas. Jangan menganggap atribusi, itu hal utama tentang membuat catatan tambahan melalui pengamatan selama pengumpulan data Anda.
Saya akan menantang pernyataan Anda 'karena toh sebagian besar dari mereka adalah kesalahan', karena mereka bukan kesalahan, tetapi hanya bagian dari proses berbeda yang telah Anda identifikasi dalam pengukuran Anda sebagai berbeda.
Dalam contoh Anda, saya pikir masuk akal untuk mengecualikan poin data yang dapat Anda atributkan ke proses terpisah yang tidak ingin Anda analisis.
sumber
Jika Anda menghapus outlier, dalam sebagian besar situasi Anda perlu mendokumentasikan bahwa Anda melakukannya dan mengapa. Jika ini untuk makalah ilmiah, atau untuk tujuan pengaturan, ini bisa mengakibatkan statistik akhir Anda didiskon dan / atau ditolak.
Solusi yang lebih baik adalah mengidentifikasi ketika Anda berpikir Anda mendapatkan data yang buruk (misalnya ketika orang menarik kabel), kemudian mengidentifikasi ketika orang menarik kabel, dan menarik data karena alasan itu. Ini mungkin juga akan mengakibatkan beberapa poin data 'baik' hilang, tetapi Anda sekarang memiliki alasan 'nyata' untuk memberi tag dan diskon pada titik data tersebut di akhir pengumpulan daripada di akhir analisis. Selama Anda melakukannya dengan bersih dan transparan, itu jauh lebih mungkin diterima oleh pihak ketiga. Jika Anda menghapus titik data yang terkait dengan kabel yang ditarik, dan Anda masih mendapatkan outlier, maka kesimpulan yang mungkin adalah bahwa kabel yang ditarik bukan masalah (satu-satunya) - masalah selanjutnya bisa dengan desain eksperimen Anda, atau teori Anda.
Salah satu eksperimen pertama yang dimiliki ibu saya ketika kembali ke universitas untuk menyelesaikan BSc-nya adalah ketika siswa diberi teori 'buruk' tentang bagaimana suatu proses bekerja, dan kemudian disuruh menjalankan eksperimen. Siswa yang menghapus atau mengubah titik data 'buruk' yang dihasilkan gagal tugas. Mereka yang melaporkan dengan benar bahwa data mereka tidak setuju dengan hasil yang diprediksi oleh teori (buruk), berlalu. Inti dari tugas ini adalah untuk mengajarkan siswa untuk tidak 'memperbaiki' (memalsukan) data mereka ketika itu tidak seperti yang diharapkan.
Ringkasan: jika Anda menghasilkan data yang buruk, maka perbaiki eksperimen Anda, bukan data.
sumber
Ini memang dilema moral. Di satu sisi, mengapa Anda membiarkan beberapa titik data yang mencurigakan merusak kesesuaian model Anda dengan sebagian besar data? Di sisi lain, menghapus pengamatan yang tidak setuju dengan konsep realitas model Anda adalah semacam sensor. Untuk titik @ Egon, outlier-outlier itu bisa mencoba memberitahumu sesuatu tentang kenyataan itu.
Dalam presentasi dari ahli statistik Steve MacEachern, ia mendefinisikan outlier sebagai "[tidak mewakili fenomena yang diteliti.]" Di bawah sudut pandang itu, jika Anda merasa bahwa titik data mencurigakan ini tidak mewakili fenomena konduktansi kulit yang Anda coba pelajari , mungkin mereka tidak termasuk dalam analisis. Atau jika mereka diizinkan untuk tinggal, metode harus digunakan yang membatasi pengaruh mereka. Dalam presentasi yang sama MacEachern memberikan contoh metode yang kuat, dan saya ingat bahwa, dalam beberapa contoh itu, metode klasik dengan pencilan dihapus selalu setuju dengan analisis yang kuat dengan pencilan yang masih disertakan. Secara pribadi, saya cenderung bekerja dengan teknik klasik yang paling saya sukai dan hidup dengan ketidakpastian moral penghapusan outlier.
sumber
Jika saya melakukan sampel acak sebanyak 100 orang, dan salah satu dari mereka adalah Bill Gates, maka sejauh yang saya tahu, Bill Gates mewakili 1/100 populasi.
Rata-rata yang dipangkas memberi tahu saya penghasilan lotere rata-rata adalah $ 0.
sumber
Tentu saja Anda harus menghapus outlier, karena menurut definisi mereka tidak mengikuti distribusi di bawah pengawasan dan merupakan fenomena parasit.
Pertanyaan sebenarnya adalah "bagaimana saya bisa mendeteksi outlier dengan andal"!
sumber