Data Winsorizing berarti mengganti nilai ekstrem dari kumpulan data dengan nilai persentil tertentu dari masing-masing ujung, sementara Pemangkasan atau Pemotongan melibatkan penghapusan nilai ekstrem tersebut.
Saya selalu melihat kedua metode yang dibahas sebagai opsi yang layak untuk mengurangi efek pencilan ketika menghitung statistik seperti mean atau standar deviasi, tetapi saya belum melihat mengapa satu dapat memilih satu dari yang lain.
Apakah ada keuntungan atau kerugian relatif untuk menggunakan Winsorizing atau Trimming? Adakah situasi tertentu di mana satu metode lebih disukai? Apakah salah satu lebih sering digunakan dalam praktik atau pada dasarnya mereka dapat dipertukarkan?
Jawaban:
Dalam pertanyaan yang berbeda, namun terkait pada pemangkasan yang baru saja saya temui, satu jawaban memiliki wawasan bermanfaat berikut mengapa seseorang dapat menggunakan winorizing atau pemangkasan:
Saya ingin tahu apakah ada pendekatan yang lebih pasti, tetapi logika di atas terdengar masuk akal.
sumber
Sebuah pertanyaan bagus yang sangat sering dihadapi di semua bidang! Dalam kedua kasus Anda secara teknis menghapusnya dari kumpulan data.
Saya tahu ini adalah praktik umum ketika mencoba menemukan tren secara grafis untuk menggunakan bentuk pemotongan: gunakan seluruh kumpulan data untuk tujuan merencanakan, tetapi kemudian mengecualikan nilai ekstrem untuk interpretasi.
Masalah dengan 'winorizing' adalah bahwa bagian-bagian yang Anda tambahkan adalah pemenuhan diri, yaitu mereka berasal dari kumpulan data itu sendiri dan karenanya hanya mendukungnya. Ada masalah simlar jika Anda melihat pekerjaan validasi silang / klasifikasi dalam pembelajaran mesin, saat memutuskan bagaimana menggunakan pelatihan dan menguji kumpulan data.
Saya belum menemukan pendekatan standar dalam hal apa pun - itu selalu spesifik data. Anda dapat mencoba mencari tahu persentil mana data Anda (pencilan) yang menyebabkan persentase tertentu dari volatilitas / st. penyimpangan, dan menemukan keseimbangan antara mengurangi volatilitas itu tetapi mempertahankan sebanyak mungkin data.
sumber
Ini adalah pertanyaan yang bagus, dan saya pernah berhadapan dengannya. Dalam kasus di mana Anda memiliki dataset besar atau lebih tepatnya dataset yang bervariasi, di mana minoritas nilai data bervariasi dalam skala yang luas (namun demikian harus ditunjukkan), dan sebagian besar dataset berada dalam pita sempit, sehingga jika data diplot sebagaimana adanya, rincian di mana sebagian besar data hilang, dan normalisasi atau standardisasi tidak menunjukkan diferensiasi yang memadai (setidaknya secara visual), atau, data mentah diperlukan sebagai gantinya, kemudian memotong atau memenangkan data nilai data ekstrem membantu visualisasi data yang lebih baik.
sumber
O ( n )O(nlogn) O(n) (1,2,3,4,4) (2+2+3+4+4)/5 (2+3+4)/3 (2+3+4+4)/4
sumber