Saya memiliki satu set data dengan semua panggilan yang dilakukan ke layanan darurat dan waktu respons dari departemen ambulans. Mereka mengakui bahwa ada beberapa kesalahan dengan waktu respons karena ada kasus di mana mereka tidak mulai merekam (jadi nilainya 0) atau di mana mereka tidak menghentikan jam (sehingga nilainya bisa sangat tinggi).
Saya ingin mengetahui kecenderungan sentral dan saya bertanya-tanya apakah lebih baik menggunakan median atau rata-rata yang dipotong untuk menyingkirkan outlier?
mean
outliers
median
trimmed-mean
Duarte_RV
sumber
sumber
Jawaban:
Pertimbangkan apa yang dipangkas artinya: Dalam kasus prototipe, pertama-tama Anda mengurutkan data dalam urutan yang meningkat. Kemudian Anda menghitung hingga persentase pemangkasan dari bawah dan membuang nilai-nilai itu. Misalnya rata-rata terpangkas 10% adalah umum; dalam hal ini Anda menghitung dari nilai terendah sampai Anda telah melewati 10% dari semua data di set Anda. Nilai-nilai di bawah tanda itu dikesampingkan. Demikian juga, Anda menghitung mundur dari nilai tertinggi hingga Anda melewati persentase pemangkasan Anda, dan mengesampingkan semua nilai lebih dari itu. Anda sekarang berada di tengah 80%. Anda mengambil rata-rata itu, dan itu adalah rata-rata terpangkas 10% Anda. (Perhatikan bahwa Anda dapat memotong proporsi yang tidak sama dari kedua ekor, atau hanya memotong satu ekor, tetapi pendekatan ini kurang umum dan tampaknya tidak berlaku untuk situasi Anda.)
Sekarang pikirkan apa yang akan terjadi jika Anda menghitung rata-rata yang dipangkas 50%. Setengah bagian bawah akan disisihkan, seperti halnya bagian atas. Anda hanya akan dibiarkan dengan nilai tunggal di tengah (biasanya). Anda akan mengambil rata-rata dari itu (artinya, Anda hanya akan mengambil nilai itu) sebagai rata-rata terpangkas. Namun perlu dicatat, bahwa nilai itu adalah median. Dengan kata lain, median adalah rata-rata yang dipangkas (itu adalah rata-rata yang dipangkas 50%). Itu hanya yang sangat agresif. Ini mengasumsikan, pada dasarnya, bahwa 99% dari data Anda terkontaminasi. Ini memberi Anda perlindungan terbaik terhadap pencilan dengan mengorbankan hilangnya daya / efisiensi .
Dugaan saya adalah rata-rata / rata-rata terpangkas 50% jauh lebih agresif daripada yang diperlukan untuk data Anda, dan terlalu boros informasi yang tersedia untuk Anda. Jika Anda memiliki kepekaan proporsi outlier yang ada, saya akan menggunakan informasi itu untuk mengatur persentase pemangkasan dan menggunakan mean terpangkas yang sesuai. Jika Anda tidak memiliki dasar untuk memilih persentase pemangkasan, Anda dapat memilih satu dengan validasi silang, atau menggunakan analisis regresi yang kuat dengan hanya intersep.
sumber
Pertama-tama, hapus data yang tidak valid.
Kedua, Anda tidak perlu menghapus outlier karena nilai-nilai tersebut diamati. Dalam beberapa kasus, ini berguna (seperti dalam regresi linier) tetapi dalam kasus Anda, saya tidak mengerti intinya.
Akhirnya, lebih suka menggunakan median karena lebih tepat untuk menemukan pusat data Anda. Seperti yang Anda katakan, mean bisa peka terhadap outlier (menggunakan mean yang dipangkas bisa menjadi bias).
sumber