Berarti dipangkas vs median

9

Saya memiliki satu set data dengan semua panggilan yang dilakukan ke layanan darurat dan waktu respons dari departemen ambulans. Mereka mengakui bahwa ada beberapa kesalahan dengan waktu respons karena ada kasus di mana mereka tidak mulai merekam (jadi nilainya 0) atau di mana mereka tidak menghentikan jam (sehingga nilainya bisa sangat tinggi).

Saya ingin mengetahui kecenderungan sentral dan saya bertanya-tanya apakah lebih baik menggunakan median atau rata-rata yang dipotong untuk menyingkirkan outlier?

Duarte_RV
sumber
1
Pertama, saya akan menghapus semua data yang tidak valid (nilai = 0). Lalu saya akan memvisualisasikan data dengan histogram atau plot kotak untuk melihat di mana saya berdiri. Karena Anda tidak bisa begitu saja memangkas data sebesar 5% jika Anda memiliki 10% data buruk ...
alesc
Ya, atau plot CDF. Di R, lakukan ini: kali = kali [kali> 0]; plot (ecdf (times))
Paul

Jawaban:

12

Pertimbangkan apa yang dipangkas artinya: Dalam kasus prototipe, pertama-tama Anda mengurutkan data dalam urutan yang meningkat. Kemudian Anda menghitung hingga persentase pemangkasan dari bawah dan membuang nilai-nilai itu. Misalnya rata-rata terpangkas 10% adalah umum; dalam hal ini Anda menghitung dari nilai terendah sampai Anda telah melewati 10% dari semua data di set Anda. Nilai-nilai di bawah tanda itu dikesampingkan. Demikian juga, Anda menghitung mundur dari nilai tertinggi hingga Anda melewati persentase pemangkasan Anda, dan mengesampingkan semua nilai lebih dari itu. Anda sekarang berada di tengah 80%. Anda mengambil rata-rata itu, dan itu adalah rata-rata terpangkas 10% Anda. (Perhatikan bahwa Anda dapat memotong proporsi yang tidak sama dari kedua ekor, atau hanya memotong satu ekor, tetapi pendekatan ini kurang umum dan tampaknya tidak berlaku untuk situasi Anda.)

Sekarang pikirkan apa yang akan terjadi jika Anda menghitung rata-rata yang dipangkas 50%. Setengah bagian bawah akan disisihkan, seperti halnya bagian atas. Anda hanya akan dibiarkan dengan nilai tunggal di tengah (biasanya). Anda akan mengambil rata-rata dari itu (artinya, Anda hanya akan mengambil nilai itu) sebagai rata-rata terpangkas. Namun perlu dicatat, bahwa nilai itu adalah median. Dengan kata lain, median adalah rata-rata yang dipangkas (itu adalah rata-rata yang dipangkas 50%). Itu hanya yang sangat agresif. Ini mengasumsikan, pada dasarnya, bahwa 99% dari data Anda terkontaminasi. Ini memberi Anda perlindungan terbaik terhadap pencilan dengan mengorbankan hilangnya daya / efisiensi .

Dugaan saya adalah rata-rata / rata-rata terpangkas 50% jauh lebih agresif daripada yang diperlukan untuk data Anda, dan terlalu boros informasi yang tersedia untuk Anda. Jika Anda memiliki kepekaan proporsi outlier yang ada, saya akan menggunakan informasi itu untuk mengatur persentase pemangkasan dan menggunakan mean terpangkas yang sesuai. Jika Anda tidak memiliki dasar untuk memilih persentase pemangkasan, Anda dapat memilih satu dengan validasi silang, atau menggunakan analisis regresi yang kuat dengan hanya intersep.

gung - Pasang kembali Monica
sumber
1
Saya setuju dengan semangat ini, tetapi bisa salah dibaca karena menyiratkan bahwa cara yang dipangkas harus didasarkan pada pemangkasan fraksi yang sama di setiap ekor. Itu hanya prosedur biasa, dan prosedur yang paling sering dibahas untuk kasus rujukan dari distribusi yang kurang simetris tetapi mungkin berekor lemak, tetapi tidak masuk akal wajib. Ada literatur tentang pemotongan hanya dalam satu ekor, yang masuk akal ketika semua nilai yang meragukan mungkin di ekor.
Nick Cox
@NickCox, poin bagus. Saya telah menambahkan sedikit teks untuk mengklarifikasi itu. Beri tahu saya jika menurut Anda perlu lebih banyak.
gung - Reinstate Monica
Kelihatan bagus. Memangkas secara alami dalam satu ekor hanyalah kasus khusus dengan proporsi yang tidak sama di mana satu proporsi adalah nol.
Nick Cox
@NickCox, tentu, tapi saya pikir mungkin lebih baik untuk menjadi eksplisit.
gung - Reinstate Monica
-1

Pertama-tama, hapus data yang tidak valid.

Kedua, Anda tidak perlu menghapus outlier karena nilai-nilai tersebut diamati. Dalam beberapa kasus, ini berguna (seperti dalam regresi linier) tetapi dalam kasus Anda, saya tidak mengerti intinya.

Akhirnya, lebih suka menggunakan median karena lebih tepat untuk menemukan pusat data Anda. Seperti yang Anda katakan, mean bisa peka terhadap outlier (menggunakan mean yang dipangkas bisa menjadi bias).

Philippe Remy
sumber
3
Karena estimasi lokasi adalah kasus regresi tertentu, saya ingin tahu bagaimana bermanfaat untuk menghapus pencilan dalam yang terakhir tetapi tidak dalam kasus sebelumnya.
user603