Drop outlier berdasarkan “2,5 kali RMSE”

13

Dalam Kahneman dan Deaton (2010) , penulis menulis yang berikut:

Regresi ini menjelaskan 37% dari varians, dengan root mean square error (RMSE) dari 0,67852. Untuk menghilangkan pencilan dan laporan pendapatan yang tidak masuk akal, kami menjatuhkan pengamatan di mana nilai absolut dari perbedaan antara pendapatan kayu dan prediksi melebihi 2,5 kali RMSE.

Apakah ini praktik umum? Apa intuisi di balik melakukannya? Tampaknya agak aneh untuk mendefinisikan pencilan yang didasarkan pada model yang mungkin tidak ditentukan dengan baik sejak awal. Tidakkah penentuan outlier didasarkan pada beberapa alasan teoretis untuk apa yang merupakan nilai yang masuk akal, dan bukan seberapa baik model Anda memprediksi nilai sebenarnya?


: Daniel Kahneman, Angus Deaton (2010): Penghasilan tinggi meningkatkan evaluasi kehidupan tetapi tidak kesejahteraan emosional. Prosiding National Academy of Sciences Sep 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107

Parseltongue
sumber
1
Saat Anda memberikan penawaran dari sebuah makalah, selalu berikan referensi yang menyertakan nomor halaman .
Pasang kembali Monica
7
Saya tidak bisa mengatakan apakah ini 'praktik umum', tapi saya harap tidak. Penghapusan 'outliers' otomatis pada dasarnya adalah ide yang buruk. Mungkin model atau kriteria penghapusan Anda tidak baik, mungkin ada sesuatu yang baru terjadi (mulai menurun, kemungkinan baru bangkit) yang tidak boleh Anda abaikan. // Berbeda jika Anda dapat melacak nilai yang mencurigakan untuk kesalahan entri data atau kegagalan peralatan, atau jika nilainya tidak masuk akal (pria tinggi 16'2 ", pria dengan 61 jam yang dapat ditagih Selasa lalu, penerbangan 25 menit) SFO-ORD). Tapi bukan karena itu tidak cocok dengan model. Saya tahu startup yang bangkrut seperti itu.
BruceET
7
Validitas statistik dari pendekatan ini dicerminkan oleh jumlah desimal yang mereka laporkan untuk RMSE.
Frans Rodenburg
Ini terasa seperti solusi asumsi kasar / heroik untuk pertanyaan yang saya ajukan beberapa bulan yang lalu: stats.stackexchange.com/questions/390051/…
Adrian

Jawaban:

30

Alasan untuk menjatuhkan data ini dinyatakan di sana dalam kutipan: yaitu, untuk "menghilangkan pencilan dan laporan pendapatan yang tidak masuk akal". Fakta bahwa mereka mengacu pada kedua hal ini dalam hubungannya berarti bahwa mereka mengakui bahwa setidaknya beberapa outlier mereka bukan nilai yang tidak masuk akal, dan dalam hal apapun, mereka tidak memberikan argumen mengapa nilai dengan residu tinggi harus dianggap "tidak masuk akal "nilai pendapatan. Dengan melakukan ini, mereka secara efektif menghilangkan titik data karena residu lebih tinggi dari apa yang diharapkan dalam model regresi mereka. Seperti yang telah saya nyatakan dalam jawaban lain di sini , ini sama saja dengan menuntut kenyataan agar sesuai dengan asumsi model Anda, dan mengabaikan bagian-bagian realitas yang tidak sesuai dengan asumsi-asumsi itu.

Apakah ini praktik biasa atau tidak, itu adalah praktik yang mengerikan. Ini terjadi karena titik-titik data terpencil sulit untuk ditangani, dan analis tidak mau memodelkan mereka dengan benar (misalnya, dengan menggunakan model yang memungkinkan kurtosis lebih tinggi dalam istilah kesalahan), sehingga mereka hanya menghapus bagian dari kenyataan yang tidak sesuai dengan kemampuan mereka untuk melakukan pemodelan statistik. Praktek ini secara statistik tidak diinginkan dan mengarah pada kesimpulan yang secara sistematis meremehkan varians dan kurtosis dalam istilah kesalahan. Penulis makalah ini melaporkan bahwa mereka menjatuhkan 3,22% dari data mereka karena penghapusan outlier ini (p. 16490). Karena sebagian besar dari titik-titik data ini adalah pendapatan yang sangat tinggi, ini menimbulkan keraguan substansial pada kemampuan mereka untuk membuat kesimpulan yang kuat tentang efek pendapatan tinggi (yang merupakan tujuan dari makalah mereka).

Pasang kembali Monica
sumber
Beraninya kau mengkritik para Daniel Kahneman! Selain lelucon, itu adalah poin +1 yang sangat bagus.
Tim
11
Kahneman adalah seorang psikolog yang sangat baik, yang buku-bukunya biasanya saya nikmati dan bermanfaat. Mereka masing-masing dapat memiliki lima puluh hadiah Nobel --- itu tidak akan mengubah fakta bahwa penghapusan massal "pencilan" adalah praktik statistik yang mengerikan.
Pasang kembali Monica
3
Secara alami saya setuju dengan Anda. Saya pikir itu tidak perlu dikatakan.
Nick Cox
1
@NickCox Maksud Anda "Hadiah Memorial Nobel" : karena saya yakin Anda tahu itu tidak ditetapkan oleh Nobel dan benar-benar tidak ada hubungannya dengan dia. Nama resmi rupanya "The Sveriges Riksbank Prize dalam Ilmu Ekonomi dalam Memori Alfred Nobel".
Amuba kata Reinstate Monica
1
Anda yakin saya tahu itu dan Anda memang benar. EJMR yang selalu berwibawa pernah memuat postingan ini tentang saya "Tidak, dia tidak akan pernah memenangkan Nobel", yang berarti hadiah itu.
Nick Cox