Dalam Kahneman dan Deaton (2010) , penulis menulis yang berikut:
Regresi ini menjelaskan 37% dari varians, dengan root mean square error (RMSE) dari 0,67852. Untuk menghilangkan pencilan dan laporan pendapatan yang tidak masuk akal, kami menjatuhkan pengamatan di mana nilai absolut dari perbedaan antara pendapatan kayu dan prediksi melebihi 2,5 kali RMSE.
Apakah ini praktik umum? Apa intuisi di balik melakukannya? Tampaknya agak aneh untuk mendefinisikan pencilan yang didasarkan pada model yang mungkin tidak ditentukan dengan baik sejak awal. Tidakkah penentuan outlier didasarkan pada beberapa alasan teoretis untuk apa yang merupakan nilai yang masuk akal, dan bukan seberapa baik model Anda memprediksi nilai sebenarnya?
: Daniel Kahneman, Angus Deaton (2010): Penghasilan tinggi meningkatkan evaluasi kehidupan tetapi tidak kesejahteraan emosional. Prosiding National Academy of Sciences Sep 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107
sumber
Jawaban:
Alasan untuk menjatuhkan data ini dinyatakan di sana dalam kutipan: yaitu, untuk "menghilangkan pencilan dan laporan pendapatan yang tidak masuk akal". Fakta bahwa mereka mengacu pada kedua hal ini dalam hubungannya berarti bahwa mereka mengakui bahwa setidaknya beberapa outlier mereka bukan nilai yang tidak masuk akal, dan dalam hal apapun, mereka tidak memberikan argumen mengapa nilai dengan residu tinggi harus dianggap "tidak masuk akal "nilai pendapatan. Dengan melakukan ini, mereka secara efektif menghilangkan titik data karena residu lebih tinggi dari apa yang diharapkan dalam model regresi mereka. Seperti yang telah saya nyatakan dalam jawaban lain di sini , ini sama saja dengan menuntut kenyataan agar sesuai dengan asumsi model Anda, dan mengabaikan bagian-bagian realitas yang tidak sesuai dengan asumsi-asumsi itu.
Apakah ini praktik biasa atau tidak, itu adalah praktik yang mengerikan. Ini terjadi karena titik-titik data terpencil sulit untuk ditangani, dan analis tidak mau memodelkan mereka dengan benar (misalnya, dengan menggunakan model yang memungkinkan kurtosis lebih tinggi dalam istilah kesalahan), sehingga mereka hanya menghapus bagian dari kenyataan yang tidak sesuai dengan kemampuan mereka untuk melakukan pemodelan statistik. Praktek ini secara statistik tidak diinginkan dan mengarah pada kesimpulan yang secara sistematis meremehkan varians dan kurtosis dalam istilah kesalahan. Penulis makalah ini melaporkan bahwa mereka menjatuhkan 3,22% dari data mereka karena penghapusan outlier ini (p. 16490). Karena sebagian besar dari titik-titik data ini adalah pendapatan yang sangat tinggi, ini menimbulkan keraguan substansial pada kemampuan mereka untuk membuat kesimpulan yang kuat tentang efek pendapatan tinggi (yang merupakan tujuan dari makalah mereka).
sumber