Dalam sebuah posting blog Andrew Gelman menulis :
Regresi bertahap adalah salah satu dari hal-hal ini, seperti deteksi outlier dan diagram lingkaran, yang tampaknya menjadi populer di kalangan non-ahli statistik tetapi dianggap oleh para ahli statistik sebagai sedikit lelucon.
Saya mengerti referensi untuk diagram lingkaran, tetapi mengapa deteksi outlier dipandang rendah oleh ahli statistik menurut Gelman? Apakah hanya itu yang dapat menyebabkan orang memangkas data mereka secara berlebihan?
Jawaban:
Komentar @Jerome Baum tepat. Untuk membawa kutipan Gelman ke sini:
Untuk menambahkan sedikit lebih banyak, bagaimana kalau kita mendefinisikan outlier terlebih dahulu . Cobalah untuk melakukannya dengan keras tanpa merujuk pada sesuatu yang visual seperti "sepertinya jauh dari poin lain". Ini sebenarnya cukup sulit.
Saya akan mengatakan bahwa pencilan adalah titik yang sangat tidak mungkin diberikan model bagaimana poin dihasilkan. Dalam kebanyakan situasi, orang tidak benar-benar memiliki model bagaimana poin dihasilkan, atau jika mereka melakukannya terlalu disederhanakan sehingga sering salah. Jadi, seperti yang dikatakan Andrew, orang akan melakukan hal-hal seperti berasumsi bahwa beberapa jenis proses Gaussian menghasilkan poin dan jadi jika suatu titik lebih dari sejumlah SD tertentu dari nilai rata-rata, itu adalah outlier. Secara matematis nyaman, tidak begitu berprinsip.
Dan kami bahkan belum masuk ke dalam apa yang dilakukan orang dengan outlier setelah mereka diidentifikasi. Kebanyakan orang ingin membuang poin-poin yang tidak nyaman ini, misalnya. Dalam banyak kasus, outlier yang mengarah pada terobosan dan penemuan, bukan yang bukan outlier!
Ada banyak ad-hoc'ery dalam deteksi outlier, seperti yang dilakukan oleh non-ahli statistik, dan Andrew tidak nyaman dengan itu.
sumber
Ini menunjukkan tarik ulur klasik antara dua jenis tujuan untuk analisis statistik seperti regresi: deskriptif vs prediksi. (Maafkan generalisasi dalam komentar saya di bawah ini.)
Dari sudut pandang ahli statistik, deskripsi biasanya lebih penting daripada prediksi. Oleh karena itu, mereka secara inheren "bias" terhadap penjelasan. Mengapa ada pencilan? Apakah ini benar-benar kesalahan dalam entri data (nol tambahan di akhir nilai) atau apakah ini merupakan titik data valid yang kebetulan ekstrem? Ini adalah pertanyaan penting bagi ahli statistik.
OTOH, para ilmuwan data lebih tertarik pada prediksi daripada deskripsi. Tujuan mereka adalah untuk mengembangkan model yang kuat yang melakukan pekerjaan yang baik dalam memprediksi hasil di masa depan (misalnya, pembelian, gesekan). Jika ada nilai ekstrem di salah satu bidang, seorang ilmuwan data akan dengan senang hati membatasi nilai itu (ke nilai persentil ke-98, misalnya) jika itu membantu meningkatkan akurasi prediksi model.
Saya tidak memiliki kecenderungan umum terhadap salah satu dari kedua pendekatan ini. Namun, apakah metode / pendekatan seperti stepwise-regression dan outlier-treatment "sedikit bercanda" atau tidak tergantung pada sisi mana dari pagar yang Anda berdiri.
sumber