Masalah dengan Deteksi Outlier

8

Dalam sebuah posting blog Andrew Gelman menulis :

Regresi bertahap adalah salah satu dari hal-hal ini, seperti deteksi outlier dan diagram lingkaran, yang tampaknya menjadi populer di kalangan non-ahli statistik tetapi dianggap oleh para ahli statistik sebagai sedikit lelucon.

Saya mengerti referensi untuk diagram lingkaran, tetapi mengapa deteksi outlier dipandang rendah oleh ahli statistik menurut Gelman? Apakah hanya itu yang dapat menyebabkan orang memangkas data mereka secara berlebihan?

114
sumber
2
Jika Anda melihat komentar di halaman yang sama dengan yang Anda tautkan, Anda akan menemukan jawaban dari Andrew sendiri, serta diskusi lebih lanjut. Lihat misalnya komentar ini: andrewgelman.com/2014/06/02/hate-stepwise-regress/…
Jerome Baum
1
Detail di sini tentang ahli statistik versus non-ahli statistik sangat disayangkan. Lihatlah misalnya risalah Barnett dan Lewis pada outlier dan Anda akan melihat tes demi tes yang disarankan sebagian besar oleh ahli statistik yang berfokus pada situasi yang tidak masuk akal. Memang benar bahwa (misalnya) dalam fisika orang sering masih mengikuti aturan-aturan kuno yang diusulkan oleh Peirce dan Chauvenet, tetapi sebagian besar kelicikan di sini juga dikaitkan dengan ahli statistik. Pengungkapan: Saya bukan ahli statistik, dan saya cenderung percaya bahwa pencilan seringkali asli dan bahwa menemukan skala yang tepat untuk bekerja membuat hampir semua penurut.
Nick Cox
@NickCox: Saya pikir Gelman mungkin merujuk ke percakapan yang berbeda antara ahli statistik dan non-ahli statistik. Misalnya, ketika mencari perilaku jahat di jaringan, banyak non-ahli statistik dipecat karena deteksi outlier; "tentu saja aku ingin tahu tentang perilaku yang tidak biasa !!". Membaca literatur statistik, banyak ahli statistik memulai dan mengakhiri makalah mereka "baiklah, ini bisa dilakukan dan inilah caranya tapi ..."
Cliff AB
... atau sebagai alternatif, ahli biologi seringkali baik-baik saja dengan menjatuhkan pencilan, karena mereka percaya pencilan ini disebabkan oleh kesalahan prosedural daripada hasil yang tidak biasa dari percobaan yang dilakukan dengan benar. Jadi bagi mereka, sebuah prosedur yang secara otomatis menghilangkan kesalahan prosedural terdengar hebat, tetapi seorang ahli statistik tidak begitu senang dengan apa yang sebenarnya terjadi dalam praktek.
Cliff AB

Jawaban:

1

Komentar @Jerome Baum tepat. Untuk membawa kutipan Gelman ke sini:

Deteksi outlier bisa menjadi hal yang baik. Masalahnya adalah bahwa non-ahli statistik tampaknya suka menempel pada kata "outlier" tanpa mencoba berpikir sama sekali tentang proses yang menciptakan outlier, juga beberapa buku teks memiliki aturan yang terlihat bodoh bagi ahli statistik seperti saya, aturan seperti memberi label sesuatu sebagai outlier jika lebih dari beberapa sd dari median, atau apa pun. Konsep outlier berguna tetapi saya pikir itu membutuhkan konteks — jika Anda memberi label sesuatu sebagai outlier, Anda ingin mencoba memahami mengapa Anda berpikir demikian.

Untuk menambahkan sedikit lebih banyak, bagaimana kalau kita mendefinisikan outlier terlebih dahulu . Cobalah untuk melakukannya dengan keras tanpa merujuk pada sesuatu yang visual seperti "sepertinya jauh dari poin lain". Ini sebenarnya cukup sulit.

Saya akan mengatakan bahwa pencilan adalah titik yang sangat tidak mungkin diberikan model bagaimana poin dihasilkan. Dalam kebanyakan situasi, orang tidak benar-benar memiliki model bagaimana poin dihasilkan, atau jika mereka melakukannya terlalu disederhanakan sehingga sering salah. Jadi, seperti yang dikatakan Andrew, orang akan melakukan hal-hal seperti berasumsi bahwa beberapa jenis proses Gaussian menghasilkan poin dan jadi jika suatu titik lebih dari sejumlah SD tertentu dari nilai rata-rata, itu adalah outlier. Secara matematis nyaman, tidak begitu berprinsip.

Dan kami bahkan belum masuk ke dalam apa yang dilakukan orang dengan outlier setelah mereka diidentifikasi. Kebanyakan orang ingin membuang poin-poin yang tidak nyaman ini, misalnya. Dalam banyak kasus, outlier yang mengarah pada terobosan dan penemuan, bukan yang bukan outlier!

Ada banyak ad-hoc'ery dalam deteksi outlier, seperti yang dilakukan oleh non-ahli statistik, dan Andrew tidak nyaman dengan itu.

Wayne
sumber
0

Ini menunjukkan tarik ulur klasik antara dua jenis tujuan untuk analisis statistik seperti regresi: deskriptif vs prediksi. (Maafkan generalisasi dalam komentar saya di bawah ini.)

Dari sudut pandang ahli statistik, deskripsi biasanya lebih penting daripada prediksi. Oleh karena itu, mereka secara inheren "bias" terhadap penjelasan. Mengapa ada pencilan? Apakah ini benar-benar kesalahan dalam entri data (nol tambahan di akhir nilai) atau apakah ini merupakan titik data valid yang kebetulan ekstrem? Ini adalah pertanyaan penting bagi ahli statistik.

OTOH, para ilmuwan data lebih tertarik pada prediksi daripada deskripsi. Tujuan mereka adalah untuk mengembangkan model yang kuat yang melakukan pekerjaan yang baik dalam memprediksi hasil di masa depan (misalnya, pembelian, gesekan). Jika ada nilai ekstrem di salah satu bidang, seorang ilmuwan data akan dengan senang hati membatasi nilai itu (ke nilai persentil ke-98, misalnya) jika itu membantu meningkatkan akurasi prediksi model.

Saya tidak memiliki kecenderungan umum terhadap salah satu dari kedua pendekatan ini. Namun, apakah metode / pendekatan seperti stepwise-regression dan outlier-treatment "sedikit bercanda" atau tidak tergantung pada sisi mana dari pagar yang Anda berdiri.

Vishal
sumber