Mengapa eliminasi mundur dibenarkan ketika melakukan regresi berganda?

9

Apakah itu tidak menyebabkan pemasangan yang berlebihan? Apakah hasil saya akan lebih andal jika saya menambahkan prosedur jack-knife atau bootstrap sebagai bagian dari analisis?

sim
sumber
8
Siapa bilang itu dibenarkan? Tentu saja itu harus mengarah pada overfitting.
gung - Reinstate Monica
2
Ini sebenarnya disarankan dalam banyak buku (masih?), Misalnya amazon.com/Statistics-Explained-Introductory-Guide-Scientists/… . Saya sendiri sudah memikirkan masalah yang sama. Saya pikir saya memiliki setidaknya 3-4 buku statistik yang tidak membahas masalah overfitting sama sekali, ketika memperkenalkan regresi berganda.
mmh
5
Jujur saja, jika buku statistik pengantar tidak membahas overfitting dan over testing, saya akan membaca buku yang berbeda.
Matthew Drury
3
Eliminasi mundur (dan pemilihan maju) masih cenderung over-fit jika validasi silang meninggalkan-satu-keluar (misalnya PRESS) digunakan sebagai kriteria pemilihan fitur.
Dikran Marsupial
5
@mmh tidak cukup pengantar, tapi saya sangat merekomendasikan membaca bab 4 dari Strategi Pemodelan Regresi Frank Harrell (well, bukan hanya bab 4 yang layak dibaca, tetapi bagian itu sangat relevan dengan diskusi ini).
Glen_b -Reinstate Monica

Jawaban:

2

Saya pikir membangun model dan mengujinya adalah hal yang berbeda. Penghapusan mundur adalah bagian dari model bangunan. Pisau jack dan bootstrap lebih sering digunakan untuk mengujinya.

Anda tentu bisa memiliki perkiraan yang lebih andal dengan bootstrap dan pisau jack daripada eleiminasi mundur sederhana. Tetapi jika Anda benar-benar ingin menguji overfitting, tes pamungkas adalah sampel terpisah, latih pada beberapa, uji pada yang lain. Leave-one-out terlalu tidak stabil / tidak dapat diandalkan untuk tujuan ini: http://www.russpoldrack.org/2012/12/the-perils-of-leave-one-out.html

Saya pikir setidaknya 10% dari subjek harus keluar untuk mendapatkan estimasi yang lebih stabil dari model. Dan jika Anda memiliki 20 mata pelajaran, 2 mata pelajaran masih sangat sedikit. Tetapi kemudian pertanyaannya menjadi apakah Anda memiliki sampel yang cukup besar untuk membangun model yang dapat diterapkan pada seluruh populasi.

Semoga ini menjawab pertanyaan Anda setidaknya sebagian.

Dorian P
sumber
Jadi kita bisa menggunakan validasi silang dengan (atau )? k<nk<<n
mmh
Pengantar Pembelajaran Statistik membahas berbagai pendekatan untuk resampling (set validasi, validasi silang dengan jumlah grup yang berbeda, bootstrap) di Bab 5, dan pemilihan model di Bab 6.
EdM